Compartilhar via


O que aconteceu com o Databricks Repos?

O Azure Databricks distribuiu novos elementos de interface do usuário que permitem que os usuários trabalhem diretamente com pastas com suporte de repositório Git da interface do usuário do workspace, substituindo efetivamente a funcionalidade de recurso “Repos” anterior e separada.

O que essa mudança significa para mim?

Se você for um usuário do recurso Repos do Databricks para controle do código-fonte baseado em Git coversão dos ativos do projeto, a funcionalidade principal não foi alterada. A diferença mais notável é que muitas operações de interface do usuário contextuais agora se referem a “pastas” Git em vez de “Repos”.

Por exemplo, uma pasta do Databricks apoiada por um repositório Git pode ser criada selecionando Novo e, em seguida, Repositorio da interface do usuário:

A opção de menu “Novo” usada para se referir a um “Repositório”

Agora, selecione Novo e escolha pasta Git. A mesma coisa, nome diferente!

A opção de menu “Novo” agora solicita que você crie uma “pasta Git”

Essa alteração fornece algumas melhorias que simplificam o trabalho com pastas controladas por versão:

  1. Melhor organização de pastas: as pastas Git podem ser criadas em qualquer nível da árvore de arquivos do workspace, permitindo que você organize suas pastas Git de uma maneira que funcione melhor para seu projeto. Por exemplo, você pode criar pastas Git em /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>. Repos só pode ser criado em um nível de diretório fixo, como a raiz da pasta de usuário repositório, como /Workspace/Repos/<user email>/<Repo name>.
    • Observação: as pastas Git podem conter ou agrupar com outros ativos que não têm suporte atualmente pelo Repos. Tipos de ativo sem suporte, como ativos DBSQL e experimentos de MLflow, podem ser movidos para pastas Git. O suporte à serialização para ativos adicionais será adicionado ao longo do tempo.
  2. Comportamentos simplificados da interface do usuário: esta alteração traz uma interação comum do espaço de trabalho – trabalhar com o Git – diretamente para o seu workspace do Databricks e reduz o tempo gasto na navegação entre o seu workspace e as suas pastas Git controladas por versão.

O que mudou, especificamente?

  1. As pastas Git podem ser criadas fora do diretório /Repos.
  2. As pastas do Git são criadas selecionando Novo>pasta Git em um workspace do Databricks. Isso cria uma nova pasta Git em /Workspace/Users/<user-email>/.
  3. As pastas Git podem ser criadas em várias profundidades da árvore de arquivos do workspace, desde que estejam sob /Workspace/Users/<user-email>. Por exemplo, você pode criar pastas Git em /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>. Você pode ter várias pastas Git em /Workspace/Users/<user-email>.
  4. Ativos sem suporte são permitidos em pastas Git. O suporte à serialização para outros tipos de ativos será adicionado ao longo do tempo.
  5. Ao contrário do Repos, você não pode criar uma nova pasta Git no Databricks sem uma URL do repositório remoto.

O que acontece com meus repositórios atuais?

Se você tiver Repos definidos para seu workspace do Azure Databricks, eles não serão removidos e você não precisará migrar esses Repos existentes para pastas Git. Em vez disso, os Repos foram integrados à interface do usuário do workspace do Azure Databricks e não são mais apresentados como um conjunto separado de pastas organizadas em um nó Repo de nível superior. Eles agora podem ser encontrados na /Workspace pasta raiz como /Workspace/Repos.

  • As referências existentes /Repos continuarão a funcionar. Os caminhos que começam com /Repos ou /Workspace/Repos se referem à mesma pasta e os caminhos declarados em jobs, dbutils.notebook.rune %run as referências podem permanecer inalterados.
  • Em um caso raro, você deve fazer uma modificação única em seu workspace para que esse redirecionamento funcione. Para obter mais detalhes sobre essa modificação, consulte Referências a objetos de espaço de trabalho.

O Databricks recomenda que os usuários criem novas pastas Git em vez de Repos se precisarem se conectar ao controle do código-fonte Git do workspace do Databricks. A colocação de repositórios Git e outros ativos de workspace torna as pastas Git mais detectáveis e fáceis de gerenciar do que Repos.

Permissões de pasta Git as pastas Git têm as mesmas permissões de pasta de workspace que outras pastas de workspace. Os usuários devem ter a permissão CAN_MANAGE para executar a maioria das operações do Git.

Qual DBR devo usar para executar código em pastas Git?

Para execução de código consistente entre pastas Git e Repos herdados, o Databricks recomenda que os usuários executem código somente em pastas Git com DBR 15+.

O comportamento atual do CWD (diretório de trabalho)

O Databricks Runtime (DBR) versão 14 ou superior permite o uso de caminhos relativos e fornece a mesma experiência atual do CWD (diretório de trabalho) para todos os notebooks, em que você executa o notebook do diretório de trabalho atual. A atual experiência do CWD pode ser inconsistente entre notebooks em uma pasta Git e uma pasta não Git para versões mais antigas do DBR (Databricks Runtime).

Comportamento sys.path do Python

O Databricks Runtime (DBR) versão 14.3 ou superior fornece o mesmo comportamento de sys.path em pastas Git que no Repos herdado. Nas versões anteriores do DBR, o comportamento da pasta Git difere dos repositórios herdados, pois o diretório raiz do repositório não é adicionado automaticamente a sys.path para pastas Git. Para Python, sys.path contém uma lista de diretórios que o interpretador pesquisa ao importar módulos. Se você não puder usar o DBR 15 ou superior, poderá anexar manualmente um caminho de pasta a sys.path como solução alternativa.

Para obter exemplos sobre como adicionar diretórios a sys.path usando caminhos relativos, consulte Importar módulos Python e R.

Precedência da biblioteca Python

O Databricks Runtime (DBR) versão 14.3 ou superior fornece a mesma precedência de biblioteca do Python em pastas Git e em repositórios herdados.