Integração Git para pastas Databricks Git
As pastas Git do Databricks são um cliente Git visual e uma API no Azure Databricks. Ele suporta operações comuns do Git, como clonagem de um repositório, confirmação e push, pulling, gerenciamento de ramificações e comparação visual de diffs ao confirmar.
Dentro das pastas do Git, você pode desenvolver código em blocos de anotações ou outros arquivos e seguir as melhores práticas de desenvolvimento de código de engenharia e ciência de dados usando o Git para controle de versão, colaboração e CI/CD.
Nota
As pastas Git (Repos) são projetadas principalmente para fluxos de trabalho de criação e colaboração.
O que você pode fazer com as pastas Databricks Git?
As pastas Databricks Git fornecem controle de origem para dados e projetos de IA integrando-se ao Git providers.
Nas pastas Git do Databricks, você pode usar a funcionalidade do Git para:
- Clone, push e pull de um repositório Git remoto.
- Crie e gerencie ramificações para o trabalho de desenvolvimento, incluindo fusão, refundação e resolução de conflitos.
- Crie blocos de notas (incluindo blocos de notas IPYNB) e edite-os e outros ficheiros.
- Compare visualmente as diferenças ao confirmar e resolver conflitos de mesclagem.
Para obter instruções passo a passo, consulte Executar operações Git em pastas Git Databricks (Repos).
Nota
As pastas Databricks Git também têm uma API que você pode integrar com seu pipeline de CI/CD. Por exemplo, você pode update programaticamente um repositório Databricks para que ele sempre tenha a versão mais recente do código. Para obter informações sobre práticas recomendadas para desenvolvimento de código usando pastas Git Databricks, consulte Técnicas de CI/CD com pastas Git e Databricks Git (Repos).
Para obter informações sobre os tipos de blocos de notas suportados no Azure Databricks, consulte Exportar e importar blocos de notas Databricks.
Git providers suportado
As pastas Databricks Git são apoiadas por um repositório Git integrado. O repositório pode ser hospedado por qualquer um dos providers Git corporativos e na nuvem listados na seção a seguir.
Nota
O que é um "provedor Git"?
Um "provedor Git" é o serviço específico (nomeado) que hospeda um modelo de controle de origem baseado no Git. As plataformas de controle de origem baseadas em Git são hospedadas de duas maneiras: como um serviço de nuvem hospedado pela empresa em desenvolvimento ou como um serviço local instalado e gerenciado por sua própria empresa em seu próprio hardware. Muitos providers Git, como GitHub, Microsoft, GitLab e Atlassian, fornecem serviços Git baseados em nuvem e locais (às vezes chamados de "autogerenciados").
Ao escolher seu provedor Git durante a configuração, você deve estar ciente das diferenças entre nuvem (SaaS) e Git local providers. As soluções locais são normalmente hospedadas atrás de uma VPN da empresa e podem não ser acessíveis pela Internet. Normalmente, o Git local providers ter um nome terminado em "Servidor" ou "Autogerenciado", mas se você não tiver certeza, entre em contato com os administradores da sua empresa ou revise a documentação do provedor do Git.
Se o seu provedor Git for baseado na nuvem e não estiver listado como um provedor suportado, selecionar "GitHub" como seu provedor pode funcionar, mas não é garantido.
Nota
Se você estiver usando o "GitHub" como um provedor e ainda não tiver certeza se estiver usando a versão na nuvem ou local, consulte Sobre o GitHub Enterprise Server nos documentos do GitHub.
Cloud Git providers suportado pelo Databricks
- GitHub, GitHub AE e GitHub Enterprise Cloud
- Nuvem BitBucket da Atlassian
- GitLab e GitLab EE
- DevOps do Microsoft Azure (repositórios do Azure)
O Git local providers suportado pelo Databricks
- GitHub Enterprise Server
- Atlassian BitBucket Server e Data Center
- GitLab Auto-Gerenciado
- Servidor de DevOps do Microsoft Azure: um administrador de espaço de trabalho deve permitir explicitamente a lista dos prefixos de domínio de URL para seu Servidor de DevOps do Microsoft Azure se a URL não corresponder ou
dev.azure.com/*
visualstudio.com/*
. Para mais informações, veja Restringir o uso a URLs numa permissão list
Se você estiver integrando um repositório Git local que não é acessível pela Internet, um proxy para solicitações de autenticação Git também deve ser instalado dentro da VPN da sua empresa. Para obter mais detalhes, consulte Set sobre como configurar a conectividade Git privada para pastas Git (Repos) do Azure Databricks.
Para saber como usar tokens de acesso com seu provedor Git, consulte Configurar o Git credentials & conectar um repositório remoto ao Azure Databricks.
Recursos para integração com Git
Use a CLI 2.0 do Databricks para integração do Git com o Azure Databricks:
Leia os seguintes documentos de referência: