Integrazione Git per le cartelle Git di Databricks
Le cartelle Git di Databricks sono un client Git visivo e un'API in Azure Databricks. Supporta operazioni Git comuni, come la clonazione di un repository, il commit e il push, il pull, la gestione dei rami e il confronto visivo delle differenze durante il commit.
All'interno delle cartelle Git, è possibile sviluppare codice in notebook o altri file e seguire le procedure consigliate per lo sviluppo di codice di data science e ingegneria dei dati usando Git per il controllo della versione, la collaborazione e CI/CD.
Nota
Le cartelle Git (Repository) sono progettate principalmente per la creazione e la collaborazione dei flussi di lavoro.
Cosa si può fare con le cartelle Git di Databricks?
Le cartelle Git di Databricks forniscono il controllo del codice sorgente per i progetti di dati e intelligenza artificiale grazie all'integrazione con i provider Git.
Nelle cartelle Git di Databricks è possibile usare la funzionalità Git per:
- Clonare, eseguire il push e il pull da un repository Git remoto.
- Creare e gestire rami per il lavoro di sviluppo, tra cui l'unione, la riassegnazione e la risoluzione dei conflitti.
- Creare notebook (inclusi i notebook IPYNB) e modificarli, e altri file.
- Confrontare visivamente le differenze al commit e risolvere i conflitti di unione.
Per istruzioni dettagliate, vedere Eseguire operazioni Git nelle cartelle Git di Databricks (Repository).
Nota
Le cartelle Git di Databricks hanno anche un'API che è possibile integrare con la pipeline CI/CD. Ad esempio, è possibile aggiornare a livello di codice un repository Databricks in modo che abbia sempre la versione più recente del codice. Per informazioni sulle procedure consigliate per lo sviluppo di codice con cartelle Git di Databricks, vedere Tecniche CI/CD con Git e le cartelle Git di Databricks (Repository).
Per informazioni sui tipi di notebook supportati in Azure Databricks, vedere Esportare e importare notebook di Databricks.
Fornitori Git supportati
Le cartelle Git di Databricks sono supportate da un repository Git integrato. Il repository può essere ospitato da uno dei provider Git cloud e aziendali elencati nella sezione seguente.
Nota
Che cos'è un "provider Git"?
Un "provider Git" è il servizio specifico (denominato) che ospita un modello di controllo del codice sorgente basato su Git. Le piattaforme di controllo del codice sorgente basate su Git sono ospitate in due modi: come servizio cloud ospitato dall'azienda che lo sviluppa, o come servizio locale installato e gestito dall’azienda nel proprio hardware. Molti provider Git, come GitHub, Microsoft, GitLab e Atlassian, offrono sia servizi SaaS basati su cloud che servizi Git in sede (talvolta denominati "autogestiti").
Quando si sceglie il provider Git durante la configurazione, è necessario tenere presenti le differenze tra i provider Git cloud (SaaS) e locali. Le soluzioni locali sono in genere ospitate dietro una VPN aziendale e potrebbero non essere accessibili da Internet. In genere, i fornitori Git in sede hanno un nome che termina con "Server" o "Self-Managed", ma in caso di dubbio, contattare gli amministratori aziendali o consultare la documentazione del fornitore Git.
Se il provider Git è basato sul cloud e non è elencato come provider supportato, selezionare "GitHub" come provider può funzionare, ma non è garantito.
Nota
Se si usa "GitHub" come provider e si è ancora incerti sull’utilizzo della versione cloud o locale, vedere Informazioni su GitHub Enterprise Server nella documentazione di GitHub.
Provider Git su cloud supportati da Databricks
- GitHub, GitHub AE e GitHub Enterprise Cloud
- Atlassian BitBucket Cloud
- GitLab e GitLab EE
- Microsoft Azure DevOps (Azure Repos)
Provider Git locali supportati da Databricks
- GitHub Enterprise Server
- Server e data center Atlassian BitBucket
- GitLab Self-Managed
- Microsoft Azure DevOps Server: un amministratore dell'area di lavoro deve consentire in modo esplicito di elencare i prefissi di dominio URL per Microsoft Azure DevOps Server se l'URL non corrisponde a
dev.azure.com/*
ovisualstudio.com/*
. Per ulteriori dettagli, vedere Limitare l'utilizzo agli URL in un elenco consentito
Se si sta integrando un repository Git locale non accessibile da Internet, è necessario installare anche un proxy per le richieste di autenticazione Git all'interno della VPN aziendale. Per altre informazioni, vedere Configurare la connettività Git privata per le cartelle Git di Azure Databricks (Repos).
Per informazioni su come usare i token di accesso con il provider Git, vedere Configurare le credenziali Git & connettere un repository remoto ad Azure Databricks.
Risorse per l'integrazione Git
Usare la CLI 2.0 di Databricks per l'integrazione Git con Azure Databricks:
Leggere i seguenti documenti di riferimento:
- Flag e comandi globali della CLI di Databricks