Configurare le cartelle Git di Databricks (Repository)
Informazioni su come configurare le cartelle Git di Databricks (in precedenza Repos) per il controllo della versione. Dopo aver configurato le cartelle Git in Databricks, è possibile eseguire operazioni Git comuni, ad esempio clonare, estrarre, eseguire il commit, il push, il pull e la gestione dei rami dall'interfaccia utente di Databricks. È anche possibile visualizzare le diff per le modifiche durante lo sviluppo con notebook e file in Databricks.
Configurare le impostazioni utente
Le cartelle Git di Databricks usano un token di accesso personale (PAT) o una credenziale equivalente per eseguire l'autenticazione con il provider Git per eseguire operazioni quali clonazione, push, pull e così via. Per usare le cartelle Git, è prima necessario aggiungere il nome utente del provider Git PAT e Git a Databricks. Vedi Configura le credenziali Git e & connetti un repository remoto ad Azure Databricks.
È possibile clonare repository remoti pubblici senza credenziali Git (un token di accesso personale e un nome utente). Per modificare un repository remoto pubblico o per clonare o modificare un repository remoto privato, è necessario disporre di un nome utente del provider Git e PAT con autorizzazioni di scrittura (o superiori) per il repository remoto.
Le cartelle Git sono abilitate per impostazione predefinita. Per altre informazioni sull'abilitazione o la disabilitazione del supporto delle cartelle Git, vedere Abilitare o disabilitare la funzionalità della cartella Git di Databricks.
Aggiungere o modificare le credenziali Git in Databricks
Importante
Le cartelle Git di Databricks supportano una sola credenziale Git per utente, per area di lavoro.
Selezionare la freccia giù accanto al nome dell'account in alto a destra nella schermata e quindi selezionare Impostazioni.
Selezionare la scheda account collegati.
Se si aggiungono le credenziali per la prima volta, seguire le istruzioni visualizzate.
Se sono state immesse le credenziali in precedenza, fare clic su Configurazione>Modifica e passare al passaggio successivo.
Nell'elenco a discesa Provider Git selezionare il nome del provider.
Immettere il nome utente o l’email Git.
Nel campo Token aggiungere un token di accesso personale (PAT) o altre credenziali dal provider Git. Per informazioni dettagliate, vedere Configurare le credenziali Git & connettere un repository remoto ad Azure Databricks
Importante
Databricks consiglia di impostare una data di scadenza per tutti i token di accesso personali.
Per Azure DevOps, se non si immette un token o una password dell'app, l'integrazione Git usa il token ID Microsoft Entra ID per impostazione predefinita. Se si immette un token di accesso personale di Azure DevOps, l'integrazione Git lo usa. Vedere Connettersi a un repository di Azure DevOps usando un token.
Nota
Dopo aver aggiornato la password di Azure, eseguire nuovamente l'autenticazione con Azure Databricks se è necessaria la nuova autenticazione per funzionare immediatamente. Se non si esegue di nuovo l'autenticazione, la connessione di Azure DevOps potrebbe non essere convalidata per un massimo di 24 ore.
Se l'organizzazione ha abilitato l'accesso SAML SSO in GitHub, autorizzare il token di accesso personale per l'accesso SSO.
Inserire il nome utente nel campo Nome utente del provider Git.
Fare clic su Salva.
È anche possibile salvare un token Git PAT e un nome utente in Azure Databricks usando l'API Repository di Databricks.
Se non è possibile clonare il repository e si usa Azure DevOps con l'autenticazione di Microsoft Entra ID, vedere Problema con un criterio di accesso condizionale (CAP) per Microsoft Entra ID.
Connettività di rete tra le cartelle Git di Databricks e un provider Git
Le cartelle Git hanno bisogno della connettività di rete al provider Git. In genere, questo avviene tramite Internet e funziona in modo predefinito. Tuttavia, è possibile configurare restrizioni aggiuntive per il provider Git per controllare l'accesso. Ad esempio, potrebbe essere presente un elenco di indirizzi IP consentiti oppure è possibile ospitare un server Git locale usando servizi come GitHub Enterprise (GHE), Bitbucket Server (BBS) o Gitlab Self-managed. A seconda dell'hosting e della configurazione della rete, il server Git potrebbe non essere accessibile tramite Internet.
Nota
- Se il server Git è accessibile da Internet ma include un elenco IP consentiti, come gli elenchi di indirizzi consentiti di GitHub, è necessario aggiungere indirizzi IP NAT del piano di controllo di Azure Databricks all'elenco indirizzi IP consentiti del server Git. Consultare regioni di Azure Databricks per un elenco di indirizzi IP NAT del piano di controllo per regione. Usare l'indirizzo IP per l'area in cui si trova l’area di lavoro di Databricks.
- Se si ospita privatamente un server Git, leggere su come configurare la connettività Git privata per le cartelle Git di Azure Databricks (Repos) o contattare il team dell'account Azure Databricks per istruzioni sull'onboarding per l'accesso.
Funzionalità di sicurezza nelle cartelle Git
Le cartelle Git di Databricks hanno molte funzionalità di sicurezza. Le sezioni seguenti illustrano la configurazione e l'uso:
- Uso delle credenziali Git crittografate
- Elenco di elementi consentiti
- Controllo di accesso ad aree di lavoro
- Registrazione del controllo
- Rilevamento dei segreti
Bring Your Own Key: Crittografare le credenziali di Git
È possibile usare Azure Key Vault per crittografare un token di accesso personale (PAT) Git o altre credenziali Git. L'uso di una chiave da un servizio di crittografia viene definito chiave gestita dal cliente (CMK) o BYOK (Bring Your Own Key).
Per altre informazioni, vedere Crittografia con chiavi gestite dal cliente.
Limitare l'utilizzo agli URL in una lista di autorizzazione
Se si usa Microsoft Entra ID per l'autenticazione con Azure DevOps, l'elenco di indirizzi consentiti predefinito limita gli URL Git a:
- dev.azure.com
- visualstudio.com
Per AAD con alias CNAMES o GIT URL personalizzati, l'amministratore dell'area di lavoro può configurare un elenco di elementi consentiti personalizzato, come illustrato nei passaggi seguenti. Se si usa un elenco di elementi consentiti personalizzati, l'amministratore dell'area di lavoro deve aggiungere questi URL se si vuole usarli: dev.azure.com
e visualstudio.com
.
Un amministratore dell'area di lavoro può limitare i repository remoti a cui gli utenti possono clonare ed eseguire il commit & push. Ciò consente di evitare l'esfiltrazione del codice; Ad esempio, gli utenti non possono eseguire il push del codice in un repository arbitrario se sono state attivate le restrizioni dell'elenco consenti. È anche possibile impedire agli utenti di usare codice senza licenza limitando l'operazione di clonazione a un elenco di repository consentiti.
Per configurare un elenco di elementi consentiti:
Andare alla pagina Impostazioni.
Cliccare sulla scheda Amministratore dell'area di lavoro (è aperta per impostazione predefinita).
Nella sezione sviluppo , scegliere un'opzione dall'elenco delle autorizzazioni URL Git consentite di :
- Disabilitato (nessuna restrizione): non sono presenti controlli sull'elenco elementi consentiti.
- Limita clonazione, Commit & Push nei repository Git consentiti: le operazioni di clonazione, commit e push sono consentite solo per gli URL del repository nella lista consentita.
- Limitare solo il commit & Push ai repository Git consentiti: Le operazioni di commit e push sono consentite solo per gli URL del repository nell'elenco consentiti. Le operazioni di clonazione e pull non sono limitate.
Fare clic sul pulsante Modifica accanto a elenco consentiti URL Git: elenco vuoto e immettere un elenco di prefissi URL delimitato da virgole.
Fare clic su Salva.
Nota
- L'elenco salvato sovrascrive il set esistente di prefissi URL salvati.
- Possono essere necessari fino a 15 minuti affinché le modifiche vengano applicate.
Consentire l'accesso a tutti i repository
Per disabilitare un elenco di indirizzi consentiti esistente e consentire l'accesso a tutti i repository:
- Andare alla pagina Impostazioni.
- Cliccare sulla scheda Amministratore dell’area di lavoro.
- Nella sezione sviluppo , sotto Autorizzazione elenco permessi URL Git: selezionare Disabilita (nessuna restrizione).
Controllo di accesso per un repository nell'area di lavoro
Nota
Il controllo di accesso è disponibile solo nel piano Premium.
Impostare le autorizzazioni per un repository per controllare l'accesso. Le autorizzazioni per un repository si applicano a tutto il contenuto del repository. È possibile assegnare cinque livelli di autorizzazione ai file: NESSUNA AUTORIZZAZIONE, CAN READ, CAN RUN, CAN EDIT, e CAN MANAGE.
Per altre informazioni sulle autorizzazioni per le cartelle Git, vedere ACL della cartella Git.
(Facoltativo) Configurare un proxy per i server Git aziendali
Se l'azienda usa un servizio Git aziendale locale, ad esempio GitHub Enterprise o Azure DevOps Server, è possibile usare il server proxy Git di Databricks per connettere le aree di lavoro di Databricks ai repository usati.
Registrazione del controllo
Quando la registrazione del controllo è abilitata, gli eventi di controllo vengono registrati quando si interagisce con una cartella Git. Ad esempio, un evento di controllo viene registrato quando si crea, si aggiorna o si elimina una cartella Git, quando si elencano tutte le cartelle Git associate a un'area di lavoro e quando si sincronizzano le modifiche tra la cartella Git e il repository Git remoto.
Rilevamento dei segreti
Le cartelle Git scansionano il codice per individuare gli ID chiave di accesso che iniziano con il prefisso AKIA
e avvisano l'utente prima di eseguire il commit.
Usare un file config del repository
È possibile aggiungere le impostazioni per ogni notebook al repository in un file .databricks/commit_outputs
creato manualmente.
Specificare il notebook che si vuole includere negli output usando criteri simili ai criteri gitignore.
Criteri per un file config del repository
Il file contiene criteri di percorso di file positivi e negativi. I criteri di percorso dei file includono l'estensione del file notebook, come .ipynb
.
- I criteri positivi consentono l'inclusione degli output per i notebook corrispondenti.
- I criteri negativi disabilitano l'inclusione degli output per i notebook corrispondenti.
I criteri vengono valutati in ordine per tutti i notebook. I percorsi o i percorsi non validi che non risolvono ai notebook .ipynb
vengono ignorati.
Per includere gli output da un percorso del notebookfolder/innerfolder/notebook.ipynb
, usare i criteri seguenti:
**/*
folder/**
folder/innerfolder/note*
Per escludere gli output per un notebook, verificare che nessuno dei criteri positivi corrisponda o aggiunga un criterio negativo in un punto corretto del file di configurazione. I criteri negativi (escludi) iniziano con !
:
!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb
Spostare la cartella Git nel cestino (eliminare)
Per eliminare una cartella Git dall'area di lavoro:
Fare clic con il pulsante destro del mouse sulla cartella Git e quindi selezionare Sposta nel cestino.
Nella finestra di dialogo, digitare il nome della cartella Git da eliminare. Quindi, cliccare su Conferma e sposta nel cestino.
Passaggi successivi
- Eseguire operazioni Git nelle cartelle Git di Databricks (Repository)
- Che cosa sono i file dell'area di lavoro?
- Tecniche CI/CD con Git e le cartelle Git di Databricks (Repository)
- Configurare la connettività Git privata per le cartelle Git di Azure Databricks (Repos)
- Eseguire un primo processo dbt con le cartelle Git