Condividi tramite


Configurare le cartelle Git di Databricks (Repository)

Informazioni su come configurare le cartelle Git di Databricks (in precedenza Repos) per il controllo della versione. Dopo aver configurato le cartelle Git in Databricks, è possibile eseguire operazioni Git comuni, ad esempio clonare, estrarre, eseguire il commit, il push, il pull e la gestione dei rami dall'interfaccia utente di Databricks. È anche possibile visualizzare le diff per le modifiche durante lo sviluppo con notebook e file in Databricks.

Configurare le impostazioni utente

Le cartelle Git di Databricks usano un token di accesso personale (PAT) o una credenziale equivalente per eseguire l'autenticazione con il provider Git per eseguire operazioni quali clonazione, push, pull e così via. Per usare le cartelle Git, è prima necessario aggiungere il nome utente del provider Git PAT e Git a Databricks. Vedi Configura le credenziali Git e & connetti un repository remoto ad Azure Databricks.

È possibile clonare repository remoti pubblici senza credenziali Git (un token di accesso personale e un nome utente). Per modificare un repository remoto pubblico o per clonare o modificare un repository remoto privato, è necessario disporre di un nome utente del provider Git e PAT con autorizzazioni di scrittura (o superiori) per il repository remoto.

Le cartelle Git sono abilitate per impostazione predefinita. Per altre informazioni sull'abilitazione o la disabilitazione del supporto delle cartelle Git, vedere Abilitare o disabilitare la funzionalità della cartella Git di Databricks.

Aggiungere o modificare le credenziali Git in Databricks

Importante

Le cartelle Git di Databricks supportano una sola credenziale Git per utente, per area di lavoro.

  1. Selezionare la freccia giù accanto al nome dell'account in alto a destra nella schermata e quindi selezionare Impostazioni.

  2. Selezionare la scheda account collegati.

  3. Se si aggiungono le credenziali per la prima volta, seguire le istruzioni visualizzate.

    Se sono state immesse le credenziali in precedenza, fare clic su Configurazione>Modifica e passare al passaggio successivo.

  4. Nell'elenco a discesa Provider Git selezionare il nome del provider.

  5. Immettere il nome utente o l’email Git.

  6. Nel campo Token aggiungere un token di accesso personale (PAT) o altre credenziali dal provider Git. Per informazioni dettagliate, vedere Configurare le credenziali Git & connettere un repository remoto ad Azure Databricks

    Importante

    Databricks consiglia di impostare una data di scadenza per tutti i token di accesso personali.

    Per Azure DevOps, se non si immette un token o una password dell'app, l'integrazione Git usa il token ID Microsoft Entra ID per impostazione predefinita. Se si immette un token di accesso personale di Azure DevOps, l'integrazione Git lo usa. Vedere Connettersi a un repository di Azure DevOps usando un token.

    Nota

    Dopo aver aggiornato la password di Azure, eseguire nuovamente l'autenticazione con Azure Databricks se è necessaria la nuova autenticazione per funzionare immediatamente. Se non si esegue di nuovo l'autenticazione, la connessione di Azure DevOps potrebbe non essere convalidata per un massimo di 24 ore.

    Se l'organizzazione ha abilitato l'accesso SAML SSO in GitHub, autorizzare il token di accesso personale per l'accesso SSO.

  7. Inserire il nome utente nel campo Nome utente del provider Git.

  8. Fare clic su Salva.

È anche possibile salvare un token Git PAT e un nome utente in Azure Databricks usando l'API Repository di Databricks.

Se non è possibile clonare il repository e si usa Azure DevOps con l'autenticazione di Microsoft Entra ID, vedere Problema con un criterio di accesso condizionale (CAP) per Microsoft Entra ID.

Connettività di rete tra le cartelle Git di Databricks e un provider Git

Le cartelle Git hanno bisogno della connettività di rete al provider Git. In genere, questo avviene tramite Internet e funziona in modo predefinito. Tuttavia, è possibile configurare restrizioni aggiuntive per il provider Git per controllare l'accesso. Ad esempio, potrebbe essere presente un elenco di indirizzi IP consentiti oppure è possibile ospitare un server Git locale usando servizi come GitHub Enterprise (GHE), Bitbucket Server (BBS) o Gitlab Self-managed. A seconda dell'hosting e della configurazione della rete, il server Git potrebbe non essere accessibile tramite Internet.

Nota

Funzionalità di sicurezza nelle cartelle Git

Le cartelle Git di Databricks hanno molte funzionalità di sicurezza. Le sezioni seguenti illustrano la configurazione e l'uso:

  • Uso delle credenziali Git crittografate
  • Elenco di elementi consentiti
  • Controllo di accesso ad aree di lavoro
  • Registrazione del controllo
  • Rilevamento dei segreti

Bring Your Own Key: Crittografare le credenziali di Git

È possibile usare Azure Key Vault per crittografare un token di accesso personale (PAT) Git o altre credenziali Git. L'uso di una chiave da un servizio di crittografia viene definito chiave gestita dal cliente (CMK) o BYOK (Bring Your Own Key).

Per altre informazioni, vedere Crittografia con chiavi gestite dal cliente.

Limitare l'utilizzo agli URL in una lista di autorizzazione

Se si usa Microsoft Entra ID per l'autenticazione con Azure DevOps, l'elenco di indirizzi consentiti predefinito limita gli URL Git a:

  • dev.azure.com
  • visualstudio.com

Per AAD con alias CNAMES o GIT URL personalizzati, l'amministratore dell'area di lavoro può configurare un elenco di elementi consentiti personalizzato, come illustrato nei passaggi seguenti. Se si usa un elenco di elementi consentiti personalizzati, l'amministratore dell'area di lavoro deve aggiungere questi URL se si vuole usarli: dev.azure.com e visualstudio.com.

Un amministratore dell'area di lavoro può limitare i repository remoti a cui gli utenti possono clonare ed eseguire il commit & push. Ciò consente di evitare l'esfiltrazione del codice; Ad esempio, gli utenti non possono eseguire il push del codice in un repository arbitrario se sono state attivate le restrizioni dell'elenco consenti. È anche possibile impedire agli utenti di usare codice senza licenza limitando l'operazione di clonazione a un elenco di repository consentiti.

Per configurare un elenco di elementi consentiti:

  1. Andare alla pagina Impostazioni.

  2. Cliccare sulla scheda Amministratore dell'area di lavoro (è aperta per impostazione predefinita).

  3. Nella sezione sviluppo , scegliere un'opzione dall'elenco delle autorizzazioni URL Git consentite di :

    • Disabilitato (nessuna restrizione): non sono presenti controlli sull'elenco elementi consentiti.
    • Limita clonazione, Commit & Push nei repository Git consentiti: le operazioni di clonazione, commit e push sono consentite solo per gli URL del repository nella lista consentita.
    • Limitare solo il commit & Push ai repository Git consentiti: Le operazioni di commit e push sono consentite solo per gli URL del repository nell'elenco consentiti. Le operazioni di clonazione e pull non sono limitate.

    Riquadro Sviluppo in Impostazioni di amministrazione, usato per impostare l'accesso Git utente

  4. Fare clic sul pulsante Modifica accanto a elenco consentiti URL Git: elenco vuoto e immettere un elenco di prefissi URL delimitato da virgole.

    pulsante Modifica elenco dei permessi nelle impostazioni di amministrazione dello sviluppo

  5. Fare clic su Salva.

Nota

  • L'elenco salvato sovrascrive il set esistente di prefissi URL salvati.
  • Possono essere necessari fino a 15 minuti affinché le modifiche vengano applicate.

Consentire l'accesso a tutti i repository

Per disabilitare un elenco di indirizzi consentiti esistente e consentire l'accesso a tutti i repository:

  1. Andare alla pagina Impostazioni.
  2. Cliccare sulla scheda Amministratore dell’area di lavoro.
  3. Nella sezione sviluppo , sotto Autorizzazione elenco permessi URL Git: selezionare Disabilita (nessuna restrizione).

Controllo di accesso per un repository nell'area di lavoro

Nota

Il controllo di accesso è disponibile solo nel piano Premium.

Impostare le autorizzazioni per un repository per controllare l'accesso. Le autorizzazioni per un repository si applicano a tutto il contenuto del repository. È possibile assegnare cinque livelli di autorizzazione ai file: NESSUNA AUTORIZZAZIONE, CAN READ, CAN RUN, CAN EDIT, e CAN MANAGE.

Per altre informazioni sulle autorizzazioni per le cartelle Git, vedere ACL della cartella Git.

(Facoltativo) Configurare un proxy per i server Git aziendali

Se l'azienda usa un servizio Git aziendale locale, ad esempio GitHub Enterprise o Azure DevOps Server, è possibile usare il server proxy Git di Databricks per connettere le aree di lavoro di Databricks ai repository usati.

Registrazione del controllo

Quando la registrazione del controllo è abilitata, gli eventi di controllo vengono registrati quando si interagisce con una cartella Git. Ad esempio, un evento di controllo viene registrato quando si crea, si aggiorna o si elimina una cartella Git, quando si elencano tutte le cartelle Git associate a un'area di lavoro e quando si sincronizzano le modifiche tra la cartella Git e il repository Git remoto.

Rilevamento dei segreti

Le cartelle Git scansionano il codice per individuare gli ID chiave di accesso che iniziano con il prefisso AKIA e avvisano l'utente prima di eseguire il commit.

Usare un file config del repository

È possibile aggiungere le impostazioni per ogni notebook al repository in un file .databricks/commit_outputs creato manualmente.

Specificare il notebook che si vuole includere negli output usando criteri simili ai criteri gitignore.

Criteri per un file config del repository

Il file contiene criteri di percorso di file positivi e negativi. I criteri di percorso dei file includono l'estensione del file notebook, come .ipynb.

  • I criteri positivi consentono l'inclusione degli output per i notebook corrispondenti.
  • I criteri negativi disabilitano l'inclusione degli output per i notebook corrispondenti.

I criteri vengono valutati in ordine per tutti i notebook. I percorsi o i percorsi non validi che non risolvono ai notebook .ipynb vengono ignorati.

Per includere gli output da un percorso del notebookfolder/innerfolder/notebook.ipynb, usare i criteri seguenti:

**/*
folder/**
folder/innerfolder/note*

Per escludere gli output per un notebook, verificare che nessuno dei criteri positivi corrisponda o aggiunga un criterio negativo in un punto corretto del file di configurazione. I criteri negativi (escludi) iniziano con !:

!folder/innerfolder/*.ipynb
!folder/**/*.ipynb
!**/notebook.ipynb

Spostare la cartella Git nel cestino (eliminare)

Per eliminare una cartella Git dall'area di lavoro:

  1. Fare clic con il pulsante destro del mouse sulla cartella Git e quindi selezionare Sposta nel cestino.

  2. Nella finestra di dialogo, digitare il nome della cartella Git da eliminare. Quindi, cliccare su Conferma e sposta nel cestino.

    Confermare la finestra di dialogo Sposta nel Cestino.

Passaggi successivi