Configurare e modificare processi di Databricks
Questo articolo è incentrato sulle istruzioni per la creazione, la configurazione e la modifica di processi usando l'interfaccia utente dell'area di lavoro Flussi di lavoro. Azure Databricks include altri punti di ingresso e strumenti per la configurazione, tra cui:
- Per informazioni sull'uso dell'interfaccia della riga di comando di Databricks per creare ed eseguire processi, vedere Che cos'è l'interfaccia della riga di comando di Databricks?.
- Per informazioni sull'uso dell'API Processi per creare ed eseguire processi, vedere Processi nelle informazioni di riferimento sull'API REST.
- Per informazioni su come eseguire e pianificare i processi direttamente in un notebook di Databricks, vedere Creare e gestire processi di notebook pianificati.
Suggerimento
Per visualizzare un processo come YAML, fare clic sul menu kebab a sinistra di Esegui ora per il processo e quindi fare clic su Passa alla versione del codice (YAML).
Creazione di una nuova commessa
Questa sezione descrive la configurazione minima necessaria per creare un nuovo processo per pianificare un'attività notebook con l'interfaccia utente dell'area di lavoro.
I processi contengono una o più attività. Un nuovo processo si crea configurando la prima attività per il processo.
Nota
Ogni tipo di attività include opzioni di configurazione dinamiche nell'interfaccia utente dell'area di lavoro. Vedere Configurare e modificare le attività di Databricks.
- Fare clic su Flussi di lavoro nella barra laterale e fare clic su .
- Immettere un nome per l’attività.
- Selezionare un notebook per il campo Percorso.
- Fare clic su Crea attività.
Se l'area di lavoro non è abilitata per il calcolo serverless per i processi, è necessario selezionare un'opzione Calcolo. Databricks consiglia di usare sempre il calcolo processi durante la configurazione delle attività.
Nell'elenco dei processi dell'area di lavoro viene visualizzato un nuovo processo con il nome predefinito New Job <date> <time>
.
Selezionare un processo da modificare nell'area di lavoro
Per modificare un processo esistente con l'interfaccia utente dell'area di lavoro, eseguire le operazioni seguenti:
- Fare clic su Flussi di lavoro nella barra laterale.
- Nella colonna Nome, cliccare il nome di un processo.
Usare i processi UI per seguire questa procedura:
- Modifica impostazioni del processo
- Rinominare, clonare o eliminare un processo
- Aggiungere nuove attività a un processo esistente
- Modifica impostazioni attività
Nota
È anche possibile visualizzare le definizioni JSON da usare con l'API REST ottenere, creare e reimpostare gli endpoint.
Modifica impostazioni del processo
Il pannello laterale contiene i dettagli del processo. È possibile modificare il trigger del processo, la configurazione di calcolo, le notifiche, il numero massimo di esecuzioni simultanee, configurare le soglie di durata e aggiungere o modificare tag. Inoltre, è possibile modificare le autorizzazioni del processo se il controllo di accesso ai processi è abilitato.
Aggiungere parametri per tutte le attività del processo
I parametri configurati a livello di processo vengono passati alle attività del processo che accettano parametri chiave-valore, inclusi i file wheel python configurati per accettare argomenti di parole chiave. Vedere Parametrizzare i processi.
Aggiungere tag a un processo
Per aggiungere etichette o attributi key-value al processo, è possibile aggiungere tag quando si modifica il processo. È possibile utilizzare i tag per filtrare i processi nell'Elenco processi. Ad esempio, è possibile usare un tag department
per filtrare tutti i processi appartenenti a un reparto specifico.
Nota
Poiché i tag di processo non sono progettati per archiviare informazioni riservate, ad esempio informazioni personali o password, Databricks consiglia di usare solo tag per valori non sensibili.
I tag vengono propagati anche ai cluster di processo creati quando viene eseguito un processo, consentendo di usare tag con il monitoraggio del cluster esistente.
Fare clic su + Tag nel pannello laterale Dettagli processo per aggiungere o modificare tag. È possibile aggiungere il tag come etichetta o coppia chiave-valore. Per aggiungere un'etichetta, immettere l'etichetta nel campoChiave e lasciare vuoto il campo Valore.
Aggiungere una politica di budget a un lavoro
Importante
Questa funzionalità si trova in anteprima pubblica.
Se la tua area di lavoro utilizza criteri di budget per attribuire l'utilizzo del serverless, puoi selezionare il criterio di budget del tuo processo usando l'impostazione Criterio di budget nel pannello laterale Dettagli processo. Vedere Utilizzo serverless degli attributi con criteri di budget.
Rinominare, clonare o eliminare un processo
Per rinominare un processo, passare all'interfaccia utente dei processi e fare clic sul nome del processo.
È possibile creare rapidamente un nuovo processo clonando un processo esistente. La clonazione di un processo crea una copia identica del processo, ad eccezione dell'ID processo. Per clonare un processo, eseguire le operazioni seguenti:
- Passare all'interfaccia utente dei processi per il processo.
- Fare clic accanto al pulsante Esegui adesso .
- Nel menu a discesa selezionare Clona processo.
- Immettere un nome per il processo clonato.
- Fare clic su Clona.
Eliminare un processo
Per eliminare un processo, andare alla pagina del processo, fare clic su accanto al nome del processo e selezionare Elimina processo dal menu a discesa.
Usare Git con processi
Se il processo contiene attività che supportano l'uso di un provider Git remoto, l'interfaccia utente dei processi contiene un campo Git e l'opzione per aggiungere o modificare le impostazioni Git.
È possibile configurare i tipi di attività seguenti per l'uso di un repository Git remoto:
- Notebook
- Script Python
- File SQL
- dbt
Tutte le attività in un processo devono fare riferimento allo stesso commit nel repository remoto. Per un processo che usa un repository remoto, è necessario specificare solo uno dei seguenti elementi:
-
branch: il nome del ramo, ad esempio
main
. -
tag: il nome del tag, ad esempio
release-1.0.0
. -
commit: l’hash di un commit specifico, ad esempio
e0056d01
.
All'avvio di un'esecuzione del processo, Databricks esegue un commit snapshot del repository remoto per assicurarsi che l'intero processo venga eseguito sulla stessa versione del codice.
Quando si visualizza la cronologia di esecuzione di un'attività che esegue il codice archiviato in un repository Git remoto, il pannello Dettagli esecuzione attività include i dettagli Git, incluso il commit SHA associato all'esecuzione. Si veda Visualizzare la cronologia di esecuzione dell’attività.
Nota
Le attività configurate per l'uso di un repository Git remoto non possono scrivere nei file dell'area di lavoro. Queste attività devono scrivere dati temporanei nell'archiviazione effimera collegata al nodo centrale del sistema di calcolo configurato per l'esecuzione dell'attività e dati persistenti in un volume o una tabella.
Databricks consiglia di fare riferimento ai percorsi dell'area di lavoro nelle cartelle Git solo per un'iterazione e un test rapidi durante lo sviluppo. Quando si spostano processi in staging e produzione, Databricks consiglia di configurare tali processi per fare riferimento a un repository Git remoto. Per ulteriori informazioni sull'uso di un repository Git remoto con un'attività di Databricks, consultare la sezione seguente.
Configurare un provider Git
L'interfaccia utente dei processi include una finestra di dialogo per configurare un repository Git remoto. Questa finestra di dialogo è accessibile dal pannello Dettagli processo sotto l'intestazione Git o in qualsiasi attività configurata per l'uso di un provider Git.
Le opzioni visualizzate per accedere alla finestra di dialogo variano in base al tipo di attività e se un riferimento Git sia già stato configurato o meno per il processo. I pulsanti per avviare la finestra di dialogo includono Aggiungi impostazioni Git, Modifica o Aggiungi un riferimento Git.
Nella finestra di dialogo Informazioni Git (appena etichettata Git se si accede dal pannello Dettagli processo), immettere i dettagli seguenti:
- L'URL del repository Git.
- Selezionare Provider Git dall'elenco a discesa.
- Nel campo Riferimento Git immettere l'identificatore per un ramo, un tag o un commit che corrisponde alla versione del codice sorgente da eseguire.
- Consente di selezionare il ramo, il commit o il tag dal menu a discesa.
Nota
La finestra di dialogo potrebbe richiedere quanto segue: Mancano le credenziali Git per questo account. Aggiungere le credenziali. È necessario configurare un repository Git remoto prima di usarlo come riferimento. Si veda Configurare le cartelle Git di Databricks (Repository).
Configurare le soglie per la durata dell'esecuzione del processo o le metriche del backlog di streaming
Importante
L'osservabilità dello streaming per i processi di Databricks è in anteprima pubblica.
È possibile configurare soglie facoltative per la durata dell'esecuzione del processo o le metriche del backlog di streaming. Per configurare le soglie delle metriche di durata o di streaming, fare clic su Durata e soglie di arretrato di streaming nel pannello Dettagli processo.
Per configurare le soglie di durata del processo, inclusi i tempi di completamento previsti e massimi per il processo, selezionare Durata esecuzione nel menu a discesa Metrica. Immettere la durata nel campo Avviso per configurare un tempo di completamento previsto del processo. Se il processo supera questa soglia, viene attivato un evento. È possibile usare questo evento per notificare quando un processo è in esecuzione lentamente. Vedere Configurare le notifiche per i processi lenti. Per configurare un tempo di completamento massimo per un processo, immettere la durata massima nel campo Timeout . Se il processo non viene completato in questa fase, Azure Databricks imposta lo stato su "Timed Out".
Per configurare una soglia per una metrica di backlog di streaming, selezionare la metrica nel menu a tendina Metrica e immettere un valore per la soglia. Per informazioni sulle metriche specifiche supportate da un'origine di streaming, vedere Visualizzare le metriche per le attività di streaming.
Se viene attivato un evento perché viene superata una soglia, è possibile usare l'evento per inviare una notifica. Vedere Configurare le notifiche per i processi lenti.
Facoltativamente, è possibile specificare soglie di durata per le attività. Vedere Configurare le soglie per la durata dell'esecuzione dell'attività o le metriche del backlog di streaming.