Configurare e modificare processi di Databricks

Articolo
02/04/2025

È possibile creare ed eseguire un processo usando l'interfaccia utente di Jobs oppure strumenti per sviluppatori come la CLI di Databricks o l'API REST. Usando l'interfaccia utente o l'API, è possibile ripristinare ed eseguire di nuovo un processo non riuscito o annullato. Questo articolo illustra come creare, configurare e modificare i processi utilizzando l'interfaccia utente dello spazio di lavoro dei flussi di lavoro. Per informazioni su altri strumenti, vedere quanto segue:

Per informazioni sull'uso dell'interfaccia della riga di comando di Databricks per creare ed eseguire processi, vedere Che cos'è l'interfaccia della riga di comando di Databricks?.
Per informazioni sull'uso dell'API Processi per creare ed eseguire processi, vedere Processi nelle informazioni di riferimento sull'API REST.
Se si preferisce un approccio IaC (infrastructure-as-code) alla configurazione dei processi, è possibile usare i bundle di asset di Databricks. Per informazioni sull'uso dei DAB per configurare e orchestrare i processi, vedere Bundle di asset di Databricks.
Per informazioni su come eseguire e pianificare i processi direttamente in un notebook di Databricks, vedere Creare e gestire processi di notebook pianificati.

Suggerimento

Per visualizzare un processo come YAML, fare clic sul menu kebab a sinistra di Esegui ora per il processo e quindi fare clic su Passa alla versione del codice (YAML).

Qual è la configurazione minima necessaria per un processo?

Tutti i processi in Azure Databricks richiedono quanto segue:

Un'attività che contiene la logica da eseguire, come ad esempio un notebook Databricks. Vedere Configurare e modificare le attività di Databricks
Risorsa di calcolo per eseguire la logica. La risorsa di calcolo può essere serverless, classico o multifunzionale. Vedere Configurare il calcolo per i processi.
Una pianificazione specificata per quando il processo deve essere eseguito. Facoltativamente, è possibile omettere l'impostazione di una pianificazione e attivare manualmente il processo.
Un nome univoco.

Creazione di una nuova commessa

Questa sezione descrive i passaggi per creare un nuovo lavoro con un'attività nel notebook e pianificarlo utilizzando l'interfaccia utente dell'area di lavoro.

I processi contengono una o più attività. Un nuovo processo si crea configurando la prima attività per il processo.

Nota

Ogni tipo di attività include opzioni di configurazione dinamiche nell'interfaccia utente dell'area di lavoro. Vedere Configurare e modificare le attività di Databricks.

Fare clic su Flussi di lavoro nella barra laterale e fare clic su .
Immettere un nome per l’attività.
Selezionare un notebook per il campo Percorso.
Fare clic su Crea attività.

Se l'area di lavoro non è abilitata per il calcolo serverless per i processi, è necessario selezionare un'opzione Calcolo. Databricks consiglia di usare sempre il calcolo processi durante la configurazione delle attività.

Nell'elenco dei processi dell'area di lavoro viene visualizzato un nuovo processo con il nome predefinito New Job <date> <time>.

È possibile continuare ad aggiungere altre attività all'interno dello stesso processo, se necessario per il flusso di lavoro.

Programmazione di un processo

È possibile decidere quando viene eseguito il compito. Per impostazione predefinita, verrà eseguito solo quando viene avviato manualmente, ma è anche possibile configurarlo per l'esecuzione automatica. È possibile creare un trigger per eseguire un processo in base a una pianificazione o in base a un evento.

Controllo del flusso di attività all'interno del compito

Quando si configurano più attività nei processi, è possibile usare attività specializzate per controllare la modalità di esecuzione delle attività. Vedere Controllare il flusso delle attività all'interno di un processo di Databricks.

Selezionare un processo da modificare nell'area di lavoro

Per modificare un processo esistente con l'interfaccia utente dell'area di lavoro, eseguire le operazioni seguenti:

Fare clic su Flussi di lavoro nella barra laterale.
Nella colonna Nome, cliccare il nome di un processo.

Usare i processi UI per seguire questa procedura:

Modifica impostazioni del processo
Rinominare, clonare o eliminare un processo
Aggiungere nuove attività a un processo esistente
Modifica impostazioni attività

Nota

È anche possibile visualizzare le definizioni JSON da usare con l'API REST ottenere, creare e reimpostare gli endpoint.

Modifica impostazioni del processo

Il pannello laterale contiene i dettagli del processo. È possibile modificare il trigger del processo, la configurazione di calcolo, le notifiche, il numero massimo di esecuzioni simultanee, configurare le soglie di durata e aggiungere o modificare tag. Inoltre, è possibile modificare le autorizzazioni del processo se il controllo di accesso ai processi è abilitato.

Aggiungere parametri per tutte le attività del processo

I parametri configurati a livello di processo vengono passati alle attività del processo che accettano parametri chiave-valore, inclusi i file wheel python configurati per accettare argomenti di parole chiave. Vedere Parametrizzare i processi.

Aggiungere tag a un processo

Per aggiungere etichette o attributi key-value al processo, è possibile aggiungere tag quando si modifica il processo. È possibile utilizzare i tag per filtrare i processi nell'Elenco processi. Ad esempio, è possibile usare un tag department per filtrare tutti i processi appartenenti a un reparto specifico.

Nota

Poiché i tag di processo non sono progettati per archiviare informazioni riservate, ad esempio informazioni personali o password, Databricks consiglia di usare solo tag per valori non sensibili.

I tag vengono propagati anche ai cluster di processo creati quando viene eseguito un processo, consentendo di usare tag con il monitoraggio del cluster esistente.

Fare clic su + Tag nel pannello laterale Dettagli processo per aggiungere o modificare tag. È possibile aggiungere il tag come etichetta o coppia chiave-valore. Per aggiungere un'etichetta, immettere l'etichetta nel campoChiave e lasciare vuoto il campo Valore.

Aggiungere una politica di budget a un lavoro

Importante

Questa funzionalità si trova in anteprima pubblica.

Se la tua area di lavoro utilizza criteri di budget per attribuire l'utilizzo del serverless, puoi selezionare il criterio di budget del tuo processo usando l'impostazione Criterio di budget nel pannello laterale Dettagli processo. Vedere Utilizzo serverless degli attributi con criteri di budget.

Rinominare, clonare o eliminare un processo

Per rinominare un processo, passare all'interfaccia utente dei processi e fare clic sul nome del processo.

È possibile creare rapidamente un nuovo processo clonando un processo esistente. La clonazione di un processo crea una copia identica del processo, ad eccezione dell'ID processo. Per clonare un processo, eseguire le operazioni seguenti:

Passare all'interfaccia utente dei processi per il processo.
Fare clic accanto al pulsante Esegui adesso .
Nel menu a discesa selezionare Clona processo.
Immettere un nome per il processo clonato.
Fare clic su Clona.

Eliminare un processo

Per eliminare un processo, andare alla pagina del processo, fare clic su accanto al nome del processo e selezionare Elimina processo dal menu a discesa.

Usare Git con processi

Se il processo contiene attività che supportano l'uso di un provider Git remoto, l'interfaccia utente dei processi contiene un campo Git e l'opzione per aggiungere o modificare le impostazioni Git.

È possibile configurare i tipi di attività seguenti per l'uso di un repository Git remoto:

Notebook
Script Python
File SQL
dbt

Tutte le attività in un processo devono fare riferimento allo stesso commit nel repository remoto. Per un processo che usa un repository remoto, è necessario specificare solo uno dei seguenti elementi:

branch: il nome del ramo, ad esempio main.
tag: il nome del tag, ad esempio release-1.0.0.
commit: l’hash di un commit specifico, ad esempio e0056d01.

All'avvio di un'esecuzione del processo, Databricks esegue un commit snapshot del repository remoto per assicurarsi che l'intero processo venga eseguito sulla stessa versione del codice.

Quando si visualizza la cronologia di esecuzione di un'attività che esegue il codice archiviato in un repository Git remoto, il pannello Dettagli esecuzione attività include i dettagli Git, incluso il commit SHA associato all'esecuzione. Si veda Visualizzare la cronologia di esecuzione dell’attività.

Nota

Le attività configurate per l'uso di un repository Git remoto non possono scrivere nei file dell'area di lavoro. Queste attività devono scrivere dati temporanei nell'archiviazione effimera collegata al nodo centrale del sistema di calcolo configurato per l'esecuzione dell'attività e dati persistenti in un volume o una tabella.

Databricks consiglia di fare riferimento ai percorsi dell'area di lavoro nelle cartelle Git solo per un'iterazione e un test rapidi durante lo sviluppo. Quando si spostano processi in staging e produzione, Databricks consiglia di configurare tali processi per fare riferimento a un repository Git remoto. Per ulteriori informazioni sull'uso di un repository Git remoto con un'attività di Databricks, consultare la sezione seguente.

Configurare un provider Git

L'interfaccia utente dei processi include una finestra di dialogo per configurare un repository Git remoto. Questa finestra di dialogo è accessibile dal pannello Dettagli processo sotto l'intestazione Git o in qualsiasi attività configurata per l'uso di un provider Git.

Le opzioni visualizzate per accedere alla finestra di dialogo variano in base al tipo di attività e se un riferimento Git sia già stato configurato o meno per il processo. I pulsanti per avviare la finestra di dialogo includono Aggiungi impostazioni Git, Modifica o Aggiungi un riferimento Git.

Nella finestra di dialogo Informazioni Git (appena etichettata Git se si accede dal pannello Dettagli processo), immettere i dettagli seguenti:

L'URL del repository Git.
Selezionare Provider Git dall'elenco a discesa.
Nel campo Riferimento Git immettere l'identificatore per un ramo, un tag o un commit che corrisponde alla versione del codice sorgente da eseguire.
Consente di selezionare il ramo, il commit o il tag dal menu a discesa.

Nota

La finestra di dialogo potrebbe richiedere quanto segue: Mancano le credenziali Git per questo account. Aggiungere le credenziali. È necessario configurare un repository Git remoto prima di usarlo come riferimento. Si veda Configurare le cartelle Git di Databricks (Repository).

Configurare le soglie per la durata dell'esecuzione del processo o le metriche del backlog di streaming

Importante

L'osservabilità dello streaming per i processi di Databricks è in anteprima pubblica.

È possibile configurare soglie facoltative per la durata dell'esecuzione del processo o le metriche del backlog di streaming. Per configurare le soglie delle metriche di durata o di streaming, fare clic su Durata e soglie di arretrato di streaming nel pannello Dettagli processo.

Per configurare le soglie di durata del processo, inclusi i tempi di completamento previsti e massimi per il processo, selezionare Durata esecuzione nel menu a discesa Metrica. Immettere la durata nel campo Avviso per configurare un tempo di completamento previsto del processo. Se il processo supera questa soglia, viene attivato un evento. È possibile usare questo evento per notificare quando un processo è in esecuzione lentamente. Vedere Configurare le notifiche per i processi lenti. Per configurare un tempo di completamento massimo per un processo, immettere la durata massima nel campo Timeout . Se il processo non viene completato in questa fase, Azure Databricks imposta lo stato su "Timed Out".

Per configurare una soglia per una metrica di backlog di streaming, selezionare la metrica nel menu a tendina Metrica e immettere un valore per la soglia. Per informazioni sulle metriche specifiche supportate da un'origine di streaming, vedere Visualizzare le metriche per le attività di streaming.

Se viene attivato un evento perché viene superata una soglia, è possibile usare l'evento per inviare una notifica. Vedere Configurare le notifiche per i processi lenti.

Facoltativamente, è possibile specificare soglie di durata per le attività. Vedere Configurare le soglie per la durata dell'esecuzione dell'attività o le metriche del backlog di streaming.

Condividi tramite

Configurare e modificare processi di Databricks

Qual è la configurazione minima necessaria per un processo?

Creazione di una nuova commessa

Programmazione di un processo

Controllo del flusso di attività all'interno del compito

Selezionare un processo da modificare nell'area di lavoro

Modifica impostazioni del processo

Aggiungere parametri per tutte le attività del processo

Aggiungere tag a un processo

Aggiungere una politica di budget a un lavoro

Rinominare, clonare o eliminare un processo

Eliminare un processo

Usare Git con processi

Configurare un provider Git

Configurare le soglie per la durata dell'esecuzione del processo o le metriche del backlog di streaming

Commenti e suggerimenti

Risorse aggiuntive