Configurare una pipeline serverless di Delta Live Tables
Questo articolo descrive le configurazioni per le pipeline serverless di Delta Live Tables.
Databricks consiglia di sviluppare nuove pipeline usando serverless. Alcuni carichi di lavoro potrebbero richiedere la configurazione del calcolo classico o l'uso del metastore Hive legacy. Vedi Configurare il calcolo per una pipeline Delta Live Tables e Utilizzare le pipeline Delta Live Tables con il metastore Hive legacy.
Nota
Le pipeline serverless usano sempre Unity Catalog. Il catalogo Unity per le tabelle live Delta è disponibile in anteprima pubblica e presenta alcune limitazioni. Vedere Usare il catalogo Unity con le pipeline delle tabelle live Delta.
Per le limitazioni di calcolo serverless, vedere limitazioni di calcolo serverless.
Non è possibile aggiungere manualmente le impostazioni di calcolo in un
clusters
oggetto nella configurazione JSON per una pipeline serverless. Se tenta di eseguire queste operazioni viene generato un errore.Se è necessario usare una connessione collegamento privato di Azure con le pipeline DLT serverless, contattare il rappresentante di Databricks.
Requisiti
Per utilizzare pipeline serverless, l'area di lavoro deve avere Unity Catalog abilitato.
L'area di lavoro deve trovarsi in un'area abilitata per serverless.
Configurazione consigliata per le pipeline serverless
Importante
L'autorizzazione di creazione del cluster non è necessaria per configurare le pipeline serverless. Per impostazione predefinita, tutti gli utenti dell'area di lavoro possono usare pipeline serverless.
Le pipeline serverless rimuovono la maggior parte delle opzioni di configurazione, perché Azure Databricks gestisce tutta l'infrastruttura. Per configurare una pipeline serverless, eseguire le operazioni seguenti:
- Fare clic su Delta Live Tables nella barra laterale.
- Fare clic su Crea pipeline.
- Specificare un nome di pipeline univoco.
- Selezionare la casella accanto a Serverless.
- (Facoltativo) Usare la selezione file per configurare notebook e file dell'area di lavoro come codice sorgente.
- Se non si aggiunge codice sorgente, viene creato un nuovo notebook per la pipeline. Il notebook viene creato in una nuova directory nella directory utente e un collegamento per accedere a questo notebook viene visualizzato nel campo Codice sorgente nel riquadro Dettagli pipeline dopo aver creato la pipeline.
- Un collegamento per accedere a questo notebook è presente nel campo Codice sorgente nel pannello Dettagli pipeline dopo aver creato la pipeline.
- Usare il pulsante Aggiungi codice sorgente per aggiungere altri asset di codice sorgente.
- Se non si aggiunge codice sorgente, viene creato un nuovo notebook per la pipeline. Il notebook viene creato in una nuova directory nella directory utente e un collegamento per accedere a questo notebook viene visualizzato nel campo Codice sorgente nel riquadro Dettagli pipeline dopo aver creato la pipeline.
- Selezionare un catalogo per pubblicare i dati.
- Selezionare un schema
nel catalogo. Tutte le tabelle di streaming e le viste materializzate definite nella pipeline vengono create in questo schema. - Cliccare su Crea.
Queste configurazioni consigliate creano una nuova pipeline configurata per l'esecuzione in modalità attivata e il canale corrente . Questa configurazione è consigliata per molti casi d'uso, tra cui sviluppo e test, ed è particolarmente adatta ai carichi di lavoro di produzione che devono essere eseguiti in base a una pianificazione. Per informazioni dettagliate sulla pianificazione delle pipeline, vedere attività di pipeline Delta Live Tables per i processi.
È anche possibile convertire le pipeline esistenti configurate con Unity Catalog per l'uso serverless. Vedere Convertire una pipeline esistente per l'uso serverless.
Altre considerazioni sulla configurazione
Per le pipeline serverless sono disponibili anche le opzioni di configurazione seguenti:
- È possibile scegliere di usare la modalità pipeline continua durante l'esecuzione di pipeline nell'ambiente di produzione. Vedere Triggered vs. continuous pipeline mode (Modalità pipeline attivata e continua).
- Aggiungere notifiche per gli aggiornamenti tramite posta elettronica in base a condizioni di esito positivo o negativo. Vedere Aggiungere notifiche email per gli eventi della pipeline.
- Utilizzare il campo Configurazione per impostare coppie chiave-valore per la pipeline. Queste configurazioni servono due scopi:
- Impostare parametri arbitrari a cui è possibile fare riferimento nel codice sorgente. Consulta Usare i parametri con le pipeline di Delta Live Tables.
- Configurare le impostazioni della pipeline e le configurazioni di Spark. Vedere informazioni di riferimento sulle proprietà di Delta Live Tables.
- Usare il canale di anteprima per testare la pipeline rispetto alle modifiche di runtime delle tabelle Delta Live in sospeso e provare nuove funzionalità.
Politica di bilancio
Importante
Questa funzionalità è disponibile in anteprima pubblica.
I criteri di budget consentono all'organizzazione di applicare tag personalizzati all'utilizzo serverless per l'attribuzione granulare della fatturazione. Dopo aver selezionato la casella di controllo serverless, viene visualizzata l'impostazione criteri budget in cui è possibile selezionare la politica che si desidera applicare alla pipeline. I tag vengono ereditati dai criteri di budget e possono essere modificati solo dagli amministratori dell'area di lavoro.
Nota
Dopo aver assegnato un criterio di budget, le pipeline esistenti non vengono contrassegnate automaticamente con i criteri. È necessario aggiornare manualmente le pipeline esistenti se si desidera allegare una politica.
Per altre informazioni sui criteri di budget, vedere Utilizzo serverless degli attributi con i criteri di budget.
Funzionalità della pipeline serverless
Oltre a semplificare la configurazione, le pipeline serverless hanno le funzionalità seguenti:
aggiornamento incrementale per le viste materializzate: gli aggiornamenti per le viste materializzate vengono aggiornati in modo incrementale quando possibile. L'aggiornamento incrementale ha gli stessi risultati della ricompilazione completa. L'aggiornamento usa un aggiornamento completo se i risultati non possono essere calcolati in modo incrementale. Vedere aggiornamento incrementale per le viste materializzate.
Pipelining del flusso: per migliorare l'utilizzo, la velocità effettiva e la latenza per i carichi di lavoro di dati di streaming, ad esempio l'inserimento di dati, vengono pipeline di microbatches. In altre parole, invece di eseguire microbatches in sequenza come spark structured streaming standard, le pipeline DLT serverless eseguono contemporaneamente microbatches, migliorando l'utilizzo delle risorse di calcolo. La pipelining del flusso è abilitata per impostazione predefinita nelle pipeline DLT serverless.
Scalabilità automatica verticale: le pipeline DLT serverless migliorano la scalabilità automatica orizzontale fornita da Databricks con la scalabilità automatica avanzata, allocando automaticamente i tipi di istanza più convenienti per eseguire la pipeline di Delta Live Tables senza incorrere in errori di memoria insufficiente. Vedere Che cos'è la scalabilità automatica verticale?
Che cos'è la scalabilità automatica verticale?
La scalabilità verticale automatica delle pipeline DLT serverless alloca i tipi di istanze disponibili più convenienti per eseguire gli aggiornamenti delle pipeline delle tabelle Delta Live, evitando errori dovuti a memoria insufficiente. La scalabilità automatica verticale aumenta quando sono necessari tipi di istanza più grandi per eseguire un aggiornamento della pipeline e diminuisce quando determina che l'aggiornamento può essere eseguito con tipi di istanza più piccoli. La scalabilità automatica verticale determina se i nodi driver, i nodi di lavoro o i nodi driver e di lavoro devono essere ridimensionati verso l'alto o verso il basso.
La scalabilità automatica verticale viene usata per tutte le pipeline DLT serverless, incluse le pipeline usate dalle viste materializzate e dalle tabelle di streaming di Databricks SQL.
La scalabilità automatica verticale funziona rilevando gli aggiornamenti della pipeline non riusciti a causa di errori di memoria insufficiente. La scalabilità automatica verticale alloca tipi di istanza più grandi quando questi errori vengono rilevati in base ai dati di memoria insufficiente raccolti dall'aggiornamento non riuscito. In modalità di produzione viene avviato automaticamente un nuovo aggiornamento che usa le nuove risorse di calcolo. In modalità di sviluppo, le nuove risorse di calcolo vengono usate quando si avvia manualmente un nuovo aggiornamento.
Se la scalabilità automatica verticale rileva che la memoria delle istanze allocate è costantemente sottoutilizzata, riduce i tipi di istanza da usare nell'aggiornamento successivo della pipeline.
Convertire una pipeline esistente in modo da usare serverless
È possibile convertire le pipeline esistenti configurate con Unity Catalog in pipeline serverless. Effettuare i passaggi seguenti:
- Fare clic su Delta Live Tables nella barra laterale.
- Fare clic sul nome della pipeline desiderata nell'elenco.
- Fare clic su Impostazioni.
- Selezionare la casella accanto a Serverless.
- Fare clic su Salva e avvia.
Importante
Quando si abilita serverless, tutte le impostazioni di calcolo configurate per una pipeline vengono rimosse. Se si torna a una pipeline a aggiornamenti non serverless, è necessario riconfigurare le impostazioni di calcolo desiderate alla configurazione della pipeline.
Come è possibile trovare l'utilizzo DBU di una pipeline serverless?
È possibile trovare l'utilizzo DBU delle pipeline DLT serverless interrogando la tabella di utilizzo fatturabile, parte delle tabelle di sistema di Azure Databricks. Vedere Che cos'è il consumo DBU di una pipeline DLT serverless?.