Configurare una pipeline di tabelle live Delta serverless
Questo articolo descrive le configurazioni per le pipeline di tabelle live Delta senza server.
Databricks consiglia di sviluppare nuove pipeline usando serverless. Alcuni carichi di lavoro potrebbero richiedere la configurazione del calcolo classico o l'uso del metastore Hive legacy. Vedere Configure compute for a Delta Live Tables pipeline (Configurare il calcolo per una pipeline di tabelle live Delta) e Usare pipeline delta live tables con metastore Hive legacy.
Nota
Le pipeline serverless usano sempre Unity Catalog. Il catalogo Unity per le tabelle live Delta è disponibile in anteprima pubblica e presenta alcune limitazioni. Vedere Use Unity Catalog with your Delta Live Tables pipelines (Usare il catalogo Unity con le pipeline di Tabelle live Delta).
Non è possibile aggiungere manualmente le impostazioni di calcolo in un
clusters
oggetto nella configurazione JSON per una pipeline serverless. Se tenta di eseguire queste operazioni viene generato un errore.Per informazioni sull'idoneità e l'abilitazione per le pipeline DLT serverless, vedere Abilitare il calcolo serverless.
Se è necessario usare una connessione collegamento privato di Azure con le pipeline DLT serverless, contattare il rappresentante di Databricks.
Requisiti
L'area di lavoro deve disporre di Unity Catalog abilitato per l'uso di pipeline serverless.
L'area di lavoro deve trovarsi in un'area abilitata per serverless.
Configurazione consigliata per le pipeline serverless
Importante
L'autorizzazione di creazione del cluster non è necessaria per configurare le pipeline serverless. Per impostazione predefinita, tutti gli utenti dell'area di lavoro possono usare pipeline serverless.
Le pipeline serverless rimuovono la maggior parte delle opzioni di configurazione, perché Azure Databricks gestisce tutta l'infrastruttura. Per configurare una pipeline serverless, eseguire le operazioni seguenti:
- Fare clic su Delta Live Tables (Tabelle attive Delta) nella barra laterale.
- Fare clic su Crea pipeline.
- Specificare un nome di pipeline univoco.
- Selezionare la casella accanto a Serverless.
- (Facoltativo) Usare la selezione file per configurare notebook e file dell'area di lavoro come codice sorgente.
- Se non si aggiunge codice sorgente, viene creato un nuovo notebook per la pipeline. Il notebook viene creato in una nuova directory nella directory utente e un collegamento per accedere a questo notebook viene visualizzato nel campo Codice sorgente nel riquadro Dettagli pipeline dopo aver creato la pipeline.
- Un collegamento per accedere a questo notebook è presente nel campo Codice sorgente nel pannello Dettagli pipeline dopo aver creato la pipeline.
- Usare il pulsante Aggiungi codice sorgente per aggiungere altri asset di codice sorgente.
- Se non si aggiunge codice sorgente, viene creato un nuovo notebook per la pipeline. Il notebook viene creato in una nuova directory nella directory utente e un collegamento per accedere a questo notebook viene visualizzato nel campo Codice sorgente nel riquadro Dettagli pipeline dopo aver creato la pipeline.
- Selezionare un catalogo per pubblicare i dati.
- Selezionare uno schema nel catalogo. Tutte le tabelle di streaming e le viste materializzate definite nella pipeline vengono create in questo schema.
- Cliccare su Crea.
Queste configurazioni consigliate creano una nuova pipeline configurata per l'esecuzione in modalità attivata e il canale corrente . Questa configurazione è consigliata per molti casi d'uso, tra cui sviluppo e test, ed è particolarmente adatta ai carichi di lavoro di produzione che devono essere eseguiti in base a una pianificazione. Per informazioni dettagliate sulla pianificazione delle pipeline, vedere Attività della pipeline di tabelle live Delta per i processi.
È anche possibile convertire le pipeline esistenti configurate con Unity Catalog per l'uso serverless. Vedere Convertire una pipeline esistente per l'uso serverless.
Altre considerazioni sulla configurazione
Per le pipeline serverless sono disponibili anche le opzioni di configurazione seguenti:
- È possibile scegliere di usare la modalità pipeline continua durante l'esecuzione di pipeline nell'ambiente di produzione. Vedere Triggered vs. continuous pipeline mode (Modalità pipeline attivata e continua).
- Aggiungere notifiche per gli aggiornamenti tramite posta elettronica in base a condizioni di esito positivo o negativo. Vedere Aggiungere notifiche email per gli eventi della pipeline.
- Usare il campo Configurazione per impostare coppie chiave-valore per la pipeline. Queste configurazioni servono due scopi:
- Impostare parametri arbitrari a cui è possibile fare riferimento nel codice sorgente. Vedere Usare i parametri con le pipeline di tabelle live Delta.
- Configurare le impostazioni della pipeline e le configurazioni di Spark. Vedere Informazioni di riferimento sulle proprietà delle tabelle live delta.
- Usare il canale Anteprima per testare la pipeline rispetto alle modifiche di runtime delle tabelle live Delta in sospeso e alle nuove funzionalità di valutazione.
Politica di bilancio
Importante
Questa funzionalità è disponibile in anteprima pubblica.
I criteri di budget consentono all'organizzazione di applicare tag personalizzati all'utilizzo serverless per l'attribuzione granulare della fatturazione. Dopo aver selezionato la casella di controllo Serverless , viene visualizzata l'impostazione Criteri budget in cui è possibile selezionare i criteri da applicare alla pipeline. I tag vengono ereditati dai criteri di budget e possono essere modificati solo dagli amministratori dell'area di lavoro.
Nota
Dopo aver assegnato un criterio di budget, le pipeline esistenti non vengono contrassegnate automaticamente con i criteri. È necessario aggiornare manualmente le pipeline esistenti se si desidera allegare un criterio.
Per altre informazioni sui criteri di budget, vedere Utilizzo serverless degli attributi con i criteri di budget.
Funzionalità della pipeline serverless
Oltre a semplificare la configurazione, le pipeline serverless hanno le funzionalità seguenti:
- Aggiornamento incrementale per le viste materializzate: gli aggiornamenti per le viste materializzate vengono aggiornati in modo incrementale ogni volta che possibile. L'aggiornamento incrementale ha gli stessi risultati della ricompilazione completa. L'aggiornamento usa un aggiornamento completo se i risultati non possono essere calcolati in modo incrementale. Vedere Aggiornamento incrementale per le viste materializzate.
- Pipelining del flusso: per migliorare l'utilizzo, la velocità effettiva e la latenza per i carichi di lavoro di dati di streaming, ad esempio l'inserimento di dati, vengono pipeline di microbatches. In altre parole, invece di eseguire microbatches in sequenza come spark structured streaming standard, le pipeline DLT serverless eseguono contemporaneamente microbatches, migliorando l'utilizzo delle risorse di calcolo. La pipelining del flusso è abilitata per impostazione predefinita nelle pipeline DLT serverless.
- Scalabilità automatica verticale: le pipeline DLT serverless aggiungono alla scalabilità automatica orizzontale fornita da Databricks la scalabilità automatica avanzata allocando automaticamente i tipi di istanza più convenienti che possono eseguire la pipeline di tabelle live Delta senza errori di memoria insufficiente. Vedere Che cos'è la scalabilità automatica verticale?
Che cos'è la scalabilità automatica verticale?
La scalabilità automatica verticale delle pipeline DLT serverless alloca automaticamente i tipi di istanze disponibili più convenienti per eseguire gli aggiornamenti della pipeline delle tabelle live Delta senza errori a causa di errori di memoria insufficiente. La scalabilità automatica verticale aumenta quando sono necessari tipi di istanza più grandi per eseguire un aggiornamento della pipeline e riduce anche le prestazioni quando determina che l'aggiornamento può essere eseguito con tipi di istanza più piccoli. La scalabilità automatica verticale determina se i nodi driver, i nodi di lavoro o i nodi driver e di lavoro devono essere ridimensionati verso l'alto o verso il basso.
La scalabilità automatica verticale viene usata per tutte le pipeline DLT serverless, incluse le pipeline usate dalle viste materializzate e dalle tabelle di streaming di Databricks SQL.
La scalabilità automatica verticale funziona rilevando gli aggiornamenti della pipeline non riusciti a causa di errori di memoria insufficiente. La scalabilità automatica verticale alloca tipi di istanza più grandi quando questi errori vengono rilevati in base ai dati di memoria insufficiente raccolti dall'aggiornamento non riuscito. In modalità di produzione viene avviato automaticamente un nuovo aggiornamento che usa le nuove risorse di calcolo. In modalità di sviluppo, le nuove risorse di calcolo vengono usate quando si avvia manualmente un nuovo aggiornamento.
Se la scalabilità automatica verticale rileva che la memoria delle istanze allocate è costantemente sottoutilizzata, riduce i tipi di istanza da usare nell'aggiornamento successivo della pipeline.
Convertire una pipeline esistente in modo da usare serverless
È possibile convertire le pipeline esistenti configurate con Unity Catalog in pipeline serverless. Effettuare i passaggi seguenti:
- Fare clic su Delta Live Tables (Tabelle attive Delta) nella barra laterale.
- Fare clic sul nome della pipeline desiderata nell'elenco.
- Fare clic su Impostazioni.
- Selezionare la casella accanto a Serverless.
- Fare clic su Salva e avvia.
Importante
Quando si abilita serverless, tutte le impostazioni di calcolo configurate per una pipeline vengono rimosse. Se si torna a una pipeline a aggiornamenti non serverless, è necessario riconfigurare le impostazioni di calcolo desiderate alla configurazione della pipeline.
Come è possibile trovare l'utilizzo DBU di una pipeline serverless?
È possibile trovare l'utilizzo DBU delle pipeline DLT serverless eseguendo una query sulla tabella di utilizzo fatturabile, parte delle tabelle di sistema di Azure Databricks. Vedere Che cos'è il consumo DBU di una pipeline DLT serverless?.