Calcolo
L’ambiente di calcolo di Azure Databricks fa riferimento alla selezione delle risorse di calcolo disponibili nell'area di lavoro di Azure Databricks. Gli utenti hanno bisogno di accedere all’ambiente calcolo per eseguire carichi di lavoro di ingegneria dei dati, data science e analisi dei dati, ad esempio pipeline ETL di produzione, analisi di flusso, analisi ad hoc e Machine Learning.
Gli utenti possono connettersi a risorse di calcolo esistenti o creare nuove risorse di calcolo se dispongono delle autorizzazioni appropriate.
È possibile visualizzare il calcolo a cui si ha accesso usando la sezione Ambiente di Calcolo dell'area di lavoro:
Tipi di ambienti di calcolo
Questi sono i tipi di ambiente di calcolo disponibili in Azure Databricks:
Elaborazione serverless per notebook: calcolo scalabile su richiesta usato per eseguire codice SQL e Python nei notebook.
Elaborazione serverless per i processi: calcolo scalabile su richiesta usato per eseguire i processi di Databricks senza configurare e distribuire l'infrastruttura.
Elaborazione universale: calcolo con provisioning usato per analizzare i dati nei notebook. È possibile creare, terminare e riavviare questo calcolo usando l'interfaccia utente, l'interfaccia della riga di comando o l'API REST.
Elaborazione dei processi: calcolo con provisioning usato per eseguire processi automatizzati. L'utilità di pianificazione dei processi di Azure Databricks crea automaticamente un calcolo del processo ogni volta che un processo è configurato per l'esecuzione in un nuovo ambiente di calcolo. Il calcolo termina al termine del processo. Non è possibile riavviare un calcolo di processi. Vedere Configurare il calcolo per i processi.
Pool di istanze: calcolo con istanze inattive, pronte per l'uso, usate per ridurre i tempi di avvio e scalabilità automatica. È possibile creare questo calcolo usando l'interfaccia utente, l'interfaccia della riga di comando o l'API REST.
Sql Warehouse serverless: calcolo elastico su richiesta utilizzato per eseguire comandi SQL sugli oggetti dati nell'editor SQL o nei notebook interattivi. È possibile creare warehouse SQL usando l'interfaccia utente, l'interfaccia della riga di comando o l'API REST.
Sql Warehouse classico serverless: utilizzato per eseguire comandi SQL sugli oggetti dati nell'editor SQL o nei notebook interattivi. È possibile creare warehouse SQL usando l'interfaccia utente, l'interfaccia della riga di comando o l'API REST.
Gli articoli di questa sezione descrivono come usare le risorse di calcolo con l'interfaccia utente di Azure Databricks. Per altri metodi, si veda Informazioni sull'interfaccia della riga di comando di Databricks e informazioni di riferimento sull'API REST di Databricks.
Databricks Runtime
Databricks Runtime è il set dei componenti di base che vengono eseguiti sul tuo ambiente di elaborazione. Databricks Runtime è un'impostazione configurabile in tutti gli scopi di calcolo dei processi, ma selezionata automaticamente in SQL Warehouse.
Ogni versione di Databricks Runtime include aggiornamenti che migliorano l' utilizzabilità, le prestazioni e la sicurezza dell'analisi dei big data. Databricks Runtime nell'ambiente di calcolo aggiunge molte funzionalità, tra cui:
- Delta Lake, un livello di archiviazione di nuova generazione basato su Apache Spark che fornisce transazioni ACID, layout e indici ottimizzati e miglioramenti del motore di esecuzione per la creazione di pipeline di dati. Vedere Cos'è Delta Lake?.
- Librerie Java, Scala, Python e R installate.
- Ubuntu e le librerie di sistema abbinate.
- Librerie GPU per cluster abilitati per GPU.
- Servizi di Azure Databricks che si integrano con altri componenti della piattaforma, ad esempio notebook, processi e gestione del cluster.
Per informazioni sul contenuto di ogni versione di runtime, vedere le note sulla versione.
Versione di runtime
Le versioni di Databricks Runtime vengono rilasciate periodicamente:
- Le versioni di supporto a lungo termine sono rappresentate da un qualificatore LTS (ad esempio, 3.5 LTS). Per ogni versione principale, dichiariamo una versione della funzionalità "canonica", per cui forniamo tre anni completi di supporto. Per altre informazioni, si veda Cicli di vita del supporto di Databricks.
- Le versioni principali sono rappresentate da un incremento al numero di versione che precede il separatore decimale (ad esempio il passaggio da 3.5 a 4.0). Vengono rilasciati quando sono presenti modifiche importanti, alcune delle quali potrebbero non essere compatibili con le versioni precedenti.
- Le versioni delle funzionalità sono rappresentate da un incremento del numero di versione che segue il separatore decimale (ad esempio il passaggio da 3.4 a 3.5). Ogni versione principale include più versioni delle funzionalità. Le versioni delle funzionalità sono sempre compatibili con le versioni precedenti all'interno della versione principale.