Comprendere i concetti chiave
Azure Databricks è una singola piattaforma di servizi con più tecnologie che consentono di usare i dati su larga scala. Quando si usa Azure Databricks, sono disponibili alcuni concetti chiave da comprendere.
Aree di lavoro
Un'area di lavoro è un ambiente per l'accesso a tutti gli asset di Databricks. Fornisce un'interfaccia utente per gestire notebook, librerie e esperimenti. Le aree di lavoro possono essere organizzate in cartelle e condivise tra i membri del team, semplificando la collaborazione e la gestione delle risorse.
Notebook
I notebook di Databricks sono documenti interattivi che contengono codice eseguibile, visualizzazioni e testo narrativo. Supportano più linguaggi, tra cui Python, R, Scala e SQL, che possono essere usati contemporaneamente all'interno dello stesso notebook. I notebook sono fondamentali per i progetti collaborativi e sono ideali per l'analisi esplorativa dei dati, la visualizzazione dei dati e i flussi di lavoro di dati complessi.
Cluster
I cluster sono i motori di calcolo di Azure Databricks. Gli utenti possono creare e ridimensionare cluster in base alle risorse di calcolo necessarie. I cluster possono essere configurati manualmente o impostati per la scalabilità automatica in base al carico di lavoro. Supportano diversi tipi di nodi per varie attività, ad esempio i nodi driver e di lavoro, garantendo un utilizzo efficiente delle risorse.
Processi
I processi in Azure Databricks vengono usati per pianificare ed eseguire attività automatizzate. Queste attività possono essere esecuzioni di notebook, processi Spark o esecuzioni di codice arbitrarie. I processi possono essere attivati in base a una pianificazione o eseguiti in risposta a determinati eventi, semplificando l'automazione dei flussi di lavoro e attività periodiche di elaborazione dei dati.
Databricks Runtime
Databricks Runtime è un set di versioni ottimizzate per le prestazioni di Apache Spark. Include miglioramenti per migliorare le prestazioni e funzionalità aggiuntive oltre a Spark standard, ad esempio ottimizzazioni per carichi di lavoro di Machine Learning, elaborazione dei grafici e genomica.
Delta Lake
Delta Lake è un livello di archiviazione open source che conferisce affidabilità e scalabilità ai data lake. Fornisce transazioni ACID, gestione scalabile dei metadati e unifica l'elaborazione dei dati in streaming e batch, tutti fondamentali per la gestione di dati su larga scala in modo coerente e a tolleranza di errore.
Databricks SQL
Databricks SQL consente di eseguire query SQL sui dati all'interno di Azure Databricks. Consente agli analisti dei dati di eseguire query ad hoc rapide e di creare report direttamente su Big Data. Include un editor SQL, dashboard e strumenti di visualizzazione automatica, semplificando l'uso degli ambienti SQL.
MLflow
MLflow è una piattaforma open source per la gestione del ciclo di vita end-to-end di Machine Learning. Include funzionalità per il rilevamento dell'esperimento, la gestione dei modelli e la distribuzione, consentendo ai professionisti di gestire e condividere in modo efficiente i modelli e gli esperimenti di Machine Learning.