Apache Spark in Azure Databricks
Questo articolo descrive in che modo Apache Spark è correlato ad Azure Databricks e alla piattaforma data intelligence di Databricks.
Apache Spark è al centro della piattaforma Azure Databricks ed è la tecnologia che alimenta i cluster di calcolo e sql warehouse. Azure Databricks è una piattaforma ottimizzata per Apache Spark, che offre una piattaforma efficiente e semplice per l'esecuzione di carichi di lavoro Apache Spark.
Qual è la relazione tra Apache Spark e Azure Databricks?
La società Databricks è stata fondata dai creatori originali di Apache Spark. Come progetto software open source, Apache Spark dispone di commiter di molte aziende principali, tra cui Databricks.
Databricks continua a sviluppare e rilasciare funzionalità in Apache Spark. Databricks Runtime include ottimizzazioni aggiuntive e funzionalità proprietarie basate su Apache Spark, tra cui Photon, una versione ottimizzata di Apache Spark riscritta in C++.
Come funziona Apache Spark in Azure Databricks?
Quando si distribuisce un cluster di calcolo o SQL Warehouse in Azure Databricks, Apache Spark viene configurato e distribuito nelle macchine virtuali. Non è necessario configurare o inizializzare un contesto Spark o una sessione Spark, perché vengono gestiti automaticamente da Azure Databricks.
È possibile usare Azure Databricks senza usare Apache Spark?
Azure Databricks supporta un'ampia gamma di carichi di lavoro e include librerie open source in Databricks Runtime. Databricks SQL usa Apache Spark, ma gli utenti finali usano la sintassi SQL standard per creare ed eseguire query su oggetti di database.
Databricks Runtime per Machine Learning è ottimizzato per i carichi di lavoro ml e molti data scientist usano librerie open source primarie come TensorFlow e SciKit Learn durante l'uso di Azure Databricks. È possibile usare i processi per pianificare carichi di lavoro arbitrari rispetto alle risorse di calcolo distribuite e gestite da Azure Databricks.
Perché usare Apache Spark in Azure Databricks?
La piattaforma Databricks offre un ambiente sicuro e collaborativo per lo sviluppo e la distribuzione di soluzioni aziendali scalabili con l'azienda. I dipendenti di Databricks includono molti dei gestori e degli utenti di Apache Spark più esperti al mondo. L'azienda sviluppa e rilascia continuamente nuove ottimizzazioni per garantire che gli utenti possano accedere all'ambiente più veloce per l'esecuzione di Apache Spark.
Come è possibile ottenere altre informazioni sull'uso di Apache Spark in Azure Databricks?
Per iniziare a usare Apache Spark in Azure Databricks, iniziare subito a usare Azure Databricks. L'esercitazione sui dataframe Apache Spark illustra il caricamento e la trasformazione dei dati in Python, R o Scala. Vedere Esercitazione: Caricare e trasformare i dati con dataframe Apache Spark.
Altre informazioni sul supporto del linguaggio Python, R e Scala in Spark sono disponibili nelle sezioni PySpark in Azure Databricks, Panoramica di SparkR e Azure Databricks per sviluppatori Scala, oltre a Informazioni di riferimento sulle API Apache Spark.