Introduzione ad Azure Databricks

Completato

Azure Databricks è una piattaforma di analisi basata sul cloud che fornisce un ambiente unificato per ingegneria dei dati, apprendimento automatico e analisi. Azure Databricks è stato progettato in collaborazione con Databricks, la cui leadership ha creato Apache Spark. Azure Databricks offre un servizio di analisi facile, veloce e collaborativo basato su Apache Spark. Questa piattaforma si integra profondamente con gli altri servizi di Azure, offrendo agli utenti un'esperienza senza interruzioni di protezione avanzata, prestazioni e scalabilità. Consente attività guidate dai dati, come la preparazione dei dati, l'apprendimento automatico e i flussi di lavoro di data science, rendendoli uno strumento versatile per le organizzazioni che stanno prendendo in esame l'eventualità di sfruttare la potenza dei Big Data.

Le funzionalità principali di Azure Databricks includono l'integrazione nativa con Microsoft Entra ID e la capacità di usare altri servizi di Azure, ad esempio Archiviazione di Azure, Azure Data Lake Storage e Azure Cosmos DB. La piattaforma offre inoltre un'area di lavoro interattiva che facilita la collaborazione tra data scientist, ingegneri dei dati e business analyst. Questo ambiente collaborativo supporta diversi linguaggi di programmazione, come Python, Scala, R e SQL, consentendo ai team di sviluppare ed eseguire l'iterazione sui modelli di dati in modo efficiente. Inoltre, Azure Databricks è progettato per ridimensionare facilmente, gestendo sia le richieste di calcolo degli algoritmi di apprendimento automatico che le esigenze di elaborazione di set di dati di grandi dimensioni.

Creazione di un'area di lavoro di Azure Databricks

Per usare Azure Databricks, è necessario creare un'area di lavoro di Azure Databricks nella sottoscrizione di Azure. A tale scopo, effettuare le operazioni descritte di seguito:

  • Uso dell'interfaccia utente del portale di Azure
  • Uso di un modello di Azure Resource Manager (ARM) o Bicep
  • Uso del cmdlet New-AzDatabricksWorkspace di Azure PowerShell
  • Uso del comando dell'interfaccia della riga di comando (CLI) di Azure az databricks workspace create

Quando si crea un'area di lavoro, è necessario specificare uno dei piani tariffari seguenti.

  • Standard - Funzionalità principali di Apache Spark con l'integrazione di Microsoft Entra ID.
  • Premium - Controlli degli accessi in base al ruolo e altre funzionalità di livello aziendale.
  • Trial - Versione di valutazione gratuita per 14 giorni di un'area di lavoro di livello Premium

Azure Databricks

Uso del portale di Azure Databricks

Dopo aver effettuato il provisioning di un'area di lavoro di Azure Databricks, è possibile usare il portale di Azure Databricks per usare i dati e le risorse di calcolo. Il portale di Azure Databricks è un'interfaccia utente basata sul Web in cui è possibile creare e gestire le risorse dell'area di lavoro (ad esempio i cluster Spark) e usare notebook e query per lavorare con i dati in file e tabelle.

Portale di Azure Databricks