Condividi tramite


Azure Databricks per sviluppatori Scala

Questo articolo fornisce una guida allo sviluppo di notebook e processi in Azure Databricks con il linguaggio Scala. La prima sezione fornisce collegamenti a esercitazioni per flussi di lavoro e attività comuni. La seconda sezione fornisce collegamenti ad API, librerie e strumenti chiave.

Un flusso di lavoro basilare per iniziare è:

Oltre a questo, è possibile affrontare argomenti più specifici:

Esercitazioni

Le seguenti esercitazioni forniscono esempi di codice e notebook per imparare i flussi di lavoro più comuni. Per istruzioni sull'importazione di esempi di notebook nell'area di lavoro, si veda Importare un notebook.

Riferimento

Le sottosezioni seguenti list principali funzionalità e suggerimenti per iniziare a sviluppare in Azure Databricks con Scala.

API Scala

Questi collegamenti forniscono un'introduzione e informazioni di riferimento per l'API Scala di Apache Spark.

Gestire il codice con notebook e cartelle Git di Databricks.

I notebook di Databricks supportano Scala. Questi notebook offrono funzionalità simili a quelle di Jupyter, ma con aggiunte come visualizzazioni predefinite che usano Big Data, integrazioni di Apache Spark per il debug e il monitoraggio delle prestazioni e integrazioni MLflow per tenere traccia degli esperimenti di apprendimento automatico. Get è stata avviata da importando un notebook. Dopo aver ottenuto l'accesso a un cluster, è possibile collegare un notebook al cluster ed eseguire il notebook.

Suggerimento

Per reset lo stato del notebook, riavviare il kernel. Per gli utenti di Jupyter, l'opzione "riavvia kernel" in Jupyter corrisponde al scollegamento e al ricollegamento di un notebook in Databricks. Per riavviare il kernel in un notebook, fare clic sul selettore di calcolo nella barra degli strumenti del notebook e passare il puntatore del mouse sul cluster collegato o sul data warehouse SQL nel list per visualizzare un menu laterale. Select Scollega &, ricollega. In questo modo si scollega il notebook dal cluster e lo si ricollega, riavviando il processo.

Le cartelle Git di Databricks consentono agli utenti di sincronizzare notebook e altri file con i repository Git. Le cartelle Git di Databricks sono utili per il controllo delle versioni del codice e la collaborazione e semplificano l'importazione di un repository completo di codice in Azure Databricks, la visualizzazione delle versioni precedenti dei notebook e l'integrazione con lo sviluppo IDE. Get è stata avviata da che ha clonato un repository Git remoto. È quindi possibile aprire o creare notebook con il clone del repository, collegare il notebook a un cluster ed eseguire il notebook.

Cluster e librerie

Azure Databricks compute fornisce la gestione del calcolo per cluster di qualsiasi dimensione: da cluster a singolo nodo fino a cluster di grandi dimensioni. È possibile personalizzare l'hardware e le librerie del cluster in base alle esigenze. I data scientist iniziano generalmente a lavorare creando un cluster o usando un cluster condiviso esistente. Dopo aver ottenuto l'accesso a un cluster, è possibile collegare un notebook al cluster o eseguire un processo nel cluster.

I cluster di Azure Databricks utilizzano un runtime di Databricks, che offre molte librerie comuni predefinite, tra cui Apache Spark, Delta Lake e altro ancora. È anche possibile installare altre librerie di terze parti o personalizzate da utilizzare con notebook e processi.

Visualizzazioni

I notebook Scala di Azure Databricks supportano molti tipi di visualizzazioni. È anche possibile usare visualizzazioni legacy:

Interoperabilità

Questa sezione descrive le funzionalità che supportano l'interoperabilità tra Scala e SQL.

Processi

È possibile automatizzare i carichi di lavoro Scala come processi pianificati o attivati in Azure Databricks. I processi possono eseguire notebook e JAR.

IDE, strumenti di sviluppo e SDK

Oltre a sviluppare codice Scala all'interno di notebook di Azure Databricks, è possibile svilupparlo esternamente utilizzando ambienti di sviluppo integrati (IDE), come IntelliJ IDEA. Per sincronizzare il lavoro tra ambienti di sviluppo esterni e Azure Databricks, sono disponibili diverse opzioni:

  • Codice: è possibile sincronizzare il codice usando Git. Si veda Integrazione git per le cartelle Git di Databricks.
  • Librerie e processi: è possibile creare librerie esternamente e poi caricarle in Azure Databricks. Queste librerie possono essere importate all'interno dei notebook di Azure Databricks oppure usate per creare processi. Vedere Librerie e Pianificare e orchestrare i flussi di lavoro.
  • Esecuzione da computer remoto: È possibile eseguire il codice dall'IDE locale per lo sviluppo interattivo e i test. L'IDE può comunicare con Azure Databricks per eseguire calcoli di grandi dimensioni nei cluster Azure Databricks. Ad esempio, è possibile usare IntelliJ IDEA con Databricks Connect.

Databricks offre un set di SDK che supportano l'automazione e l'integrazione con strumenti esterni. È possibile utilizzare gli SDK di Databricks per gestire risorse come cluster e librerie, codice e altri oggetti dell'area di lavoro, carichi di lavoro e processi e altro ancora. Si vedano gli SDK di Databricks.

Per altre informazioni su IDE, strumenti di sviluppo e SDK, vedere Strumenti di sviluppo.

Risorse aggiuntive