Usare Spark nei notebook

6 minuti

È possibile eseguire molti tipi diversi di applicazioni in Spark, tra cui codice in script Python o Scala, codice Java compilato come Archivio Java (JAR) e altre ancora. Spark viene comunemente usato in due tipi di carichi di lavoro:

Processi di elaborazione in batch o in streaming per inserire, pulire e trasformare i dati, spesso in esecuzione come parte di una pipeline automatizzata.
Sessioni di analisi interattive per esplorare, analizzare e visualizzare i dati.

Esecuzione del codice Spark nei notebook

Azure Databricks include un'interfaccia del notebook integrata per l'uso di Spark. I notebook offrono un modo intuitivo per combinare il codice con le note Markdown, comunemente usate da data scientist e analisti dei dati. L'aspetto dell'esperienza integrata dei notebook in Azure Databricks è simile a quello dei notebook di Jupyter, una piattaforma per notebook open source molto diffusa.

Screenshot di un notebook in Azure Databricks.

I notebook sono costituiti da una o più celle, ognuna delle quali contiene codice o Markdown. Le celle di codice nei notebook hanno alcune funzionalità che consentono di essere più produttivi, tra cui:

Supporto per l'evidenziazione della sintassi e gli errori.
Completamento automatico del codice.
Visualizzazioni interattive dei dati.
Possibilità di esportare i risultati.

Suggerimento

Per altre informazioni sull'uso dei notebook in Azure Databricks, vedere l'articolo Notebook nella documentazione di Azure Databricks.

Usare Spark nei notebook

Esecuzione del codice Spark nei notebook

Commenti e suggerimenti