Usare Spark in Azure Synapse Analytics

Completato

È possibile eseguire molti tipi diversi di applicazione in Spark, tra cui codice in Script Python o Scala, codice Java compilato come archivio Java (JAR) e altri ancora. Spark viene comunemente usato in due tipi di carico di lavoro:

  • Processi di elaborazione in batch o in streaming per inserire, pulire e trasformare i dati, spesso in esecuzione come parte di una pipeline automatizzata.
  • Sessioni di analisi interattive per esplorare, analizzare e visualizzare i dati.

Esecuzione del codice Spark nei notebook

Azure Synapse Studio include un'interfaccia del notebook integrata per l'uso di Spark. I notebook offrono un modo intuitivo per combinare il codice con le note Markdown, comunemente usate da data scientist e analisti dei dati. L'aspetto dell'esperienza integrata dei notebook in Azure Synapse Studio è simile a quello dei notebook di Jupyter, una piattaforma di notebook open source molto diffusa.

Screenshot di un notebook di Spark in Azure Synapse Studio.

Nota

Anche se vengono usati in genere in modo interattivo, i notebook possono essere inclusi nelle pipeline automatizzate ed eseguiti come script automatico.

I notebook sono costituiti da una o più celle, ognuna delle quali contiene codice o Markdown. Le celle di codice nei notebook hanno alcune funzionalità che consentono di essere più produttivi, tra cui:

  • Supporto per l'evidenziazione della sintassi e gli errori.
  • Completamento automatico del codice.
  • Visualizzazioni interattive dei dati.
  • Possibilità di esportare i risultati.

Suggerimento

Per altre informazioni sull'uso dei notebook in Azure Synapse Analytics, vedere l'articolo Creare, sviluppare e gestire i notebook di Synapse in Azure Synapse Analytics nella documentazione di Azure Synapse Analytics.

Accesso ai dati da un pool di Spark per Synapse

È possibile usare Spark in Azure Synapse Analytics per usare i dati provenienti da varie origini, tra cui:

  • Data lake basato sull'account di archiviazione primario per l'area di lavoro di Azure Synapse Analytics.
  • Data lake basato sull'archiviazione definita come servizio collegato nell'area di lavoro.
  • Pool SQL dedicato o serverless nell'area di lavoro.
  • Database di Azure SQL o SQL Server (usando il connettore Spark per SQL Server).
  • Database analitico di Azure Cosmos DB definito come servizio collegato e configurato usando Collegamento ad Azure Synapse per Cosmos DB.
  • Database Kusto di Esplora dati di Azure definito come servizio collegato nell'area di lavoro.
  • Metastore Hive esterno definito come servizio collegato nell'area di lavoro.

Uno degli usi più comuni di Spark consiste nell'usare i dati in un data lake, dove è possibile leggere e scrivere file in più formati comunemente usati, tra cui testo delimitato, Parquet, Avro e altri ancora.