Introduzione
Apache Spark è un framework di elaborazione parallela open source per l'elaborazione e l'analisi dei dati su larga scala. Spark è diventato estremamente popolare negli scenari di elaborazione "Big Data" ed è disponibile in più implementazioni della piattaforma, tra cui Azure HDInsight, Azure Databricks e Azure Synapse Analytics.
Questo modulo illustra come usare Spark in Azure Synapse Analytics per inserire, elaborare e analizzare i dati da un data lake. Anche se le tecniche di base e il codice descritti in questo modulo siano comuni a tutte le implementazioni di Spark, gli strumenti integrati e la capacità di lavorare con Spark nello stesso ambiente di altri runtime di analisi di Synapse sono specifici di Azure Synapse Analytics.
Al termine di questo modulo si sarà in grado di:
- Identificare le funzionalità e le capacità di base di Apache Spark.
- Creare un pool di Spark in Azure Synapse Analytics.
- Eseguire il codice per caricare, analizzare e visualizzare i dati in un notebook Spark.