Inleiding
Apache Spark is een opensource-framework voor parallelle verwerking voor grootschalige gegevensverwerking en -analyse. Spark is zeer populair geworden in 'big data'-verwerkingsscenario's en is beschikbaar in meerdere platform-implementaties; waaronder Azure HDInsight, Azure Databricks en Azure Synapse Analytics.
In deze module wordt beschreven hoe u Spark in Azure Synapse Analytics kunt gebruiken om gegevens uit een data lake op te nemen, te verwerken en te analyseren. Hoewel de belangrijkste technieken en code die in deze module worden beschreven, gebruikelijk zijn voor alle Spark-implementaties, zijn de geïntegreerde hulpprogramma's en de mogelijkheid om met Spark te werken in dezelfde omgeving als andere Synapse-analytische runtimes specifiek voor Azure Synapse Analytics.
Als u deze module hebt voltooid, kunt u het volgende:
- Identificeer kernfuncties en -mogelijkheden van Apache Spark.
- Configureer een Spark-pool in Azure Synapse Analytics.
- Voer code uit om gegevens in een Spark-notebook te laden, analyseren en visualiseren.