Úvod
Apache Spark je opensourcová architektura paralelního zpracování pro rozsáhlé zpracování a analýzu dat. Spark se stal velmi populárním ve scénářích zpracování velkých objemů dat a je k dispozici v několika implementacích platformy; včetně Azure HDInsight, Azure Databricks a Azure Synapse Analytics.
V tomto modulu se dozvíte, jak pomocí Sparku ve službě Azure Synapse Analytics ingestovat, zpracovávat a analyzovat data z datového jezera. I když základní techniky a kód popsané v tomto modulu jsou společné pro všechny implementace Sparku, integrované nástroje a schopnost pracovat se Sparkem ve stejném prostředí jako ostatní analytické moduly Runtime Synapse jsou specifické pro Azure Synapse Analytics.
Po dokončení tohoto modulu budete umět:
- Identifikace základních funkcí a možností Apache Sparku
- Nakonfigurujte fond Sparku ve službě Azure Synapse Analytics.
- Spusťte kód pro načtení, analýzu a vizualizaci dat v poznámkovém bloku Sparku.