Úvod

1 min.

Apache Spark je opensourcová architektura paralelního zpracování pro rozsáhlé zpracování a analýzu dat. Spark se stal velmi populárním ve scénářích zpracování velkých objemů dat a je k dispozici v několika implementacích platformy; včetně Azure HDInsight, Azure Databricks a Azure Synapse Analytics.

V tomto modulu se dozvíte, jak pomocí Sparku ve službě Azure Synapse Analytics ingestovat, zpracovávat a analyzovat data z datového jezera. I když základní techniky a kód popsané v tomto modulu jsou společné pro všechny implementace Sparku, integrované nástroje a schopnost pracovat se Sparkem ve stejném prostředí jako ostatní analytické moduly Runtime Synapse jsou specifické pro Azure Synapse Analytics.

Po dokončení tohoto modulu budete umět:

Identifikace základních funkcí a možností Apache Sparku
Nakonfigurujte fond Sparku ve službě Azure Synapse Analytics.
Spusťte kód pro načtení, analýzu a vizualizaci dat v poznámkovém bloku Sparku.

Úvod

Váš názor