Wprowadzenie
Apache Spark to platforma przetwarzania równoległego typu open source na potrzeby przetwarzania i analizy danych na dużą skalę. Platforma Spark stała się niezwykle popularna w scenariuszach przetwarzania "danych big data" i jest dostępna w wielu implementacjach platformy; w tym usługi Azure HDInsight, Azure Databricks i Azure Synapse Analytics.
W tym module opisano, jak za pomocą platformy Spark w usłudze Azure Synapse Analytics pozyskiwać, przetwarzać i analizować dane z usługi Data Lake. Chociaż podstawowe techniki i kod opisane w tym module są wspólne dla wszystkich implementacji platformy Spark, zintegrowane narzędzia i możliwość pracy z platformą Spark w tym samym środowisku co inne środowiska uruchomieniowe analityczne usługi Synapse są specyficzne dla usługi Azure Synapse Analytics.
Po ukończeniu tego modułu będziesz mieć następujące umiejętności:
- Identyfikowanie podstawowych funkcji i możliwości platformy Apache Spark.
- Konfigurowanie puli Spark w usłudze Azure Synapse Analytics.
- Uruchamianie kodu w celu załadowania, analizowania i wizualizowania danych w notesie platformy Spark.