Wprowadzenie

1 minuta

Apache Spark to platforma przetwarzania równoległego typu open source na potrzeby przetwarzania i analizy danych na dużą skalę. Platforma Spark stała się niezwykle popularna w scenariuszach przetwarzania "danych big data" i jest dostępna w wielu implementacjach platformy; w tym usługi Azure HDInsight, Azure Databricks i Azure Synapse Analytics.

W tym module opisano, jak za pomocą platformy Spark w usłudze Azure Synapse Analytics pozyskiwać, przetwarzać i analizować dane z usługi Data Lake. Chociaż podstawowe techniki i kod opisane w tym module są wspólne dla wszystkich implementacji platformy Spark, zintegrowane narzędzia i możliwość pracy z platformą Spark w tym samym środowisku co inne środowiska uruchomieniowe analityczne usługi Synapse są specyficzne dla usługi Azure Synapse Analytics.

Po ukończeniu tego modułu będziesz mieć następujące umiejętności:

Identyfikowanie podstawowych funkcji i możliwości platformy Apache Spark.
Konfigurowanie puli Spark w usłudze Azure Synapse Analytics.
Uruchamianie kodu w celu załadowania, analizowania i wizualizowania danych w notesie platformy Spark.

Wprowadzenie

Opinia