Wprowadzenie

Ukończone

Usługa Azure Databricks oferuje wysoce skalowalną platformę do analizy danych i przetwarzania przy użyciu platformy Apache Spark.

Platforma Spark to elastyczna platforma, która obsługuje wiele różnych języków programowania i interfejsów API. Konfigurując obszar roboczy usługi Databricks i wdrażając klastry Spark, użytkownicy mogą łatwo pozyskiwać dane z różnych źródeł, takich jak usługa Azure Data Lake lub Cosmos DB, do ramek danych platformy Spark. W interaktywnych notesach usługi Databricks użytkownicy mogą wykonywać złożone przekształcenia danych przy użyciu interfejsu API ramki danych platformy Spark, w tym operacji, takich jak filtrowanie, grupowanie i agregacja. Większość zadań przetwarzania i analizy danych można wykonać przy użyciu interfejsu API ramki danych, na którym skupimy się w tym module.

Ten moduł obejmuje następujące zagadnienia:

  • Opisz kluczowe elementy architektury platformy Apache Spark.
  • Tworzenie i konfigurowanie klastra Spark.
  • Opis przypadków użycia platformy Spark.
  • Platforma Spark umożliwia przetwarzanie i analizowanie danych przechowywanych w plikach.
  • Wizualizowanie danych przy użyciu platformy Spark.