Wprowadzenie
Usługa Azure Databricks oferuje wysoce skalowalną platformę do analizy danych i przetwarzania przy użyciu platformy Apache Spark.
Platforma Spark to elastyczna platforma, która obsługuje wiele różnych języków programowania i interfejsów API. Konfigurując obszar roboczy usługi Databricks i wdrażając klastry Spark, użytkownicy mogą łatwo pozyskiwać dane z różnych źródeł, takich jak usługa Azure Data Lake lub Cosmos DB, do ramek danych platformy Spark. W interaktywnych notesach usługi Databricks użytkownicy mogą wykonywać złożone przekształcenia danych przy użyciu interfejsu API ramki danych platformy Spark, w tym operacji, takich jak filtrowanie, grupowanie i agregacja. Większość zadań przetwarzania i analizy danych można wykonać przy użyciu interfejsu API ramki danych, na którym skupimy się w tym module.
Ten moduł obejmuje następujące zagadnienia:
- Opisz kluczowe elementy architektury platformy Apache Spark.
- Tworzenie i konfigurowanie klastra Spark.
- Opis przypadków użycia platformy Spark.
- Platforma Spark umożliwia przetwarzanie i analizowanie danych przechowywanych w plikach.
- Wizualizowanie danych przy użyciu platformy Spark.