Einführung
Azure Databricks bietet eine hoch skalierbare Plattform für Datenanalysen und -verarbeitung mit Apache Spark.
Spark ist eine flexible Plattform, die viele verschiedene Programmiersprachen und APIs unterstützt. Durch das Einrichten eines Databricks-Arbeitsbereichs und Bereitstellen von Spark-Clustern können Benutzer ganz einfach Daten aus verschiedenen Quellen wie Azure Data Lake oder Cosmos DB in Spark DataFrames erfassen. Innerhalb der interaktiven Databricks-Notebooks können Benutzer komplexe Datentransformationen mithilfe der DataFrame-API von Spark ausführen, die Vorgänge wie Filtern, Gruppieren und Aggregation umfasst. Die meisten Datenverarbeitungs- und -analyseaufgaben können mithilfe der Dataframe-API abgeschlossen werden, worauf wir uns in diesem Modul konzentrieren.
In diesem Modul lernen Sie Folgendes:
- Beschreiben der wichtigsten Elemente der Apache Spark-Architektur
- Erstellen und Konfigurieren eines Spark-Clusters
- Beschreiben der Anwendungsfälle für Spark
- Verwenden von Spark zum Verarbeiten und Analysieren von in Dateien gespeicherten Daten
- Verwenden von Spark zum Visualisieren von Daten.