Einführung

Abgeschlossen

Azure Databricks bietet eine hoch skalierbare Plattform für Datenanalysen und -verarbeitung mit Apache Spark.

Spark ist eine flexible Plattform, die viele verschiedene Programmiersprachen und APIs unterstützt. Durch das Einrichten eines Databricks-Arbeitsbereichs und Bereitstellen von Spark-Clustern können Benutzer ganz einfach Daten aus verschiedenen Quellen wie Azure Data Lake oder Cosmos DB in Spark DataFrames erfassen. Innerhalb der interaktiven Databricks-Notebooks können Benutzer komplexe Datentransformationen mithilfe der DataFrame-API von Spark ausführen, die Vorgänge wie Filtern, Gruppieren und Aggregation umfasst. Die meisten Datenverarbeitungs- und -analyseaufgaben können mithilfe der Dataframe-API abgeschlossen werden, worauf wir uns in diesem Modul konzentrieren.

In diesem Modul lernen Sie Folgendes:

  • Beschreiben der wichtigsten Elemente der Apache Spark-Architektur
  • Erstellen und Konfigurieren eines Spark-Clusters
  • Beschreiben der Anwendungsfälle für Spark
  • Verwenden von Spark zum Verarbeiten und Analysieren von in Dateien gespeicherten Daten
  • Verwenden von Spark zum Visualisieren von Daten.