Verwenden von Spark in Notebooks

Abgeschlossen

Sie können viele verschiedene Arten von Anwendungen unter Spark ausführen, darunter Code in Python- oder Scala-Skripts, Java-Code, der als Java-Archiv (JAR) kompiliert wurde, und andere. Spark wird in der Regel für zwei Arten von Workloads verwendet:

  • Batch- oder Streamverarbeitungsaufträge zur Erfassung, Bereinigung und Transformation von Daten, die oft als Teil einer automatisierten Pipeline ausgeführt werden.
  • Interaktive Analysesitzungen zum Erkunden, Analysieren und Visualisieren von Daten.

Ausführen von Spark-Code in Notebooks

Azure Databricks enthält eine integrierte Notebookschnittstelle für die Arbeit mit Spark. Notebooks bieten eine intuitive Möglichkeit, Code mit Markdown-Hinweisen zu kombinieren, die üblicherweise von wissenschaftlichen Fachkräften für Daten und Datenanalysten verwendet werden. Aussehen und Handhabung der in Azure Databricks integrierten Notebooks ähneln denen von Jupyter-Notebooks - einer beliebten Open Source-Notebookplattform.

Screenshot eines Notebooks in Azure Databricks.

Notebooks bestehen aus einer oder mehreren Zellen, die jeweils entweder Code oder Markdown enthalten. Codezellen in Notebooks verfügen über einige Features, die Ihnen helfen können, produktiver zu sein. Beispiel:

  • Syntaxhervorhebung und Fehlerunterstützung
  • Automatische Vervollständigung von Code
  • Interaktive Datenvisualisierungen
  • Möglichkeit zum Exportieren von Ergebnissen

Tipp

Weitere Informationen zum Arbeiten mit Notebooks in Azure Databricks finden Sie in der Azure Databricks-Dokumentation im Artikel Notebooks.