Öffnen eines Jupyter Notebooks auf einem HDInsight Spark-Cluster

Abgeschlossen

Sobald der HDInsight Spark-Cluster erstellt ist, können Sie interaktive Spark SQL-Abfragen oder -Aufträge an einen Apache Spark-Cluster in Azure HDInsight ausführen. Hierzu müssen Sie zunächst ein Notebook anlegen. Ein Notebook ist ein interaktiver Editor, der es Datentechnikern und Data Scientists ermöglicht, eine Reihe von Sprachen zur Interaktion mit Daten zu verwenden. Dies kann Python, SQL, Scala und andere Sprachen umfassen. HDInsight unterstützt Jupyter, Zeppelin und Livy zur Interaktion mit Daten. Der Grad der Interaktion hängt von der Workload ab, die Sie verwalten.

Apache Spark auf HDInsight unterstützt die folgenden Workloads:

Interaktive Datenanalyse und BI

Sie können ein Notebook verwenden, um unstrukturierte/halbstrukturierte Daten zu erfassen, und dann ein Schema innerhalb des Notebooks definieren. Sie können das Schema dann verwenden, um ein Modell in Tools wie Power BI zu erstellen, mit dem Geschäftsbenutzer Datenanalysen mit den Daten im Notebook durchführen können

Spark Machine Learning

Sie können ein Notebook verwenden, um mit MLlib zu arbeiten (eine Machine Learning-Bibliothek, die auf Spark aufbaut), um Anwendungen für maschinelles Lernen zu erstellen

Streaming und Echtzeit-Datenanalysen mit Spark

Spark-Cluster in HDInsight bieten umfassende Unterstützung für die Erstellung von Echtzeit-Analyselösungen. Spark verfügt zwar bereits über Connectors zum Erfassen von Daten aus vielen Quellen, z. B. Kafka, Flume, X, ZeroMQ oder TCP-Sockets, aber mit Spark in HDInsight wird zusätzlich noch die erstklassige Unterstützung für das Erfassen von Daten aus Azure Event Hubs hinzugefügt.

Erstellen eines Jupyter Notebooks

Verwenden Sie die folgenden Schritte, um ein Jupyter-Notebook im Azure-Portal zu erstellen.

  1. Wählen Sie im Portal im Bereich Clusterdashboards die Option Jupyter Notebook aus. Wenn Sie dazu aufgefordert werden, geben Sie die Cluster-Anmeldeinformationen für den Cluster ein.

    Auswählen Ihres Jupyter Notebooks im Azure-Portal

  2. Wählen Sie Neu > PySpark aus, um ein Notebook zu erstellen.

    Screenshot: Jupyter Notebook

  3. Ein neues Notebook mit dem Namen „Unbenannt“ (Untitled.pynb) wird erstellt und geöffnet, mit dem Sie mit der Erstellung von Aufträgen zur Ausführung von Abfragen beginnen können