Öffnen eines Jupyter Notebooks auf einem HDInsight Spark-Cluster
Sobald der HDInsight Spark-Cluster erstellt ist, können Sie interaktive Spark SQL-Abfragen oder -Aufträge an einen Apache Spark-Cluster in Azure HDInsight ausführen. Hierzu müssen Sie zunächst ein Notebook anlegen. Ein Notebook ist ein interaktiver Editor, der es Datentechnikern und Data Scientists ermöglicht, eine Reihe von Sprachen zur Interaktion mit Daten zu verwenden. Dies kann Python, SQL, Scala und andere Sprachen umfassen. HDInsight unterstützt Jupyter, Zeppelin und Livy zur Interaktion mit Daten. Der Grad der Interaktion hängt von der Workload ab, die Sie verwalten.
Apache Spark auf HDInsight unterstützt die folgenden Workloads:
Interaktive Datenanalyse und BI
Sie können ein Notebook verwenden, um unstrukturierte/halbstrukturierte Daten zu erfassen, und dann ein Schema innerhalb des Notebooks definieren. Sie können das Schema dann verwenden, um ein Modell in Tools wie Power BI zu erstellen, mit dem Geschäftsbenutzer Datenanalysen mit den Daten im Notebook durchführen können
Spark Machine Learning
Sie können ein Notebook verwenden, um mit MLlib zu arbeiten (eine Machine Learning-Bibliothek, die auf Spark aufbaut), um Anwendungen für maschinelles Lernen zu erstellen
Streaming und Echtzeit-Datenanalysen mit Spark
Spark-Cluster in HDInsight bieten umfassende Unterstützung für die Erstellung von Echtzeit-Analyselösungen. Spark verfügt zwar bereits über Connectors zum Erfassen von Daten aus vielen Quellen, z. B. Kafka, Flume, X, ZeroMQ oder TCP-Sockets, aber mit Spark in HDInsight wird zusätzlich noch die erstklassige Unterstützung für das Erfassen von Daten aus Azure Event Hubs hinzugefügt.
Erstellen eines Jupyter Notebooks
Verwenden Sie die folgenden Schritte, um ein Jupyter-Notebook im Azure-Portal zu erstellen.
Wählen Sie im Portal im Bereich Clusterdashboards die Option Jupyter Notebook aus. Wenn Sie dazu aufgefordert werden, geben Sie die Cluster-Anmeldeinformationen für den Cluster ein.
Wählen Sie Neu > PySpark aus, um ein Notebook zu erstellen.
Ein neues Notebook mit dem Namen „Unbenannt“ (Untitled.pynb) wird erstellt und geöffnet, mit dem Sie mit der Erstellung von Aufträgen zur Ausführung von Abfragen beginnen können