Freigeben über


Erstellen eines Spark-Clusters in HDInsight on AKS (Vorschau)

Hinweis

Azure HDInsight on AKS wird am 31. Januar 2025 eingestellt. Vor dem 31. Januar 2025 müssen Sie Ihre Workloads zu Microsoft Fabric oder einem gleichwertigen Azure-Produkt migrieren, um eine abruptes Beendigung Ihrer Workloads zu vermeiden. Die verbleibenden Cluster in Ihrem Abonnement werden beendet und vom Host entfernt.

Bis zum Einstellungsdatum ist nur grundlegende Unterstützung verfügbar.

Wichtig

Diese Funktion steht derzeit als Vorschau zur Verfügung. Die zusätzlichen Nutzungsbedingungen für Microsoft Azure-Vorschauen enthalten weitere rechtliche Bestimmungen, die für Azure-Features in Betaversionen, in Vorschauversionen oder anderen Versionen gelten, die noch nicht allgemein verfügbar gemacht wurden. Informationen zu dieser spezifischen Vorschau finden Sie unter Informationen zur Vorschau von Azure HDInsight on AKS. Bei Fragen oder Funktionsvorschlägen senden Sie eine Anfrage an AskHDInsight mit den entsprechenden Details, und folgen Sie uns für weitere Updates in der Azure HDInsight-Community.

Nachdem Sie die Schritte unter Abonnementvoraussetzungen und Voraussetzungen für Ressourcen ausgeführt und einen Clusterpool bereitgestellt haben, verwenden Sie das Azure-Portal, um einen Spark-Cluster zu erstellen. Sie können Azure-Portal zum Erstellen eines Apache Spark-Clusters in einem Clusterpool verwenden. Anschließend können Sie ein Jupyter Notebook erstellen und damit Spark SQL-Abfragen für Apache Hive-Tabellen ausführen.

  1. Geben Sie im Azure-Portal „Clusterpools“ ein, und wählen Sie „Clusterpools“ aus, um zur Seite „Clusterpools“ zu wechseln. Wählen Sie auf der Seite „Clusterpools“ den Clusterpool aus, in dem Sie einen neuen Spark-Cluster hinzufügen können.

  2. Klicken Sie auf der Seite für einen bestimmten Clusterpool auf + Neuer Cluster.

    Screenshot: Erstellen eines neuen Spark-Clusters.

    Mit diesem Schritt wird die Seite zum Erstellen des Clusters geöffnet.

    Screenshot: Seite „Grundlagen“ zum Erstellen eines Clusters.

    Eigenschaft BESCHREIBUNG
    Subscription Das Azure-Abonnement, das für die Verwendung mit HDInsight on AKS im Abschnitt „Voraussetzungen“ registriert wurde, wird vorab aufgefüllt.
    Ressourcengruppe Die Ressourcengruppe, die auch für den Clusterpool verwendet wurde, wird vorab ausgefüllt.
    Region Die Region, die auch für den Clusterpool und das virtuelle Netzwerk verwendet wurde, wird vorab ausgefüllt.
    Clusterpool Der Name des Clusterpools wird vorab ausgefüllt.
    HDInsight-Poolversion Die Clusterpoolversion, die bei der Poolerstellung ausgewählt wurde, wird vorab ausgefüllt.
    HDInsight on AKS-Version Angeben der HDI on AKS-Version
    Clustertyp Wählen Sie in der Dropdownliste „Spark“ aus.
    Clusterversion Wählen Sie die Version der zu verwendenden Imageversion aus.
    Clustername Geben Sie den Namen des neuen Clusters ein.
    Benutzerseitig zugewiesene verwaltete Identität Wählen Sie die benutzerseitig zugewiesene verwaltete Identität aus, die als Verbindungszeichenfolge für den Speicher fungiert.
    Speicherkonto Wählen Sie das zuvor erstellte Speicherkonto aus, das als primärer Speicher für den Cluster verwendet werden soll.
    Containername Wählen Sie den Containernamen (eindeutig) aus, wenn bereits in Container erstellt wurde, oder erstellen Sie einen neuen Container.
    Hive-Katalog (optional) Wählen Sie den zuvor erstellten Hive-Metastore (Azure SQL-Datenbank) aus.
    SQL-Datenbank für Hive Wählen Sie in der Dropdownliste die SQL-Datenbank-Instanz aus, in der Hive-Metastore-Tabellen hinzugefügt werden sollen.
    SQL-Administratorbenutzername Geben Sie den SQL-Administratorbenutzernamen ein.
    Key Vault (Schlüsseltresor) Wählen Sie in der Dropdownliste die Key Vault-Instanz aus, die ein Geheimnis mit Kennwort für den SQL-Administratorbenutzernamen enthält.
    Name des geheimen SQL-Kennworts Geben Sie den Geheimnisnamen aus der Key Vault-Instanz ein, in der das Kennwort für SQL-Datenbank gespeichert ist.

    Hinweis

    • Derzeit unterstützt HDInsight nur MS SQL Server-Datenbanken.
    • Aufgrund von Hive-Einschränkungen wird das Zeichen „-“ (Bindestrich) im Metastore-Datenbanknamen nicht unterstützt.
  3. Wählen Sie Weiter: Konfiguration + Preise aus, um fortzufahren.

    Screenshot: Registerkarte „Preise“ 1.

    Screenshot: Registerkarte „Preise“ 2.

    Screenshot: Registerkarte „SSH“.

    Eigenschaft Beschreibung
    Knotengröße Wählen Sie die Knotengröße aus, die für die Spark-Knoten verwendet werden soll.
    Anzahl der Workerknoten Wählen Sie die Anzahl der Knoten für den Spark-Cluster aus. Davon werden drei Knoten für Koordinator- und Systemdienste reserviert. Die verbleibenden Knoten sind Spark-Workern (ein Worker pro Knoten) zugeordnet. In einem Cluster mit fünf Knoten gibt es z. B. zwei Worker.
    Autoscale Klicken Sie auf die Umschaltfläche, um die Autoskalierung zu aktivieren.
    Autoskalierungstyp Wählen Sie auslastungsbasierte oder zeitplanbasierte Autoskalierung aus.
    Timeout für die ordnungsgemäße Außerbetriebnahme Geben Sie ein Timeout für die ordnungsgemäße Außerbetriebnahme an.
    Anzahl der Standardworkerknoten Wählen Sie die Anzahl der Knoten für die Autoskalierung aus.
    Zeitzone Wählen Sie die Zeitzone aus.
    Regeln für die Autoskalierung Wählen Sie den Tag, die Startzeit, die Endzeit und die Anzahl der Workerknoten aus.
    Aktivieren von SSH Wenn diese Option aktiviert ist, können Sie Präfix und Anzahl von SSH-Knoten definieren.
  4. Klicken Sie auf Weiter: Integrationen, um Log Analytics für die Protokollierung zu aktivieren und auszuwählen.

    Azure Prometheus für Überwachung und Metriken kann nach der Clustererstellung aktiviert werden.

    Screenshot: Registerkarte „Integrationen“.

  5. Klicken Sie auf Weiter: Tags, um mit der nächsten Seite fortzufahren.

    Screenshot: Registerkarte „Tags“.

  6. Geben Sie auf der Seite Tags alle Tags ein, die Sie Ihrer Ressource hinzufügen möchten.

    Eigenschaft Beschreibung
    Name Optional. Geben Sie einen Namen wie „HDInsight on AKSPrivatePreview“ ein, um einfach alle Ressourcen zu identifizieren, die Ihren Ressourcen zugeordnet sind
    Wert Lassen Sie dieses Feld leer.
    Ressource Wählen Sie „Alle Ressourcen ausgewählt“ aus.
  7. Klicken Sie auf Weiter: Überprüfen + erstellen.

  8. Suchen Sie auf der Seite Überprüfen + erstellen nach der Meldung „Validierung erfolgreich“ oben auf der Seite, und klicken Sie dann auf Erstellen.

  9. Die Seite Bereitstellung wird gerade durchgeführt. wird mit dem Cluster angezeigt, der gerade erstellt wird. Die Erstellung des Clusters dauert fünf bis zehn Minuten. Nachdem der Cluster erstellt wurde, wird die Meldung Ihre Bereitstellung wurde abgeschlossen angezeigt. Wenn Sie von der Seite weg navigieren, können Sie den Status in Ihren Benachrichtigungen überprüfen.

  10. Wechseln Sie zur Clusterübersichtsseite. Dort werden die Endpunktlinks angezeigt.

    Screenshot: Übersichtsseite des Clusters