Freigeben über


Erstellen eines Clusters mit Data Lake Storage Gen2 über die Azure CLI

Gehen Sie wie nachfolgend beschrieben vor, um einen HDInsight-Cluster zu erstellen, der Data Lake Storage Gen2 als Speicher verwendet.

Voraussetzungen

  • Wenn Sie nicht mit Azure Data Lake Storage Gen2 vertraut sind, finden Sie weitere Informationen im Abschnitt Übersicht.
  • Wenn Sie noch kein Azure-Konto haben, sollten Sie sich für ein kostenloses Konto registrieren, bevor Sie fortfahren.
  • Um die CLI-Skriptbeispiele auszuführen, haben Sie drei Möglichkeiten:
    • Verwenden Sie Azure Cloud Shell aus dem Azure-Portal (siehe nächster Abschnitt).
    • Verwenden Sie die eingebettete Azure Cloud Shell, indem Sie die Schaltfläche „Ausprobieren“ in der oberen rechten Ecke jedes Codeblocks verwenden.
    • Installieren Sie die neueste Version der Azure CLI (2.0.13 oder höher), wenn Sie lieber eine lokale CLI-Konsole verwenden möchten. Melden Sie sich über az login mit einem Konto bei Azure an, das mit dem Azure-Abonnement verknüpft ist, unter dem Sie die vom Benutzer zugewiesene verwaltete Identität bereitstellen möchten.

Azure Cloud Shell

Azure hostet Azure Cloud Shell, eine interaktive Shell-Umgebung, die Sie über Ihren Browser nutzen können. Sie können entweder Bash oder PowerShell mit Cloud Shell verwenden, um mit Azure-Diensten zu arbeiten. Sie können die vorinstallierten Befehle von Cloud Shell verwenden, um den Code in diesem Artikel auszuführen, ohne etwas in Ihrer lokalen Umgebung installieren zu müssen.

Starten von Azure Cloud Shell:

Option Beispiel/Link
Wählen Sie rechts oben in einem Code- oder Befehlsblock die Option Ausprobieren aus. Durch die Auswahl von Ausprobieren wird der Code oder Befehl nicht automatisch in Cloud Shell kopiert. Screenshot: Beispiel von „Jetzt testen“ für Azure Cloud Shell.
Rufen Sie https://shell.azure.com auf, oder klicken Sie auf die Schaltfläche Cloud Shell starten, um Cloud Shell im Browser zu öffnen. Schaltfläche zum Starten von Azure Cloud Shell.
Wählen Sie im Azure-Portal rechts oben im Menü die Schaltfläche Cloud Shell aus. Screenshot: Schaltfläche „Cloud Shell“ im Azure-Portal

So verwenden Sie Azure Cloud Shell:

  1. Starten Sie Cloud Shell.

  2. Wählen Sie die Schaltfläche Kopieren für einen Codeblock (oder Befehlsblock) aus, um den Code oder Befehl zu kopieren.

  3. Fügen Sie den Code oder Befehl mit STRG+UMSCHALT+V unter Windows und Linux oder CMD+UMSCHALT+V unter macOS in die Cloud Shell-Sitzung ein.

  4. Drücken Sie die EINGABETASTE, um den Code oder Befehl auszuführen.

Warnung

Die Abrechnung für die HDInsight-Cluster erfolgt anteilsmäßig auf Minutenbasis und ist unabhängig von der Verwendung. Daher sollten Sie Ihren Cluster nach der Verwendung unbedingt wieder löschen. Sehen Sie sich die Informationen zum Löschen eines HDInsight-Clusters an.

Sie können hier eine Beispielvorlagendatei und hier eine Beispieldatei für Parameter herunterladen. Ersetzen Sie vor der Verwendung der Vorlage und des Azure CLI-Codeausschnitts unten die folgenden Platzhalter durch die korrekten Werte:

Platzhalter BESCHREIBUNG
<SUBSCRIPTION_ID> Die ID Ihres Azure-Abonnements
<RESOURCEGROUPNAME> Die Ressourcengruppe, in der der neue Cluster und das Speicherkonto erstellt werden sollen
<MANAGEDIDENTITYNAME> Der Name der verwalteten Identität, der die Berechtigungen für Ihr Azure Data Lake Storage Gen2-Speicherkonto gewährt wird
<STORAGEACCOUNTNAME> Das neue Speicherkonto mit Azure Data Lake Storage Gen2, das erstellt wird
<FILESYSTEMNAME> Der Name des Dateisystems, das dieser Cluster im Storage-Konto verwenden soll.
<CLUSTERNAME> Der Name des HDInsight-Clusters.
<PASSWORD> Das gewählte Kennwort für die Anmeldung im Cluster über SSH und das Ambari-Dashboard

Der Codeausschnitt führt die folgenden ersten Schritte durch:

  1. Anmeldung bei Ihrem Azure-Konto
  2. Festlegen des aktiven Abonnements, in dem die Erstellung durchgeführt wird.
  3. Erstellen einer neuen Ressourcengruppe für die neuen Bereitstellungsaktivitäten
  4. Erstellen einer benutzerseitig zugewiesenen verwalteten Identität
  5. Hinzufügen einer Erweiterung zur Azure CLI, um Features für Data Lake Storage Gen2 zu nutzen
  6. Erstellen eines neuen Speicherkontos mit Data Lake Storage Gen2 mithilfe des Flags --hierarchical-namespace true
az login
az account set --subscription <SUBSCRIPTION_ID>

# Create resource group
az group create --name <RESOURCEGROUPNAME> --location eastus

# Create managed identity
az identity create -g <RESOURCEGROUPNAME> -n <MANAGEDIDENTITYNAME>

az extension add --name storage-preview

az storage account create --name <STORAGEACCOUNTNAME> \
    --resource-group <RESOURCEGROUPNAME> \
    --location eastus --sku Standard_LRS \
    --kind StorageV2 --hierarchical-namespace true

Melden Sie sich als Nächstes beim Portal an. Fügen Sie die neue benutzerseitig zugewiesene verwaltete Identität zu der Rolle Besitzer von Speicherblobdaten im Speicherkonto zu. Dieser Schritt wird in Schritt 3 unter Verwenden des Azure-Portals beschrieben.

Wichtig

Stellen Sie sicher, dass Ihr Storage-Konto über die benutzerseitig zugewiesene Identität mit den Rollenberechtigungen für Besitzer von Speicherblobdaten verfügt. Wenn dies nicht der Fall ist, schlägt die Clustererstellung fehl.

az deployment group create --name HDInsightADLSGen2Deployment \
    --resource-group <RESOURCEGROUPNAME> \
    --template-file hdinsight-adls-gen2-template.json \
    --parameters parameters.json

Bereinigen von Ressourcen

Nach Abschluss des Artikels kann es ratsam sein, den Cluster zu löschen. Mit HDInsight werden Ihre Daten in Azure Storage gespeichert, sodass Sie einen Cluster problemlos löschen können, wenn er nicht verwendet wird. Für einen HDInsight-Cluster fallen auch dann Gebühren an, wenn er nicht verwendet wird. Da die Gebühren für den Cluster erheblich höher sind als die Kosten für den Speicher, ist es sinnvoll, nicht verwendete Cluster zu löschen.

Geben Sie die folgenden Befehle oder einige von ihnen ein, um Ressourcen zu entfernen:

# Remove cluster
az hdinsight delete \
    --name $clusterName \
    --resource-group $resourceGroupName

# Remove storage container
az storage container delete \
    --account-name $AZURE_STORAGE_ACCOUNT \
    --name $AZURE_STORAGE_CONTAINER

# Remove storage account
az storage account delete \
    --name $AZURE_STORAGE_ACCOUNT \
    --resource-group $resourceGroupName

# Remove resource group
az group delete \
    --name $resourceGroupName

Problembehandlung

Falls beim Erstellen von HDInsight-Clustern Probleme auftreten, sehen Sie sich die Voraussetzungen für die Zugriffssteuerung an.

Nächste Schritte

Sie haben die Erstellung eines HDInsight-Clusters erfolgreich abgeschlossen. Als Nächstes wird beschrieben, wie Sie mit Ihrem Cluster arbeiten.

Apache Spark-Cluster

Apache Hadoop-Cluster

Apache HBase Cluster