Skapa ett kluster med Data Lake Storage Gen2 med Hjälp av Azure CLI
Följ dessa steg för att skapa ett HDInsight-kluster som använder Data Lake Storage Gen2 för lagring.
Förutsättningar
- Om du inte känner till Azure Data Lake Storage Gen2 kan du läsa översiktsavsnittet.
- Om du inte redan har ett Azure-konto registrerar du dig för ett kostnadsfritt konto innan du fortsätter.
- Om du vill köra CLI-skriptexemplen har du tre alternativ:
- Använd Azure Cloud Shell från Azure Portal (se nästa avsnitt).
- Använd det inbäddade Azure Cloud Shell via knappen "Prova" i det övre högra hörnet i varje kodblock.
- Installera den senaste versionen av Azure CLI (2.0.13 eller senare) om du föredrar att använda en lokal CLI-konsol. Logga in på Azure med hjälp av
az login
ett konto som är associerat med Den Azure-prenumeration som du vill distribuera den användartilldelade hanterade identiteten under. Azure CLI.
Azure Cloud Shell
Azure är värd för Azure Cloud Shell, en interaktiv gränssnittsmiljö som du kan använda via webbläsaren. Du kan använda antingen Bash eller PowerShell med Cloud Shell för att arbeta med Azure-tjänster. Du kan använda förinstallerade Cloud Shell-kommandon för att köra koden i den här artikeln, utan att behöva installera något i din lokala miljö.
Så här startar du Azure Cloud Shell:
Alternativ | Exempel/länk |
---|---|
Välj Prova i det övre högra hörnet i en kod eller ett kommandoblock. Om du väljer Prova kopieras inte koden eller kommandot automatiskt till Cloud Shell. | |
Gå till https://shell.azure.com eller Välj knappen Starta Cloud Shell för att öppna Cloud Shell i webbläsaren. | |
Välj knappen Cloud Shell på menyn längst upp till höger i Azure-portalen. |
Så här använder du Azure Cloud Shell:
Starta Cloud Shell.
Välj knappen Kopiera i ett kodblock (eller kommandoblock) för att kopiera koden eller kommandot.
Klistra in koden eller kommandot i Cloud Shell-sessionen genom att välja Ctrl+Skift+V i Windows och Linux, eller genom att välja Cmd+Shift+V på macOS.
Välj Retur för att köra koden eller kommandot.
Varning
Faktureringen för HDInsight-kluster beräknas proportionellt per minut, oavsett om du använder dem eller inte. Se till att ta bort klustret när du har använt det. Se hur du tar bort ett HDInsight-kluster.
Du kan ladda ned en exempelmallfil och ladda ned en exempelparametrarfil. Innan du använder mallen och Kodfragmentet för Azure CLI nedan ersätter du följande platshållare med rätt värden:
Platshållare | beskrivning |
---|---|
<SUBSCRIPTION_ID> |
ID:t för din Azure-prenumeration |
<RESOURCEGROUPNAME> |
Den resursgrupp där du vill att det nya klustret och lagringskontot ska skapas. |
<MANAGEDIDENTITYNAME> |
Namnet på den hanterade identitet som ska ges behörighet för ditt lagringskonto med Azure Data Lake Storage Gen2. |
<STORAGEACCOUNTNAME> |
Det nya lagringskontot med Azure Data Lake Storage Gen2 som ska skapas. |
<FILESYSTEMNAME> |
Namnet på det filsystem som klustret ska använda i lagringskontot. |
<CLUSTERNAME> |
Namnet på ditt HDInsight-kluster. |
<PASSWORD> |
Ditt valda lösenord för att logga in på klustret med hjälp av SSH och Ambari-instrumentpanelen. |
Kodfragmentet nedan utför följande inledande steg:
- Loggar in på ditt Azure-konto.
- Anger den aktiva prenumeration där de skapade åtgärderna ska utföras.
- Skapar en ny resursgrupp för de nya distributionsaktiviteterna.
- Skapar en användartilldelad hanterad identitet.
- Lägger till ett tillägg till Azure CLI för att använda funktioner för Data Lake Storage Gen2.
- Skapar ett nytt lagringskonto med Data Lake Storage Gen2 med hjälp
--hierarchical-namespace true
av flaggan .
az login
az account set --subscription <SUBSCRIPTION_ID>
# Create resource group
az group create --name <RESOURCEGROUPNAME> --location eastus
# Create managed identity
az identity create -g <RESOURCEGROUPNAME> -n <MANAGEDIDENTITYNAME>
az extension add --name storage-preview
az storage account create --name <STORAGEACCOUNTNAME> \
--resource-group <RESOURCEGROUPNAME> \
--location eastus --sku Standard_LRS \
--kind StorageV2 --hierarchical-namespace true
Logga sedan in på portalen. Lägg till den nya användartilldelade hanterade identiteten till rollen Lagringsblobdataägare för lagringskontot. Det här steget beskrivs i steg 3 under Använda Azure Portal.
Viktigt!
Kontrollera att lagringskontot har den användartilldelade identiteten med rollbehörigheter för Lagringsblobdataägare , annars misslyckas klusterskapandet.
az deployment group create --name HDInsightADLSGen2Deployment \
--resource-group <RESOURCEGROUPNAME> \
--template-file hdinsight-adls-gen2-template.json \
--parameters parameters.json
Rensa resurser
När du är klar med artikeln kanske du vill ta bort klustret. Med HDInsight lagras dina data i Azure Storage, så att du på ett säkert sätt kan ta bort ett kluster när de inte används. Du debiteras också för ett HDInsight-kluster, även om det inte används. Eftersom avgifterna för klustret är många gånger högre än avgifterna för lagring är det ekonomiskt klokt att ta bort kluster när de inte används.
Ange alla eller några av följande kommandon för att ta bort resurser:
# Remove cluster
az hdinsight delete \
--name $clusterName \
--resource-group $resourceGroupName
# Remove storage container
az storage container delete \
--account-name $AZURE_STORAGE_ACCOUNT \
--name $AZURE_STORAGE_CONTAINER
# Remove storage account
az storage account delete \
--name $AZURE_STORAGE_ACCOUNT \
--resource-group $resourceGroupName
# Remove resource group
az group delete \
--name $resourceGroupName
Felsöka
Om du får problem med att skapa HDInsight-kluster läser du åtkomstkontrollkrav.
Nästa steg
Du har skapat ett HDInsight-kluster. Lär dig nu hur du arbetar med klustret.
Apache Spark-kluster
- Anpassa Linux-baserade HDInsight-kluster med hjälp av skriptåtgärder
- Skapa ett fristående program med hjälp av Scala
- Köra jobb via fjärranslutning på ett Apache Spark-kluster med hjälp av Apache Livy
- Apache Spark med BI: Utföra interaktiv dataanalys med Spark i HDInsight med BI-verktyg
- Apache Spark med Machine Learning: Använda Spark i HDInsight för att förutsäga resultat av livsmedelsinspektion