Dela via


Snabbstart: Skapa Apache Spark-kluster i Azure HDInsight med Azure CLI

I den här snabbstarten får du lära dig hur du skapar ett Apache Spark-kluster i Azure HDInsight med hjälp av Azure CLI. Azure HDInsight är en hanterad analystjänst med fullständigt spektrum med öppen källkod för företag. Apache Spark-ramverket för HDInsight möjliggör snabb dataanalys och klusterberäkning med minnesintern bearbetning. Azure CLI är Microsofts plattformsoberoende kommandoradsmiljö för att hantera Azure-resurser.

Om du använder flera kluster tillsammans kan du skapa ett virtuellt nätverk, och om du använder ett Spark-kluster kan du använda Hive Warehouse-Anslut eller. Mer information finns i Planera ett virtuellt nätverk för Azure HDInsight och Integrera Apache Spark och Apache Hive med Hive Warehouse-Anslut eller.

Om du inte har en Azure-prenumeration skapar du ett kostnadsfritt Azure-konto innan du börjar.

Förutsättningar

Skapa ett Apache Spark-kluster

  1. Logga in på din Azure-prenumeration. Om du planerar att använda Azure Cloud Shell väljer du Prova i det övre högra hörnet i följande kodblock. Annars anger du följande kommando:

    az login
    
    # If you have multiple subscriptions, set the one to use
    # az account set --subscription "SUBSCRIPTIONID"
    
  2. Ange miljövariabler. Användningen av variabler i den här snabbstarten baseras på Bash. Det krävs små variationer för andra miljöer. Ersätt RESOURCEGROUPNAME, LOCATION, CLUSTERNAME, STORAGEACCOUNTNAME och PASSWORD i följande kodfragment med önskade värden. Ange sedan CLI-kommandona för att ange miljövariablerna.

    export resourceGroupName=RESOURCEGROUPNAME
    export location=LOCATION
    export clusterName=CLUSTERNAME
    export AZURE_STORAGE_ACCOUNT=STORAGEACCOUNTNAME
    export httpCredential='PASSWORD'
    export sshCredentials='PASSWORD'
    
    export AZURE_STORAGE_CONTAINER=$clusterName
    export clusterSizeInNodes=1
    export clusterVersion=4.0
    export clusterType=spark
    export componentVersion=Spark=2.3
    
  3. Skapa resursgruppen genom att ange följande kommando:

    az group create \
        --location $location \
        --name $resourceGroupName
    
  4. Skapa ett Azure Storage-konto genom att ange följande kommando:

    az storage account create \
        --name $AZURE_STORAGE_ACCOUNT \
        --resource-group $resourceGroupName \
        --https-only true \
        --kind StorageV2 \
        --location $location \
        --sku Standard_LRS
    
  5. Extrahera primärnyckeln från Azure Storage-kontot och lagra den i en variabel genom att ange följande kommando:

    export AZURE_STORAGE_KEY=$(az storage account keys list \
        --account-name $AZURE_STORAGE_ACCOUNT \
        --resource-group $resourceGroupName \
        --query [0].value -o tsv)
    
  6. Skapa en Azure Storage-container genom att ange följande kommando:

    az storage container create \
        --name $AZURE_STORAGE_CONTAINER \
        --account-key $AZURE_STORAGE_KEY \
        --account-name $AZURE_STORAGE_ACCOUNT
    
  7. Skapa Apache Spark-klustret genom att ange följande kommando:

    az hdinsight create \
        --name $clusterName \
        --resource-group $resourceGroupName \
        --type $clusterType \
        --component-version $componentVersion \
        --http-password $httpCredential \
        --http-user admin \
        --location $location \
        --workernode-count $clusterSizeInNodes \
        --ssh-password $sshCredentials \
        --ssh-user sshuser \
        --storage-account $AZURE_STORAGE_ACCOUNT \
        --storage-account-key $AZURE_STORAGE_KEY \
        --storage-container $AZURE_STORAGE_CONTAINER \
        --version $clusterVersion
    

Rensa resurser

När du har slutfört snabbstarten kanske du vill ta bort klustret. Med HDInsight lagras dina data i Azure Storage, så att du på ett säkert sätt kan ta bort ett kluster när de inte används. Du debiteras också för ett HDInsight-kluster, även om det inte används. Eftersom avgifterna för klustret är många gånger högre än avgifterna för lagring är det ekonomiskt klokt att ta bort kluster när de inte används.

Ange alla eller några av följande kommandon för att ta bort resurser:

# Remove cluster
az hdinsight delete \
    --name $clusterName \
    --resource-group $resourceGroupName

# Remove storage container
az storage container delete \
    --account-name $AZURE_STORAGE_ACCOUNT \
    --name $AZURE_STORAGE_CONTAINER

# Remove storage account
az storage account delete \
    --name $AZURE_STORAGE_ACCOUNT \
    --resource-group $resourceGroupName

# Remove resource group
az group delete \
    --name $resourceGroupName

Nästa steg

I den här snabbstarten har du lärt dig hur du skapar ett Apache Spark-kluster i Azure HDInsight med hjälp av Azure CLI. Gå vidare till nästa självstudie för att lära dig hur du använder ett HDInsight-kluster för att köra interaktiva frågor på exempeldata.