Rychlý start: Vytvoření clusteru Apache Spark ve službě Azure HDInsight pomocí Azure CLI
V tomto rychlém startu se dozvíte, jak vytvořit cluster Apache Spark ve službě Azure HDInsight pomocí Azure CLI. Azure HDInsight je spravovaná opensourcová analytická služba určená pro podniky. Architektura Apache Spark pro HDInsight umožňuje rychlou analýzu dat a cluster computing pomocí zpracování v paměti. Azure CLI je nové víceplatformové prostředí příkazového řádku Microsoftu pro správu prostředků Azure.
Pokud používáte více clusterů společně, můžete vytvořit virtuální síť a pokud používáte cluster Spark, můžete použít Připojení or služby Hive Warehouse. Další informace najdete v tématu Plánování virtuální sítě pro Azure HDInsight a integrace Apache Sparku a Apache Hivu s Připojení orem Hive Warehouse.
Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet Azure před tím, než začnete.
Požadavky
Použijte prostředí Bash v Azure Cloud Shellu. Další informace najdete v tématu Rychlý start pro Bash v Azure Cloud Shellu.
Pokud dáváte přednost místnímu spouštění referenčních příkazů rozhraní příkazového řádku, nainstalujte Azure CLI. Pokud používáte Windows nebo macOS, zvažte spuštění Azure CLI v kontejneru Docker. Další informace najdete v tématu Jak spustit Azure CLI v kontejneru Dockeru.
Pokud používáte místní instalaci, přihlaste se k Azure CLI pomocí příkazu az login. Pokud chcete dokončit proces ověřování, postupujte podle kroků zobrazených na terminálu. Další možnosti přihlášení najdete v tématu Přihlášení pomocí Azure CLI.
Po zobrazení výzvy nainstalujte rozšíření Azure CLI při prvním použití. Další informace o rozšířeních najdete v tématu Využití rozšíření v Azure CLI.
Spuštěním příkazu az version zjistěte verzi a závislé knihovny, které jsou nainstalované. Pokud chcete upgradovat na nejnovější verzi, spusťte az upgrade.
Vytvoření clusteru Apache Spark
Přihlaste se ke svému předplatnému Azure. Pokud plánujete používat Azure Cloud Shell, vyberte Vyzkoušet v pravém horním rohu následujícího bloku kódu. Jinak zadejte následující příkaz:
az login # If you have multiple subscriptions, set the one to use # az account set --subscription "SUBSCRIPTIONID"
Nastavte proměnné prostředí. Použití proměnných v tomto rychlém startu je založené na prostředí Bash. Pro jiná prostředí jsou potřeba mírné variace. Nahraďte RESOURCEGROUPNAME, LOCATION, CLUSTERNAME, STORAGEACCOUNTNAME a PASSWORD v následujícím fragmentu kódu požadovanými hodnotami. Pak zadejte příkazy rozhraní příkazového řádku pro nastavení proměnných prostředí.
export resourceGroupName=RESOURCEGROUPNAME export location=LOCATION export clusterName=CLUSTERNAME export AZURE_STORAGE_ACCOUNT=STORAGEACCOUNTNAME export httpCredential='PASSWORD' export sshCredentials='PASSWORD' export AZURE_STORAGE_CONTAINER=$clusterName export clusterSizeInNodes=1 export clusterVersion=4.0 export clusterType=spark export componentVersion=Spark=2.3
Vytvořte skupinu prostředků zadáním následujícího příkazu:
az group create \ --location $location \ --name $resourceGroupName
Zadáním následujícího příkazu vytvořte účet úložiště Azure:
az storage account create \ --name $AZURE_STORAGE_ACCOUNT \ --resource-group $resourceGroupName \ --https-only true \ --kind StorageV2 \ --location $location \ --sku Standard_LRS
Extrahujte primární klíč z účtu úložiště Azure a uložte ho do proměnné zadáním následujícího příkazu:
export AZURE_STORAGE_KEY=$(az storage account keys list \ --account-name $AZURE_STORAGE_ACCOUNT \ --resource-group $resourceGroupName \ --query [0].value -o tsv)
Zadáním následujícího příkazu vytvořte kontejner úložiště Azure:
az storage container create \ --name $AZURE_STORAGE_CONTAINER \ --account-key $AZURE_STORAGE_KEY \ --account-name $AZURE_STORAGE_ACCOUNT
Vytvořte cluster Apache Spark zadáním následujícího příkazu:
az hdinsight create \ --name $clusterName \ --resource-group $resourceGroupName \ --type $clusterType \ --component-version $componentVersion \ --http-password $httpCredential \ --http-user admin \ --location $location \ --workernode-count $clusterSizeInNodes \ --ssh-password $sshCredentials \ --ssh-user sshuser \ --storage-account $AZURE_STORAGE_ACCOUNT \ --storage-account-key $AZURE_STORAGE_KEY \ --storage-container $AZURE_STORAGE_CONTAINER \ --version $clusterVersion
Vyčištění prostředků
Po dokončení rychlého startu možná budete chtít cluster odstranit. S HDInsight jsou vaše data uložená ve službě Azure Storage, takže můžete cluster bezpečně odstranit, když se nepoužívá. Za cluster HDInsight se vám také účtují poplatky, i když se nepoužívá. Vzhledem k tomu, že poplatky za cluster jsou mnohokrát vyšší než poplatky za úložiště, dává smysl odstranit clustery, když se nepoužívají.
Pokud chcete odebrat prostředky, zadejte všechny nebo některé z následujících příkazů:
# Remove cluster
az hdinsight delete \
--name $clusterName \
--resource-group $resourceGroupName
# Remove storage container
az storage container delete \
--account-name $AZURE_STORAGE_ACCOUNT \
--name $AZURE_STORAGE_CONTAINER
# Remove storage account
az storage account delete \
--name $AZURE_STORAGE_ACCOUNT \
--resource-group $resourceGroupName
# Remove resource group
az group delete \
--name $resourceGroupName
Další kroky
V tomto rychlém startu jste zjistili, jak vytvořit cluster Apache Spark ve službě Azure HDInsight pomocí Azure CLI. V dalším kurzu se dozvíte, jak pomocí clusteru HDInsight spouštět interaktivní dotazy na ukázková data.