Vytvoření clusteru s Data Lake Storage Gen2 pomocí Azure CLI

Článek
07/24/2024

Pokud chcete vytvořit cluster HDInsight, který pro úložiště používá Data Lake Storage Gen2, postupujte takto.

Požadavky

Pokud azure Data Lake Storage Gen2 neznáte, projděte si část s přehledem.
Pokud ještě nemáte účet Azure, zaregistrujte si bezplatný účet před tím, než budete pokračovat.
Pokud chcete spustit příklady skriptů rozhraní příkazového řádku, máte tři možnosti:
- Použijte Azure Cloud Shell z webu Azure Portal (viz další část).
- Pomocí vloženého azure Cloud Shellu použijte tlačítko Vyzkoušet, které se nachází v pravém horním rohu každého bloku kódu.
- Pokud dáváte přednost použití místní konzoly rozhraní příkazového řádku, nainstalujte nejnovější verzi Azure CLI (2.0.13 nebo novější). Přihlaste se k Azure pomocí az loginúčtu přidruženého k předplatnému Azure, ve kterém chcete nasadit spravovanou identitu přiřazenou uživatelem. Azure CLI.

Azure Cloud Shell

Azure hostí interaktivní prostředí Azure Cloud Shell, které můžete používat v prohlížeči. Pro práci se službami Azure můžete v prostředí Cloud Shell použít buď Bash, nebo PowerShell. Předinstalované příkazy Cloud Shellu můžete použít ke spuštění kódu v tomto článku, aniž byste museli instalovat cokoli do místního prostředí.

Spuštění služby Azure Cloud Shell:

Možnost	Příklad nebo odkaz
Vyberte Vyzkoušet v pravém horním rohu bloku kódu nebo příkazu. Výběrem možnosti Vyzkoušet se kód ani příkaz automaticky nekopíruje do Cloud Shellu.
Přejděte na adresu https://shell.azure.com nebo výběrem tlačítka Spustit Cloud Shell otevřete Cloud Shell v prohlížeči.
Zvolte tlačítko Cloud Shell v pruhu nabídky v pravém horním rohu webu Azure Portal.

Použití Azure Cloud Shellu:

Spusťte Cloud Shell.
Výběrem tlačítka Kopírovat v bloku kódu (nebo bloku příkazů) zkopírujte kód nebo příkaz.
Vložte kód nebo příkaz do relace Cloud Shellu tak, že ve Windows a Linuxu vyberete ctrl+Shift+V nebo vyberete Cmd+Shift+V v macOS.
Stisknutím klávesy Enter spusťte kód nebo příkaz.

Upozorňující

Fakturace clusterů HDInsight se účtuje za minutu bez ohledu na to, jestli je používáte, nebo ne. Až cluster dokončíte, nezapomeňte ho odstranit. Podívejte se, jak odstranit cluster HDInsight.

Můžete si stáhnout ukázkový soubor šablony a stáhnout si ukázkový soubor parametrů. Před použitím šablony a fragmentu kódu Azure CLI níže nahraďte následující zástupné symboly správnými hodnotami:

Zástupný symbol	Popis
`<SUBSCRIPTION_ID>`	ID předplatného Azure
`<RESOURCEGROUPNAME>`	Skupina prostředků, ve které chcete vytvořit nový cluster a účet úložiště.
`<MANAGEDIDENTITYNAME>`	Název spravované identity, která bude udělena oprávnění k vašemu účtu úložiště s Azure Data Lake Storage Gen2.
`<STORAGEACCOUNTNAME>`	Nový účet úložiště s Azure Data Lake Storage Gen2, který se vytvoří.
`<FILESYSTEMNAME>`	Název systému souborů, který má tento cluster používat v účtu úložiště.
`<CLUSTERNAME>`	Název clusteru HDInsight.
`<PASSWORD>`	Zvolené heslo pro přihlášení ke clusteru pomocí SSH a řídicího panelu Ambari.

Následující fragment kódu provede následující počáteční kroky:

Přihlaste se ke svému účtu Azure.
Nastaví aktivní předplatné, ve kterém se budou provádět vytvořené operace.
Vytvoří novou skupinu prostředků pro nové aktivity nasazení.
Vytvoří spravovanou identitu přiřazenou uživatelem.
Přidá do Azure CLI rozšíření pro použití funkcí pro Data Lake Storage Gen2.
Vytvoří nový účet úložiště s Data Lake Storage Gen2 pomocí příznaku --hierarchical-namespace true .

az login
az account set --subscription <SUBSCRIPTION_ID>

# Create resource group
az group create --name <RESOURCEGROUPNAME> --location eastus

# Create managed identity
az identity create -g <RESOURCEGROUPNAME> -n <MANAGEDIDENTITYNAME>

az extension add --name storage-preview

az storage account create --name <STORAGEACCOUNTNAME> \
    --resource-group <RESOURCEGROUPNAME> \
    --location eastus --sku Standard_LRS \
    --kind StorageV2 --hierarchical-namespace true

Pak se přihlaste k portálu. Přidejte novou spravovanou identitu přiřazenou uživatelem do role Vlastník dat objektů blob úložiště v účtu úložiště. Tento krok je popsaný v kroku 3 v části Použití webu Azure Portal.

Důležité

Ujistěte se, že váš účet úložiště má identitu přiřazenou uživatelem s oprávněními role Vlastník dat objektu blob služby Storage, jinak se vytvoření clusteru nezdaří.

az deployment group create --name HDInsightADLSGen2Deployment \
    --resource-group <RESOURCEGROUPNAME> \
    --template-file hdinsight-adls-gen2-template.json \
    --parameters parameters.json

Vyčištění prostředků

Jakmile budete s článkem hotovi, můžete cluster odstranit. S HDInsight jsou vaše data uložená ve službě Azure Storage, takže můžete cluster bezpečně odstranit, když se nepoužívá. Za cluster HDInsight se vám také účtují poplatky, i když se nepoužívá. Vzhledem k tomu, že poplatky za cluster jsou mnohokrát vyšší než poplatky za úložiště, dává smysl odstranit clustery, když se nepoužívají.

Pokud chcete odebrat prostředky, zadejte všechny nebo některé z následujících příkazů:

# Remove cluster
az hdinsight delete \
    --name $clusterName \
    --resource-group $resourceGroupName

# Remove storage container
az storage container delete \
    --account-name $AZURE_STORAGE_ACCOUNT \
    --name $AZURE_STORAGE_CONTAINER

# Remove storage account
az storage account delete \
    --name $AZURE_STORAGE_ACCOUNT \
    --resource-group $resourceGroupName

# Remove resource group
az group delete \
    --name $resourceGroupName

Odstraňování potíží

Pokud narazíte na problémy s vytvářením clusterů HDInsight, podívejte se na požadavky na řízení přístupu.

Další kroky

Úspěšně jste vytvořili cluster HDInsight. Teď se dozvíte, jak pracovat s clusterem.

Sdílet prostřednictvím

Vytvoření clusteru s Data Lake Storage Gen2 pomocí Azure CLI

Požadavky

Azure Cloud Shell

Vyčištění prostředků

Odstraňování potíží

Další kroky

Clustery Apache Spark

Clustery Apache Hadoop

Clustery Apache HBase

Váš názor

Další materiály