Použití rozhraní příkazového řádku HDFS se službou Data Lake Storage
K datům v účtu úložiště můžete přistupovat a spravovat je pomocí rozhraní příkazového řádku stejně jako u systému souborů HDFS (Hadoop Distributed File System). Tento článek obsahuje několik příkladů, které vám pomůžou začít.
HDInsight poskytuje přístup k distribuovanému kontejneru, který je místně připojený k výpočetním uzlům. K tomuto kontejneru můžete přistupovat pomocí prostředí, které přímo komunikuje s HDFS a dalšími systémy souborů, které Hadoop podporuje.
Další informace o rozhraní příkazového řádku HDFS najdete v oficiální dokumentaci a příručce k oprávněním HDFS.
Poznámka:
Pokud používáte Azure Databricks místo HDInsight a chcete s daty pracovat pomocí rozhraní příkazového řádku, můžete k interakci se systémem souborů Databricks použít rozhraní příkazového řádku Databricks. Viz Rozhraní příkazového řádku Databricks.
Použití rozhraní příkazového řádku HDFS s clusterem HDInsight Hadoop v Linuxu
Nejprve vytvořte vzdálený přístup ke službám. Pokud vyberete SSH , bude ukázkový kód PowerShellu vypadat takto:
#Connect to the cluster via SSH.
ssh sshuser@clustername-ssh.azurehdinsight.net
#Execute basic HDFS commands. Display the hierarchy.
hdfs dfs -ls /
#Create a sample directory.
hdfs dfs -mkdir /samplefolder
Připojovací řetězec najdete v části Přihlášení ke clusteru SSH a clusteru v okně clusteru HDInsight na webu Azure Portal. Přihlašovací údaje SSH byly zadány v době vytvoření clusteru.
Důležité
Fakturace clusteru HDInsight se spustí po vytvoření clusteru a zastaví se při odstranění clusteru. Účtuje se poměrnou částí po minutách, takže byste cluster měli odstranit vždy, když už se nepoužívá. Informace o tom, jak odstranit cluster, najdete v našem článku o tomto tématu. Data uložená v účtu úložiště s povolenou službou Data Lake Storage se ale uchovávají i po odstranění clusteru HDInsight.
Vytvoření kontejneru
hdfs dfs -D "fs.azure.createRemoteFileSystemDuringInitialization=true" -ls abfs://<container-name>@<storage-account-name>.dfs.core.windows.net/
<container-name>
Zástupný symbol nahraďte názvem, který chcete kontejneru udělit.<storage-account-name>
Zástupný symbol nahraďte názvem vašeho účtu úložiště.
Získání seznamu souborů nebo adresářů
hdfs dfs -ls <path>
<path>
Zástupný symbol nahraďte identifikátorem URI kontejneru nebo složky kontejneru.
Příklad: hdfs dfs -ls abfs://my-file-system@mystorageaccount.dfs.core.windows.net/my-directory-name
Vytvoření adresáře
hdfs dfs -mkdir [-p] <path>
<path>
Zástupný text nahraďte názvem kořenového kontejneru nebo složkou v kontejneru.
Příklad: hdfs dfs -mkdir abfs://my-file-system@mystorageaccount.dfs.core.windows.net/
Odstranění souboru nebo adresáře
hdfs dfs -rm <path>
<path>
Zástupný symbol nahraďte identifikátorem URI souboru nebo složky, kterou chcete odstranit.
Příklad: hdfs dfs -rmdir abfs://my-file-system@mystorageaccount.dfs.core.windows.net/my-directory-name/my-file-name
Zobrazení seznamů řízení přístupu (ACL) souborů a adresářů
hdfs dfs -getfacl [-R] <path>
Příklad:
hdfs dfs -getfacl -R /dir
Viz getfacl
Nastavení seznamů ACL souborů a adresářů
hdfs dfs -setfacl [-R] [-b|-k -m|-x <acl_spec> <path>]|[--set <acl_spec> <path>]
Příklad:
hdfs dfs -setfacl -m user:hadoop:rw- /file
Viz setfacl
Změna vlastníka souborů
hdfs dfs -chown [-R] <new_owner>:<users_group> <URI>
Viz chown
Změna přidružení skupin souborů
hdfs dfs -chgrp [-R] <group> <URI>
Viz chgrp
Změna oprávnění souborů
hdfs dfs -chmod [-R] <mode> <URI>
Viz chmod
Úplný seznam příkazů můžete zobrazit na webu Průvodce prostředím systému souborů Apache Hadoop 2.4.1.