Nahrání dat pro úlohy Apache Hadoopu ve službě HDInsight
HDInsight poskytuje distribuovaný systém souborů Hadoop (HDFS) přes Azure Storage a Azure Data Lake Storage. Toto úložiště zahrnuje Gen2. Azure Storage a Data Lake Storage Gen2 jsou navržené jako rozšíření HDFS. Umožňují úplnou sadu komponent v prostředí Hadoop pracovat přímo s daty, která spravuje. Azure Storage, Data Lake Storage Gen2 jsou odlišné systémy souborů. Systémy jsou optimalizované pro ukládání dat a výpočtů na těchtodatech Informace o výhodách používání služby Azure Storage najdete v tématu Použití služby Azure Storage se službou HDInsight. Viz také použití Data Lake Storage Gen2 se službou HDInsight.
Požadavky
Než začnete, poznamenejte si následující požadavky:
- Cluster Azure HDInsight. Pokyny najdete v tématu Začínáme se službou Azure HDInsight.
- Znalost následujících článků:
Nahrání dat do Azure Storage
Nástroje
Microsoft poskytuje následující nástroje pro práci se službou Azure Storage:
Nástroj | Linux | OS X | Windows |
---|---|---|---|
Azure Portal | ✔ | ✔ | ✔ |
Azure CLI | ✔ | ✔ | ✔ |
Azure PowerShell | ✔ | ||
AzCopy | ✔ | ✔ | |
Příkaz Hadoop | ✔ | ✔ | ✔ |
Poznámka:
Příkaz Hadoop je k dispozici pouze v clusteru HDInsight. Příkaz umožňuje načítat pouze data z místního systému souborů do Služby Azure Storage.
Příkazový řádek Hadoop
Příkazový řádek Hadoop je užitečný jenom pro ukládání dat do objektu blob úložiště Azure, pokud už data existují v hlavním uzlu clusteru.
Pokud chcete použít příkaz Hadoop, musíte se nejprve připojit k hlavnímu uzlu pomocí SSH nebo PuTTY.
Po připojení můžete k nahrání souboru do úložiště použít následující syntaxi.
hadoop fs -copyFromLocal <localFilePath> <storageFilePath>
Například hadoop fs -copyFromLocal data.txt /example/data/data.txt
Vzhledem k tomu, že výchozí systém souborů pro HDInsight je ve službě Azure Storage, /example/data/data.txt je ve skutečnosti ve službě Azure Storage. Soubor můžete také odkazovat takto:
wasbs:///example/data/data.txt
Nebo
wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt
Seznam dalších příkazů Hadoop, které pracují se soubory, najdete v tématu https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html
Upozorňující
V clusterech Apache HBase je výchozí velikost bloku používaná při zápisu dat 256 kB. I když používáte rozhraní HBase API nebo rozhraní REST API, může při zápisu dat větších než ~12 GB dojít k chybě pomocí hadoop
příkazů nebo hdfs dfs
příkazů. Další informace najdete v tématu Výjimka úložiště pro zápis do objektu blob.
Grafické klienty
Existuje také několik aplikací, které poskytují grafické rozhraní pro práci se službou Azure Storage. Následující tabulka obsahuje seznam několika z těchto aplikací:
Klient | Linux | OS X | Windows |
---|---|---|---|
Microsoft Visual Studio Tools for HDInsight | ✔ | ✔ | ✔ |
Azure Storage Explorer | ✔ | ✔ | ✔ |
Cerulea |
✔ | ||
CloudXplorer | ✔ | ||
CloudBerry Explorer pro Microsoft Azure | ✔ | ||
Cyberduck | ✔ | ✔ |
Připojení azure Storage jako místního disku
Viz Připojení služby Azure Storage jako místní disk.
Nahrání pomocí služeb
Azure Data Factory
Služba Azure Data Factory je plně spravovaná služba pro vytváření dat: úložiště, zpracování a přesouvání služeb do zjednodušených, přizpůsobitelných a spolehlivých produkčních kanálů dat.
Typ úložiště | Dokumentace |
---|---|
Azure Blob Storage | Kopírování dat do nebo z úložiště Azure Blob Storage pomocí služby Azure Data Factory |
(.. /data-factory/connector-azure-data-lake-store.md) | |
Azure Data Lake Storage Gen2 | Načtení dat do Azure Data Lake Storage Gen2 pomocí Azure Data Factory |
Apache Sqoop
Sqoop je nástroj určený k přenosu dat mezi Hadoopem a relačními databázemi. Slouží k importu dat ze systému pro správu relačních databází (RDBMS), jako je SQL Server, MySQL nebo Oracle. Pak do distribuovaného systému souborů Hadoop (HDFS). Transformujte data v Hadoopu pomocí MapReduce nebo Hive a pak je exportujte zpět do RDBMS.
Další informace najdete v tématu Použití Sqoopu se službou HDInsight.
Vývojové sady SDK
Ke službě Azure Storage se dá přistupovat také pomocí sady Azure SDK z následujících programovacích jazyků:
- .NET
- Java
- Node.js
- PHP
- Python
- Ruby
Další informace o instalaci sad Azure SDK najdete ve stažení Azure.
Další kroky
Teď, když rozumíte tomu, jak získat data do SLUŽBY HDInsight, najdete v následujících článcích, kde se dozvíte o analýze: