Připojení Excelu do Apache Hadoopu pomocí Power Query
Jednou z klíčových funkcí řešení Microsoftu pro velké objemy dat je integrace komponent Business Intelligence (BI) Microsoftu s clustery Apache Hadoop ve službě Azure HDInsight. Primárním příkladem je možnost připojit Excel k účtu Azure Storage, který obsahuje data přidružená k vašemu clusteru Hadoop pomocí doplňku Microsoft Power Query pro Excel. Tento článek vás provede nastavením a používáním Power Query k dotazování dat přidružených ke clusteru Hadoop spravovanému pomocí HDInsight.
Požadavky
- Cluster Apache Hadoop ve službě HDInsight. Viz Začínáme se službou HDInsight v Linuxu.
- Pracovní stanice se systémem Windows 10, 7, Windows Server 2008 R2 nebo novějším operačním systémem.
- Aplikace Microsoft 365 pro velké organizace, Office 2016, Office 2013 Professional Plus, Excel 2013 Standalone nebo Office 2010 Professional Plus.
Instalace Microsoft Power Query
Power Query může importovat data, která byla výstupem nebo která byla generována úlohou Hadoop spuštěnou v clusteru HDInsight.
V Excelu 2016 je Power Query integrovaný do pásu karet Data v části Získat a transformovat. Ve starších verzích Excelu si stáhněte Microsoft Power Query pro Excel z webu Microsoft Download Center a nainstalujte ho.
Import dat HDInsight do Excelu
Doplněk Power Query pro Excel usnadňuje import dat z clusteru HDInsight do Excelu, kde je možné použít nástroje BI, jako je PowerPivot a Power Map, ke kontrole, analýze a prezentaci dat.
Spusťte Excel.
Vytvořte nový prázdný sešit.
Na základě verze Excelu proveďte následující kroky:
Aplikace Excel 2016
Vyberte >Data>Načíst data>z Azure>ze služby Azure HDInsight (HDFS).<
/a0>
Excel 2013/2010
V Microsoft Azure HDInsight vyberte Power Query>z Azure.>
Poznámka: Pokud nabídku Power Query nevidíte, přejděte na Doplňky možností>souborů>a v rozevíracím seznamu Spravovat v dolní části stránky vyberte Doplňky modelu COM. Vyberte tlačítko Přejít... a ověřte, že je zaškrtnuté políčko doplňku Power Query pro Excel.
Poznámka: Power Query také umožňuje importovat data z HDFS výběrem z jiných zdrojů.
V dialogovém okně Azure HDInsight (HDFS) zadejte do textového pole Název účtu nebo adresu URL název účtu služby Azure Blob Storage přidružený k vašemu clusteru. Pak vyberte OK. Tento účet může být výchozím účtem úložiště nebo propojeným účtem úložiště. Formát je
https://StorageAccountName.blob.core.windows.net/
.Jako klíč účtu zadejte klíč pro účet úložiště objektů blob a pak vyberte Připojení. (Při prvním přístupu k tomuto úložišti je nutné zadat informace o účtu.)
V podokně Navigátor na levé straně Editor Power Query poklikejte na název kontejneru úložiště objektů blob přidružený k vašemu clusteru. Ve výchozím nastavení je název kontejneru stejný jako název clusteru.
Ve sloupci Název vyhledejte HiveSampleData.txt (cesta ke složce je .. /hive/warehouse/hivesampletable/) a na levé straně HiveSampleData.txt vyberte Binární. HiveSampleData.txt se dodává se všemi clustery. Volitelně můžete použít vlastní soubor.
Pokud chcete, můžete názvy sloupců přejmenovat. Až budete připraveni, vyberte Zavřít a načíst. Data se načetla do sešitu:
Další kroky
V tomto článku jste zjistili, jak pomocí Power Query načíst data z HDInsight do Excelu. Podobně můžete načíst data ze služby HDInsight do služby Azure SQL Database. Je také možné nahrát data do HDInsightu. Další informace najdete v těchto článcích:
- Vizualizace dat Apache Hivu pomocí Microsoft Power BI ve službě Azure HDInsight
- Vizualizace dat Hivu interaktivních dotazů pomocí Power BI ve službě Azure HDInsight
- Pomocí Apache Zeppelinu můžete spouštět dotazy Apache Hive ve službě Azure HDInsight.
- Připojení Excelu do HDInsight pomocí ovladače ODBC Microsoft Hive.
- Připojení do Služby Azure HDInsight a spouštění dotazů Apache Hive pomocí nástrojů Data Lake pro Visual Studio.
- Použijte nástroj Azure HDInsight pro Visual Studio Code.
- Nahrajte data do HDInsightu.