Połączenie programu Excel do usługi Apache Hadoop przy użyciu dodatku Power Query
Jedną z kluczowych funkcji rozwiązania do obsługi danych big data firmy Microsoft jest integracja składników analizy biznesowej firmy Microsoft z klastrami Apache Hadoop w usłudze Azure HDInsight. Podstawowym przykładem jest możliwość połączenia programu Excel z kontem usługi Azure Storage zawierającym dane skojarzone z klastrem Hadoop przy użyciu dodatku Microsoft Power Query dla programu Excel. W tym artykule opisano sposób konfigurowania i używania dodatku Power Query do wykonywania zapytań dotyczących danych skojarzonych z klastrem Hadoop zarządzanym za pomocą usługi HDInsight.
Wymagania wstępne
- Klaster Apache Hadoop w usłudze HDInsight. Zobacz Wprowadzenie do usługi HDInsight w systemie Linux.
- Stacja robocza z systemem Operacyjnym Windows 10, 7, Windows Server 2008 R2 lub nowszym.
- Aplikacje platformy Microsoft 365 dla przedsiębiorstw, Office 2016, Office 2013 Professional Plus, Excel 2013 Standalone lub Office 2010 Professional Plus.
Instalowanie dodatku Microsoft Power Query
Dodatek Power Query może importować dane wyjściowe lub wygenerowane przez zadanie usługi Hadoop uruchomione w klastrze usługi HDInsight.
W programie Excel 2016 dodatek Power Query został zintegrowany ze wstążką Dane w sekcji Pobierz i przekształć. W przypadku starszych wersji programu Excel pobierz program Microsoft Power Query dla programu Excel z Centrum pobierania Microsoft i zainstaluj go.
Importowanie danych usługi HDInsight do programu Excel
Dodatek Power Query dla programu Excel ułatwia importowanie danych z klastra usługi HDInsight do programu Excel, gdzie narzędzia analizy biznesowej, takie jak PowerPivot i Power Map, mogą służyć do sprawdzania, analizowania i prezentowania danych.
Uruchom program Excel.
Utwórz nowy pusty skoroszyt.
Wykonaj następujące kroki w oparciu o wersję programu Excel:
Excel 2016
Wybierz pozycję >Dane>pobierz dane>z platformy Azure>z usługi Azure HDInsight(HDFS).
Excel 2013/2010
Wybierz pozycję Power Query>z platformy Azure>w usłudze Microsoft Azure HDInsight.
Uwaga: Jeśli nie widzisz menu Dodatku Power Query, przejdź do pozycji Dodatki opcji>plików>i wybierz pozycję Dodatki COM z listy rozwijanej Zarządzaj w dolnej części strony. Wybierz przycisk Przejdź... i sprawdź, czy pole dodatku Power Query dla programu Excel zostało zaznaczone.
Uwaga: Dodatek Power Query umożliwia również importowanie danych z systemu plików HDFS, wybierając pozycję Z innych źródeł.
W oknie dialogowym Azure HDInsight(HDFS) w polu tekstowym Nazwa konta lub adres URL wprowadź nazwę konta usługi Azure Blob Storage skojarzonego z klastrem. Następnie wybierz opcję OK. To konto może być domyślnym kontem magazynu lub połączonym kontem magazynu. Format to
https://StorageAccountName.blob.core.windows.net/
.W polu Klucz konta wprowadź klucz konta usługi Blob Storage, a następnie wybierz pozycję Połączenie. (Musisz wprowadzić informacje o koncie tylko przy pierwszym uzyskiwaniu dostępu do tego sklepu).
W okienku Nawigator po lewej stronie Edytor Power Query kliknij dwukrotnie nazwę kontenera usługi Blob Storage skojarzona z klastrem. Domyślnie nazwa kontenera jest taka sama jak nazwa klastra.
Znajdź HiveSampleData.txt w kolumnie Nazwa (ścieżka folderu to .). /hive/warehouse/hivesampletable/), a następnie wybierz pozycję Binary po lewej stronie HiveSampleData.txt. HiveSampleData.txt jest dostarczany ze wszystkim klastrem. Opcjonalnie możesz użyć własnego pliku.
Jeśli chcesz, możesz zmienić nazwy kolumn. Gdy wszystko będzie gotowe, wybierz pozycję Zamknij i załaduj. Dane zostały załadowane do skoroszytu:
Następne kroki
W tym artykule przedstawiono sposób używania dodatku Power Query do pobierania danych z usługi HDInsight do programu Excel. Podobnie możesz pobrać dane z usługi HDInsight do usługi Azure SQL Database. Istnieje również możliwość przekazania danych do usługi HDInsight. Więcej informacji można znaleźć w następujących artykułach:
- Wizualizowanie danych usługi Apache Hive za pomocą usługi Microsoft Power BI w usłudze Azure HDInsight.
- Wizualizowanie danych programu Hive zapytań interakcyjnych za pomocą usługi Power BI w usłudze Azure HDInsight.
- Uruchamianie zapytań Apache Hive w usłudze Azure HDInsight za pomocą narzędzia Apache Zeppelin.
- Połączenie programu Excel do usługi HDInsight przy użyciu Sterownik Microsoft Hive ODBC.
- Połączenie do usługi Azure HDInsight i uruchom zapytania apache Hive przy użyciu narzędzi Data Lake Tools for Visual Studio.
- Użyj narzędzia Azure HDInsight Tool for Visual Studio Code.
- Przekazywanie danych do usługi HDInsight.