Anslut Excel till Apache Hadoop med hjälp av Power Query
En viktig funktion i Microsofts stordatalösning är integreringen av Microsoft Business Intelligence-komponenter (BI) med Apache Hadoop-kluster i Azure HDInsight. Ett primärt exempel är möjligheten att ansluta Excel till Azure Storage-kontot som innehåller data som är associerade med ditt Hadoop-kluster med hjälp av tillägget Microsoft Power Query för Excel. Den här artikeln beskriver hur du konfigurerar och använder Power Query för att fråga efter data som är associerade med ett Hadoop-kluster som hanteras med HDInsight.
Förutsättningar
- Ett Apache Hadoop-kluster i HDInsight. Se Komma igång med HDInsight i Linux.
- En arbetsstation som kör Windows 10, 7, Windows Server 2008 R2 eller ett senare operativsystem.
- Microsoft 365-appar för företag, Office 2016, Office 2013 Professional Plus, Fristående Excel 2013 eller Office 2010 Professional Plus.
Installera Microsoft Power Query
Power Query kan importera data som har utdata eller som har genererats av ett Hadoop-jobb som körs i ett HDInsight-kluster.
I Excel 2016 har Power Query integrerats i menyfliksområdet Data under avsnittet Hämta och transformera. För äldre Excel-versioner laddar du ned Microsoft Power Query för Excel från Microsoft Download Center och installerar det.
Importera HDInsight-data till Excel
Power Query-tillägget för Excel gör det enkelt att importera data från DITT HDInsight-kluster till Excel, där BI-verktyg som PowerPivot och Power Map kan användas för att inspektera, analysera och presentera data.
Starta Excel.
Skapa en ny tom arbetsbok.
Utför följande steg baserat på Excel-versionen:
Excel 2016
Välj >Data>Hämta data>från Azure>från Azure HDInsight (HDFS).
Excel 2013/2010
Välj Power Query>från Azure>från Microsoft Azure HDInsight.
Obs! Om du inte ser Power Query-menyn går du till Filalternativtillägg>> och väljer COM-tillägg i listrutan Hantera längst ned på sidan. Välj knappen Go... och kontrollera att rutan för Power Query för Excel-tillägget har markerats.
Obs! Med Power Query kan du också importera data från HDFS genom att välja Från andra källor.
I dialogrutan Azure HDInsight (HDFS) i textrutan Kontonamn eller URL anger du namnet på det Azure Blob Storage-konto som är associerat med klustret. Välj sedan OK. Det här kontot kan vara standardlagringskontot eller ett länkat lagringskonto. Formatet är
https://StorageAccountName.blob.core.windows.net/
.För Kontonyckel anger du nyckeln för Blob Storage-kontot och väljer sedan Anslut. (Du behöver bara ange kontoinformationen första gången du kommer åt det här arkivet.)
I fönstret Navigatör till vänster om Power Query-redigeraren dubbelklickar du på namnet på bloblagringscontainern som är associerad med klustret. Som standard är containernamnet samma namn som klusternamnet.
Leta upp HiveSampleData.txt i kolumnen Namn (mappsökvägen är .. /hive/warehouse/hivesampletable/) och välj sedan Binär till vänster om HiveSampleData.txt. HiveSampleData.txt levereras med hela klustret. Du kan också använda din egen fil.
Om du vill kan du byta namn på kolumnnamnen. När du är klar väljer du Stäng och läs in. Data har lästs in i arbetsboken:
Nästa steg
I den här artikeln har du lärt dig hur du använder Power Query för att hämta data från HDInsight till Excel. På samma sätt kan du hämta data från HDInsight till Azure SQL Database. Det går också att ladda upp data till HDInsight. Mer information finns i följande artiklar:
- Visualisera Apache Hive-data med Microsoft Power BI i Azure HDInsight.
- Visualisera Interaktiv fråga Hive-data med Power BI i Azure HDInsight.
- Använd Apache Zeppelin för att köra Apache Hive-frågor i Azure HDInsight.
- Anslut Excel till HDInsight med Microsoft Hive ODBC-drivrutinen.
- Anslut till Azure HDInsight och kör Apache Hive-frågor med Data Lake Tools för Visual Studio.
- Använd Azure HDInsight-verktyget för Visual Studio Code.
- Ladda upp data till HDInsight.