Arbeta i Apache Hadoop-ekosystemet på HDInsight från en Windows-dator
Lär dig mer om utveckling och hanteringsalternativ på Windows-datorn för att arbeta i Apache Hadoop-ekosystemet i HDInsight.
HDInsight är baserat på Apache Hadoop- och Hadoop-komponenter, tekniker med öppen källkod som utvecklats i Linux. HDInsight version 3.4 och senare använder Ubuntu Linux-distributionen som det underliggande operativsystemet för klustret. Du kan dock arbeta med HDInsight från en Windows-klient eller Windows-utvecklingsmiljö.
Använda PowerShell för distributions- och hanteringsuppgifter
Azure PowerShell är en skriptmiljö som du kan använda för att styra och automatisera distributions- och hanteringsuppgifter i HDInsight från Windows.
Exempel på uppgifter som du kan utföra med PowerShell:
- Skapa kluster med Hjälp av PowerShell.
- Kör Apache Hive-frågor med PowerShell.
- Hantera kluster med PowerShell.
Följ stegen för att installera och konfigurera Azure PowerShell för att hämta den senaste versionen.
Verktyg som du kan köra i en webbläsare
Följande verktyg har ett webbgränssnitt som körs i en webbläsare:
Azure Cloud Shell är ett interaktivt kommandoradsgränssnitt som körs i webbläsaren och inifrån Azure Portal.
Apache Ambari-webbgränssnittet är ett hanterings- och övervakningsverktyg som är tillgängligt i Azure Portal som kan användas för att hantera olika typer av jobb, till exempel:
Innan du går till följande exempel installerar och provar du Data Lake Tools för Visual Studio.
Visual Studio och .NET SDK
Du kan använda Visual Studio med .NET SDK för att hantera kluster och utveckla stordataprogram. Du kan använda andra IDE:er för följande uppgifter, men exempel visas i Visual Studio.
Exempel på uppgifter som du kan utföra med .NET SDK i Visual Studio:
- Azure HDInsight SDK för .NET.
- Kör Apache Hive-frågor med hjälp av .NET SDK.
- Använd användardefinierade C#-funktioner med Apache Hive- och Apache Pig-strömning på Apache Hadoop.
Intellij IDEA och Eclipse IDE för Spark-kluster
Både Intellij IDEA och Eclipse IDE kan användas för att:
- Utveckla och skicka ett Scala Spark-program i ett HDInsight Spark-kluster.
- Få åtkomst till Spark-klusterresurser.
- Utveckla och köra ett Scala Spark-program lokalt.
De här artiklarna visar hur:
- Intellij IDEA: Skapa Apache Spark-program med hjälp av plugin-programmet Azure Toolkit for Intellij och Scala SDK.
- Eclipse IDE eller Scala IDE för Eclipse: Skapa Apache Spark-program och Azure Toolkit for Eclipse
Notebook-filer på Spark för dataforskare
Apache Spark-kluster i HDInsight innehåller Apache Zeppelin-notebook-filer och kernels som kan användas med Jupyter Notebooks.
- Lär dig hur du använder kernels i Apache Spark-kluster med Jupyter Notebooks för att testa Spark-program
- Lär dig hur du använder Apache Zeppelin-notebook-filer i Apache Spark-kluster för att köra Spark-jobb
Köra Linux-baserade verktyg och tekniker i Windows
Om du stöter på en situation där du måste använda ett verktyg eller en teknik som endast är tillgänglig i Linux kan du överväga följande alternativ:
- Bash på Ubuntu på Windows 10 tillhandahåller ett Linux-undersystem i Windows. Med Bash kan du köra Linux-verktyg direkt utan att behöva underhålla en dedikerad Linux-installation. Installationssteg finns i Installationsguide för Windows-undersystem för Linux för Windows 10. Andra Unix-gränssnitt fungerar också.
- Docker för Windows ger åtkomst till många Linux-baserade verktyg och kan köras direkt från Windows. Du kan till exempel använda Docker för att köra Beeline-klienten för Hive direkt från Windows. Du kan också använda Docker för att köra en lokal Jupyter Notebook och fjärransluta till Spark på HDInsight. Kom igång med Docker för Windows
- Med MobaXTerm kan du grafiskt bläddra i klustrets filsystem via en SSH-anslutning.
Plattformsoberoende verktyg
Kommandoradsgränssnittet för Azure (CLI) är Microsofts plattformsoberoende kommandoradsmiljö för att hantera Azure-resurser. Mer information finns i Azure Command-Line Interface (CLI).
Nästa steg
Om du inte har använt Linux-baserade kluster tidigare kan du läsa följande artiklar: