Praca w ekosystemie platformy Apache Hadoop w usłudze HDInsight z komputera z systemem Windows
Dowiedz się więcej o opcjach programowania i zarządzania na komputerze z systemem Windows na potrzeby pracy w ekosystemie apache Hadoop w usłudze HDInsight.
Usługa HDInsight jest oparta na składnikach Apache Hadoop i Hadoop, technologiach typu open source opracowanych w systemie Linux. Usługa HDInsight w wersji 3.4 lub nowszej używa dystrybucji systemu Ubuntu Linux jako bazowego systemu operacyjnego dla klastra. Można jednak pracować z usługą HDInsight z poziomu klienta systemu Windows lub środowiska programistycznego systemu Windows.
Używanie programu PowerShell do zadań wdrażania i zarządzania
Azure PowerShell to środowisko skryptowe, za pomocą którego można kontrolować i automatyzować zadania wdrażania i zarządzania w usłudze HDInsight z systemu Windows.
Przykłady zadań, które można wykonać za pomocą programu PowerShell:
- Tworzenie klastrów przy użyciu programu PowerShell.
- Uruchamianie zapytań apache Hive przy użyciu programu PowerShell.
- Zarządzanie klastrami przy użyciu programu PowerShell.
Wykonaj kroki, aby zainstalować i skonfigurować program Azure PowerShell , aby uzyskać najnowszą wersję.
Narzędzia, które można uruchomić w przeglądarce
Następujące narzędzia mają internetowy interfejs użytkownika, który działa w przeglądarce:
Azure Cloud Shell to interaktywna powłoka wiersza polecenia, która działa w przeglądarce i z poziomu witryny Azure Portal.
Internetowy interfejs użytkownika platformy Apache Ambari to narzędzie do zarządzania i monitorowania dostępne w witrynie Azure Portal, które może służyć do zarządzania różnymi rodzajami zadań, takimi jak:
Przed przejściem do poniższych przykładów zainstaluj i wypróbuj narzędzia Data Lake Tools for Visual Studio.
Program Visual Studio i zestaw .NET SDK
Za pomocą programu Visual Studio z zestawem .NET SDK można zarządzać klastrami i opracowywać aplikacje danych big data. Możesz użyć innych identyfikatorów IDE dla następujących zadań, ale przykłady są wyświetlane w programie Visual Studio.
Przykłady zadań, które można wykonać za pomocą zestawu .NET SDK w programie Visual Studio:
- Zestaw SDK usługi Azure HDInsight dla platformy .NET.
- Uruchamianie zapytań apache Hive przy użyciu zestawu .NET SDK.
- Używanie funkcji zdefiniowanych przez użytkownika w języku C# z usługami Apache Hive i Apache Pig przesyłanymi strumieniowo w usłudze Apache Hadoop.
Środowiska IntelliJ IDEA i Eclipse IDE dla klastrów Spark
Zarówno środowisko IntelliJ IDEA , jak i środowisko IDE środowiska Eclipse mogą służyć do:
- Tworzenie i przesyłanie aplikacji Scala Spark w klastrze SPARK usługi HDInsight.
- Uzyskiwanie dostępu do zasobów klastra Spark.
- Lokalnie twórz i uruchamiaj aplikację Platformy Spark w języku Scala.
W tych artykułach pokazano, jak:
- IntelliJ IDEA: tworzenie aplikacji platformy Apache Spark przy użyciu wtyczki Azure Toolkit for IntelliJ i zestawu Scala SDK.
- Eclipse IDE lub Scala IDE for Eclipse: tworzenie aplikacji platformy Apache Spark i zestawu narzędzi Azure Toolkit for Eclipse
Notesy na platformie Spark dla analityków danych
Klastry Apache Spark w usłudze HDInsight obejmują notesy i jądra apache Zeppelin, których można używać z notesami Jupyter Notebook.
- Dowiedz się, jak używać jąder w klastrach Apache Spark za pomocą notesów Jupyter Notebook do testowania aplikacji Platformy Spark
- Dowiedz się, jak używać notesów Apache Zeppelin w klastrach Apache Spark do uruchamiania zadań platformy Spark
Uruchamianie narzędzi i technologii opartych na systemie Linux w systemie Windows
Jeśli napotkasz sytuację, w której musisz użyć narzędzia lub technologii dostępnej tylko w systemie Linux, rozważ następujące opcje:
- Powłoka Bash w systemie Ubuntu w systemie Windows 10 udostępnia podsystem systemu Linux w systemie Windows. Powłoka Bash umożliwia bezpośrednie uruchamianie narzędzi systemu Linux bez konieczności obsługi dedykowanej instalacji systemu Linux. Aby uzyskać instrukcje instalacji, zobacz przewodnik instalacji Podsystem Windows dla systemu Linux dla systemu Windows 10. Działają również inne powłoki systemu Unix.
- Platforma Docker dla systemu Windows zapewnia dostęp do wielu narzędzi opartych na systemie Linux i może być uruchamiana bezpośrednio z systemu Windows. Na przykład można użyć platformy Docker do uruchomienia klienta Beeline dla programu Hive bezpośrednio z systemu Windows. Możesz również użyć platformy Docker, aby uruchomić lokalny notes Jupyter Notebook i zdalnie nawiązać połączenie z platformą Spark w usłudze HDInsight. Wprowadzenie do platformy Docker dla systemu Windows
- Narzędzie MobaXTerm umożliwia graficzne przeglądanie systemu plików klastra za pośrednictwem połączenia SSH.
Narzędzia międzyplatformowe
Interfejs wiersza polecenia platformy Azure to wieloplatformowe środowisko wiersza polecenia do zarządzania zasobami platformy Azure. Aby uzyskać więcej informacji, zobacz Interfejs wiersza polecenia platformy Azure (CLI).
Następne kroki
Jeśli dopiero zaczynasz pracę w klastrach opartych na systemie Linux, zobacz następujące artykuły: