Práce v ekosystému Apache Hadoop ve službě HDInsight z počítače s Windows

Článek
02/04/2025

Seznamte se s možnostmi vývoje a správy na počítači s Windows pro práci v ekosystému Apache Hadoop ve službě HDInsight.

HDInsight je založen na komponentách Apache Hadoop a Hadoop a opensourcových technologiích vyvinutých v Linuxu. HDInsight verze 3.4 a vyšší používá distribuci Ubuntu Linuxu jako základní operační systém clusteru. S HDInsight ale můžete pracovat z klienta systému Windows nebo vývojového prostředí Windows.

Použití PowerShellu pro úlohy nasazení a správy

Azure PowerShell je skriptovací prostředí, které můžete použít k řízení a automatizaci úloh nasazení a správy ve službě HDInsight z Windows.

Příklady úloh, které můžete provádět pomocí PowerShellu:

Pokud chcete získat nejnovější verzi, postupujte podle kroků pro instalaci a konfiguraci Azure PowerShellu .

Nástroje, které můžete spustit v prohlížeči

Následující nástroje mají webové uživatelské rozhraní, které běží v prohlížeči:

Azure Cloud Shell je interaktivní prostředí příkazového řádku, které běží v prohlížeči a na webu Azure Portal.
Webové uživatelské rozhraní Apache Ambari je nástroj pro správu a monitorování dostupný na webu Azure Portal, který se dá použít ke správě různých typů úloh, například:

Než přejdete na následující příklady, nainstalujte a vyzkoušejte Nástroje Data Lake pro Visual Studio.

Visual Studio a sada .NET SDK

Visual Studio se sadou .NET SDK můžete použít ke správě clusterů a vývoji aplikací pro velké objemy dat. Pro následující úlohy můžete použít další prostředí IDE, ale příklady jsou uvedené v sadě Visual Studio.

Příklady úloh, které můžete dělat se sadou .NET SDK v sadě Visual Studio:

IntelliJ IDEA a Eclipse IDE pro clustery Spark

IntelliJ IDEA i Eclipse IDE je možné použít k:

Vývoj a odeslání aplikace Scala Spark v clusteru HDInsight Spark
Přístup k prostředkům clusteru Spark
Vyvíjejte a spouštějte aplikaci Scala Spark místně.

V těchto článcích se dozvíte, jak na to:

IntelliJ IDEA: Vytváření aplikací Apache Spark pomocí modulu plug-in Azure Toolkit for IntelliJ a sady Scala SDK
Eclipse IDE nebo Scala IDE pro Eclipse: Vytváření aplikací Apache Spark a sady Azure Toolkit for Eclipse

Poznámkové bloky ve Sparku pro datové vědce

Clustery Apache Spark ve službě HDInsight zahrnují poznámkové bloky Apache Zeppelin a jádra, která je možné použít s poznámkovými bloky Jupyter.

Spouštění linuxových nástrojů a technologií ve Windows

Pokud narazíte na situaci, kdy musíte použít nástroj nebo technologii, která je dostupná pouze v Linuxu, zvažte následující možnosti:

Bash na Ubuntu ve Windows 10 poskytuje subsystém Linuxu ve Windows. Bash umožňuje přímo spouštět linuxové nástroje, aniž byste museli udržovat vyhrazenou instalaci Linuxu. Postup instalace najdete v průvodci instalací Subsystém Windows pro Linux pro Windows 10. Ostatní unixové prostředí fungují také.
Docker pro Windows poskytuje přístup k mnoha linuxovým nástrojům a dá se spouštět přímo z Windows. Pomocí Dockeru můžete například spustit klienta Beeline pro Hive přímo z Windows. Pomocí Dockeru můžete také spustit místní poznámkový blok Jupyter a vzdáleně se připojit ke Sparku ve službě HDInsight. Začínáme s Dockerem pro Windows
MobaXTerm umožňuje graficky procházet systém souborů clusteru přes připojení SSH.

Nástroje pro různé platformy

Rozhraní příkazového řádku Azure (CLI) je nové víceplatformové prostředí příkazového řádku Microsoftu pro správu prostředků Azure. Další informace najdete v tématu Rozhraní příkazového řádku Azure (CLI).

Další kroky

Pokud s linuxovými clustery začínáte pracovat, přečtěte si následující články:

Sdílet prostřednictvím