Práce v ekosystému Apache Hadoop ve službě HDInsight z počítače s Windows
Seznamte se s možnostmi vývoje a správy na počítači s Windows pro práci v ekosystému Apache Hadoop ve službě HDInsight.
HDInsight je založen na komponentách Apache Hadoop a Hadoop a opensourcových technologiích vyvinutých v Linuxu. HDInsight verze 3.4 a vyšší používá distribuci Ubuntu Linuxu jako základní operační systém clusteru. S HDInsight ale můžete pracovat z klienta systému Windows nebo vývojového prostředí Windows.
Použití PowerShellu pro úlohy nasazení a správy
Azure PowerShell je skriptovací prostředí, které můžete použít k řízení a automatizaci úloh nasazení a správy ve službě HDInsight z Windows.
Příklady úloh, které můžete provádět pomocí PowerShellu:
- Vytváření clusterů pomocí PowerShellu
- Spouštění dotazů Apache Hive pomocí PowerShellu
- Správa clusterů pomocí PowerShellu
Pokud chcete získat nejnovější verzi, postupujte podle kroků pro instalaci a konfiguraci Azure PowerShellu .
Nástroje, které můžete spustit v prohlížeči
Následující nástroje mají webové uživatelské rozhraní, které běží v prohlížeči:
Azure Cloud Shell je interaktivní prostředí příkazového řádku, které běží v prohlížeči a na webu Azure Portal.
Webové uživatelské rozhraní Apache Ambari je nástroj pro správu a monitorování dostupný na webu Azure Portal, který se dá použít ke správě různých typů úloh, například:
Než přejdete na následující příklady, nainstalujte a vyzkoušejte Nástroje Data Lake pro Visual Studio.
Visual Studio a sada .NET SDK
Visual Studio se sadou .NET SDK můžete použít ke správě clusterů a vývoji aplikací pro velké objemy dat. Pro následující úlohy můžete použít další prostředí IDE, ale příklady jsou uvedené v sadě Visual Studio.
Příklady úloh, které můžete dělat se sadou .NET SDK v sadě Visual Studio:
- Sada Azure HDInsight SDK pro .NET
- Spusťte dotazy Apache Hivu pomocí sady .NET SDK.
- Používejte uživatelem definované funkce jazyka C# se streamováním Apache Hive a Apache Pig v Apache Hadoopu.
IntelliJ IDEA a Eclipse IDE pro clustery Spark
IntelliJ IDEA i Eclipse IDE je možné použít k:
- Vývoj a odeslání aplikace Scala Spark v clusteru HDInsight Spark
- Přístup k prostředkům clusteru Spark
- Vyvíjejte a spouštějte aplikaci Scala Spark místně.
V těchto článcích se dozvíte, jak na to:
- IntelliJ IDEA: Vytváření aplikací Apache Spark pomocí modulu plug-in Azure Toolkit for IntelliJ a sady Scala SDK
- Eclipse IDE nebo Scala IDE pro Eclipse: Vytváření aplikací Apache Spark a sady Azure Toolkit for Eclipse
Poznámkové bloky ve Sparku pro datové vědce
Clustery Apache Spark ve službě HDInsight zahrnují poznámkové bloky Apache Zeppelin a jádra, která je možné použít s poznámkovými bloky Jupyter.
- Naučte se používat jádra v clusterech Apache Spark s poznámkovými bloky Jupyter k testování aplikací Spark.
- Naučte se používat poznámkové bloky Apache Zeppelin v clusterech Apache Spark ke spouštění úloh Sparku.
Spouštění linuxových nástrojů a technologií ve Windows
Pokud narazíte na situaci, kdy musíte použít nástroj nebo technologii, která je dostupná pouze v Linuxu, zvažte následující možnosti:
- Bash na Ubuntu ve Windows 10 poskytuje subsystém Linuxu ve Windows. Bash umožňuje přímo spouštět linuxové nástroje, aniž byste museli udržovat vyhrazenou instalaci Linuxu. Postup instalace najdete v průvodci instalací Subsystém Windows pro Linux pro Windows 10. Ostatní unixové prostředí fungují také.
- Docker pro Windows poskytuje přístup k mnoha linuxovým nástrojům a dá se spouštět přímo z Windows. Pomocí Dockeru můžete například spustit klienta Beeline pro Hive přímo z Windows. Pomocí Dockeru můžete také spustit místní poznámkový blok Jupyter a vzdáleně se připojit ke Sparku ve službě HDInsight. Začínáme s Dockerem pro Windows
- MobaXTerm umožňuje graficky procházet systém souborů clusteru přes připojení SSH.
Nástroje pro různé platformy
Rozhraní příkazového řádku Azure (CLI) je nové víceplatformové prostředí příkazového řádku Microsoftu pro správu prostředků Azure. Další informace najdete v tématu Rozhraní příkazového řádku Azure (CLI).
Další kroky
Pokud s linuxovými clustery začínáte pracovat, přečtěte si následující články: