Trabalhar no ecossistema do Apache Hadoop no HDInsight a partir de um PC Windows
Saiba mais sobre as opções de desenvolvimento e gestão no PC Windows para trabalhar no ecossistema do Apache Hadoop no HDInsight.
O HDInsight baseia-se em componentes do Apache Hadoop e do Hadoop, tecnologias open source desenvolvidas no Linux. O HDInsight versão 3.4 e superior utiliza a distribuição do Ubuntu Linux como o SO subjacente para o cluster. No entanto, pode trabalhar com o HDInsight a partir de um cliente Windows ou de um ambiente de desenvolvimento do Windows.
Utilizar o PowerShell para tarefas de implementação e gestão
Azure PowerShell é um ambiente de scripts que pode utilizar para controlar e automatizar tarefas de implementação e gestão no HDInsight a partir do Windows.
Exemplos de tarefas que pode realizar com o PowerShell:
- Crie clusters com o PowerShell.
- Execute consultas do Apache Hive com o PowerShell.
- Gerir clusters com o PowerShell.
Siga os passos para instalar e configurar Azure PowerShell para obter a versão mais recente.
Utilitários que pode executar num browser
Os seguintes utilitários têm uma IU Web que é executada num browser:
O Azure Cloud Shell é uma shell interativa de linha de comandos que é executada no browser e a partir do portal do Azure.
A IU da Web do Apache Ambari é um utilitário de gestão e monitorização disponível no portal do Azure que pode ser utilizado para gerir diferentes tipos de tarefas, tais como:
Antes de aceder aos seguintes exemplos, instale e experimente o Data Lake Tools para Visual Studio.
Visual Studio e o SDK .NET
Pode utilizar o Visual Studio com o SDK .NET para gerir clusters e desenvolver aplicações de macrodados. Pode utilizar outros IDEs para as seguintes tarefas, mas são apresentados exemplos no Visual Studio.
Exemplos de tarefas que pode realizar com o SDK .NET no Visual Studio:
- SDK do Azure HDInsight para .NET.
- Execute consultas do Apache Hive com o SDK .NET.
- Utilize funções definidas pelo utilizador C# com a transmissão em fluxo do Apache Hive e do Apache Pig no Apache Hadoop.
Intellij IDEA e Eclipse IDE para clusters do Spark
Tanto o Intellij IDEA como o IDE do Eclipse podem ser utilizados para:
- Desenvolver e submeter uma aplicação Scala Spark num cluster do HdInsight Spark.
- Aceder aos recursos do cluster do Spark.
- Desenvolver e executar uma aplicação Scala Spark localmente.
Estes artigos mostram como:
- Intellij IDEA: crie aplicações do Apache Spark com o plug-in do Azure Toolkit for Intellij e o SDK scala.
- Eclipse IDE ou Scala IDE for Eclipse: Criar aplicações do Apache Spark e o Azure Toolkit for Eclipse
Blocos de notas no Spark para cientistas de dados
Os clusters do Apache Spark no HDInsight incluem blocos de notas e kernels do Apache Zeppelin que podem ser utilizados com o Jupyter Notebooks.
- Saiba como utilizar kernels em clusters do Apache Spark com o Jupyter Notebooks para testar aplicações do Spark
- Saiba como utilizar blocos de notas do Apache Zeppelin em clusters do Apache Spark para executar tarefas do Spark
Executar ferramentas e tecnologias baseadas no Linux no Windows
Se se deparar com uma situação em que tem de utilizar uma ferramenta ou tecnologia que só está disponível no Linux, considere as seguintes opções:
- O Bash no Ubuntu no Windows 10 fornece um subsistema Linux no Windows. O Bash permite-lhe executar diretamente utilitários do Linux sem ter de manter uma instalação dedicada do Linux. Veja Guia de Instalação do Subsistema do Windows para Linux para obter Windows 10 para obter os passos de instalação. Outras shells Unix também funcionam.
- O Docker para Windows fornece acesso a muitas ferramentas baseadas em Linux e pode ser executado diretamente a partir do Windows. Por exemplo, pode utilizar o Docker para executar o cliente Beeline para o Hive diretamente a partir do Windows. Também pode utilizar o Docker para executar uma Jupyter Notebook local e ligar remotamente ao Spark no HDInsight. Introdução ao Docker para Windows
- O MobaXTerm permite-lhe navegar graficamente no sistema de ficheiros de cluster através de uma ligação SSH.
Ferramentas multiplataformas
A interface de linha de comandos (CLI) do Azure é a experiência de linha de comandos entre plataformas da Microsoft para gerir os recursos do Azure. Para obter mais informações, veja Interface de Command-Line (CLI) do Azure.
Passos seguintes
Se não estiver familiarizado com os clusters baseados no Linux, veja os seguintes artigos: