Trabalhar no ecossistema Apache Hadoop no HDInsight a partir de um PC Windows
Saiba mais sobre as opções de desenvolvimento e gerenciamento no PC Windows para trabalhar no ecossistema Apache Hadoop no HDInsight.
O HDInsight é baseado nos componentes Apache Hadoop e Hadoop, tecnologias de código aberto desenvolvidas no Linux. O HDInsight versão 3.4 e superior usa a distribuição Ubuntu Linux como o sistema operacional subjacente para o cluster. No entanto, você pode trabalhar com o HDInsight a partir de um cliente Windows ou de um ambiente de desenvolvimento do Windows.
Usar o PowerShell para tarefas de implantação e gerenciamento
O Azure PowerShell é um ambiente de script que você pode usar para controlar e automatizar tarefas de implantação e gerenciamento no HDInsight a partir do Windows.
Exemplos de tarefas que você pode fazer com o PowerShell:
- Crie clusters usando o PowerShell.
- Execute consultas do Apache Hive usando o PowerShell.
- Gerencie clusters com o PowerShell.
Siga as etapas para instalar e configurar o Azure PowerShell para obter a versão mais recente.
Utilitários que você pode executar em um navegador
Os seguintes utilitários têm uma interface do usuário da Web que é executada em um navegador:
O Azure Cloud Shell é um shell de linha de comando interativo que é executado em seu navegador e no portal do Azure.
Apache Ambari Web UI é um utilitário de gerenciamento e monitoramento disponível no portal do Azure que pode ser usado para gerenciar diferentes tipos de trabalhos, como:
Antes de ir para os exemplos a seguir, instale e tente o Data Lake Tools for Visual Studio.
Visual Studio e o SDK do .NET
Você pode usar o Visual Studio com o SDK do .NET para gerenciar clusters e desenvolver aplicativos de big data. Você pode usar outros IDEs para as tarefas a seguir, mas exemplos são mostrados no Visual Studio.
Exemplos de tarefas que você pode fazer com o SDK do .NET no Visual Studio:
- SDK do Azure HDInsight para .NET.
- Execute consultas do Apache Hive usando o SDK do .NET.
- Use funções definidas pelo usuário em C# com o Apache Hive e o streaming do Apache Pig no Apache Hadoop.
IntelliJ IDEA e Eclipse IDE para clusters Spark
Tanto o IntelliJ IDEA quanto o Eclipse IDE podem ser usados para:
- Desenvolva e envie um aplicativo Scala Spark em um cluster HDInsight Spark.
- Acesse os recursos do cluster do Spark.
- Desenvolva e execute um aplicativo Scala Spark localmente.
Estes artigos mostram como:
- IntelliJ IDEA: Crie aplicativos Apache Spark usando o plug-in do Kit de Ferramentas do Azure para IntelliJ e o SDK do Scala.
- Eclipse IDE ou Scala IDE para Eclipse: crie aplicativos Apache Spark e o Kit de Ferramentas do Azure para Eclipse
Cadernos no Spark para cientistas de dados
Os clusters Apache Spark no HDInsight incluem notebooks e kernels Apache Zeppelin que podem ser usados com o Jupyter Notebooks.
- Saiba como usar kernels em clusters Apache Spark com Jupyter Notebooks para testar aplicativos Spark
- Saiba como usar notebooks Apache Zeppelin em clusters Apache Spark para executar trabalhos do Spark
Execute ferramentas e tecnologias baseadas em Linux no Windows
Se você se deparar com uma situação em que você deve usar uma ferramenta ou tecnologia que só está disponível no Linux, considere as seguintes opções:
- Bash no Ubuntu no Windows 10 fornece um subsistema Linux no Windows. Bash permite que você execute diretamente utilitários Linux sem ter que manter uma instalação Linux dedicada. Consulte o Guia de Instalação do Subsistema Windows para Linux para Windows 10 para obter as etapas de instalação. Outros shells Unix também funcionam.
- O Docker para Windows fornece acesso a muitas ferramentas baseadas em Linux e pode ser executado diretamente do Windows. Por exemplo, você pode usar o Docker para executar o cliente Beeline para Hive diretamente do Windows. Você também pode usar o Docker para executar um Jupyter Notebook local e conectar-se remotamente ao Spark no HDInsight. Introdução ao Docker para Windows
- MobaXTerm permite que você navegue graficamente pelo sistema de arquivos do cluster através de uma conexão SSH.
Ferramentas multiplataforma
A interface de linha de comandos (CLI) do Azure é a experiência de linha de comandos entre plataformas da Microsoft para gerir os recursos do Azure. Para obter mais informações, consulte Interface de linha de comando (CLI) do Azure.
Próximos passos
Se você é novo no trabalho em clusters baseados em Linux, consulte os seguintes artigos: