Trabalhar no ecossistema Apache Hadoop no HDInsight por meio de um computador com Windows
Conheça as opções de desenvolvimento e de gerenciamento no computador com Windows para trabalhar no ecossistema Apache Hadoop no HDInsight.
O HDInsight tem base em componentes do Apache Hadoop e do Hadoop, tecnologias de código-fonte aberto desenvolvidas no Linux. O HDInsight versão 3.4 ou superior usa a distribuição do Ubuntu Linux como o SO subjacente para o cluster. No entanto, você pode trabalhar com o HDInsight de um cliente Windows ou ambiente de desenvolvimento do Windows.
Usar o PowerShell para as tarefas de implantação e gerenciamento
O Azure PowerShell é um ambiente de geração de script que você pode usar para controlar e automatizar as tarefas de implantação e gerenciamento no HDInsight no Windows.
Exemplos de tarefas que você pode fazer com o PowerShell:
- Criar clusters usando o PowerShell.
- Executar consultas do Apache Hive usando o PowerShell.
- Gerenciar clusters com o PowerShell.
Execute as etapas para instalar e configurar o Azure Powershell a fim de obter a versão mais recente.
Utilitários que você pode executar em um navegador
Os utilitários a seguir tem uma interface de usuário na Web que é executada em um navegador Web:
O Azure Cloud Shell é um shell interativo de linha de comando executado no navegador e no portal do Azure.
Interface do usuário da Web do Apache Ambari é um utilitário de gerenciamento e monitoramento disponível no portal do Azure que pode ser usado para gerenciar tipos diferentes de trabalho, como:
Antes de passar para os exemplos a seguir, instale e experimente o Data Lake Tools para Visual Studio.
Visual Studio e o SDK do .NET
Você pode usar o Visual Studio com o SDK do .NET para gerenciar clusters e desenvolver aplicativos de Big Data. Você pode usar outros IDEs para as seguintes tarefas, mas os exemplos são mostrados no Visual Studio.
Exemplos de tarefas que podem ser realizadas com o SDK do .NET no Visual Studio:
- Azure HDInsight SDK para .NET.
- Executar consultas do Apache Hive usando o SDK do .NET.
- Usar as funções definidas pelo usuário do C# com o streaming do Apache Hive e o Apache Pig no Apache Hadoop.
IDEA do IntelliJ e IDE do Eclipse para clusters Spark
IDEA do Intellij e o IDE do Eclipse podem ser usados para:
- Desenvolver e enviar um aplicativo Scala Spark em um cluster HDInsight Spark.
- Acessar os recursos em cluster Spark.
- Desenvolver e executar um aplicativo Scala Spark localmente.
Esses artigos mostram como:
- Intellij IDEA: criar aplicativos Apache Spark usando o plug-in do Azure Toolkit for IntelliJ e o SDK do Scala.
- IDE do Eclipse ou IDE do Scala para Eclipse: criar aplicativos Apache Spark e o Azure Toolkit for Eclipse
Notebooks no Spark para os cientistas de dados
Os clusters do Apache Spark no HDInsight incluem notebooks e kernels do Apache Zeppelin que podem ser usados com os notebooks do Jupyter.
- Saiba como usar kernels nos clusters do Apache Spark com notebooks do Jupyter para testar aplicativos Spark
- Saiba como usar notebooks do Apache Zeppelin em clusters Apache Spark para executar trabalhos do Spark
Executar ferramentas e tecnologias baseadas em Linux no Windows
Se houver uma situação em que você precise usar uma ferramenta ou tecnologia disponível apenas no Linux, considere as seguintes opções:
- O Bash no Ubuntu no Windows 10 fornece um subsistema Linux no Windows. O Bash permite que você execute diretamente os utilitários Linux sem a necessidade de manter uma instalação dedicada do Linux. Confira o Guia de instalação do subsistema do Windows para Linux para o Windows 10 para conhecer as etapas de instalação. Outros shells do Unix também funcionarão.
- Docker para Windows fornece acesso às muitas ferramentas baseadas em Linux e pode ser executado diretamente do Windows. Por exemplo, você pode usar o Docker para executar o cliente Beeline para diretamente do Windows. Você pode também usar o Docker para executar um Jupyter Notebook local e conectar-se remotamente com o Spark no HDInsight. Introdução ao Docker para Windows
- MobaXTerm permite que você navegue graficamente no sistema de arquivos de cluster em uma conexão SSH.
Ferramentas multiplataforma
A CLI (interface de linha de comando) do Azure é a experiência da linha de comando de plataforma cruzada da Microsoft para gerenciar os recursos do Azure. Para obter mais informações, confira CLI (interface de linha de comando) do Azure.
Próximas etapas
Se você não estiver acostumado a trabalhar com clusters baseados em Linux, consulte os artigos a seguir: