Trabajo en el ecosistema de Apache Hadoop en HDInsight desde un equipo con Windows
Obtenga información acerca de las opciones de desarrollo y administración en el equipo con Windows para trabajar en el ecosistema de Apache Hadoop en HDInsight.
HDInsight se basa en Apache Hadoop y componentes de Hadoop, tecnologías de código abierto desarrolladas en Linux. HDInsight versión 3.4 y posteriores usan la distribución Ubuntu de Linux como sistema operativo subyacente para el clúster. Sin embargo, puede trabajar con HDInsight desde un cliente Windows o un entorno de desarrollo de Windows.
Uso de PowerShell para tareas de implementación y administración
Azure PowerShell es un entorno de scripting que se puede usar para controlar y automatizar tareas de implementación y administración en HDInsight desde Windows.
Ejemplos de tareas que puede realizar con PowerShell:
- Creación de clústeres con PowerShell.
- Ejecución de consultas de Apache Hive mediante PowerShell.
- Administración de clústeres con PowerShell.
Siga los pasos para instalar y configurar Azure PowerShell para obtener la versión más reciente.
Utilidades que puede ejecutar en un explorador
Las utilidades siguientes tienen una interfaz de usuario web que se ejecuta en un explorador:
Azure Cloud Shell es un shell de línea de comandos interactivo que se ejecuta en el explorador y desde Azure Portal.
Interfaz de usuario web de Apache Ambari es una utilidad de administración y supervisión disponible en Azure Portal que se puede usar para administrar diferentes tipos de trabajos, como:
Antes de ir a los siguientes ejemplos, instale y pruebe Herramientas de Data Lake para Visual Studio.
Visual Studio y el SDK de .NET
Puede usar Visual Studio con el SDK de .NET para administrar clústeres y desarrollar aplicaciones de macrodatos. Puede usar otros IDE para las siguientes tareas, pero los ejemplos se muestran en Visual Studio.
Ejemplos de tareas que puede realizar con el SDK de .NET en Visual Studio:
- SDK de Azure HDInsight para .NET.
- Ejecución de consultas de Apache Hive mediante .NET SDK.
- Uso de funciones definidas por el usuario de C# con el streaming de Apache Hive y Apache Pig en Apache Hadoop.
Intellij IDEA y Eclipse IDE para clústeres de Spark
Tanto Intellij IDEA como Eclipse IDE sirven para:
- Desarrollar y enviar una aplicación Spark en Scala en un clúster de Spark en HDInsight.
- Acceder a recursos de clúster de Spark.
- Desarrollar y ejecutar localmente una aplicación Spark en Scala.
En estos artículos se muestra cómo hacerlo:
- Intellij IDEA: Creación de aplicaciones Apache Spark mediante el complemento Kit de herramientas de Azure para Intellij y el SDK de Scala.
- IDE de Eclipse o IDE de Scala para Eclipse: Creación de aplicaciones Apache Spark y Azure Toolkit for Eclipse
Notebooks en Spark para científicos de datos
Los clústeres de Apache Spark en HDInsight incluyen cuadernos y kernels de Apache Zeppelin que se pueden usar con cuadernos de Jupyter Notebook.
- Aprenda a usar kernels en clústeres de Apache Spark con cuadernos de Jupyter Notebook para probar aplicaciones Spark
- Aprenda a usar cuadernos de Apache Zeppelin en clústeres de Azure Spark para ejecutar trabajos de Spark
Ejecución en Windows de tecnologías y herramientas basadas en Linux
Si se produce una situación en que debe usar una herramienta o tecnología que solo está disponible en Linux, tenga en cuenta las siguientes opciones:
- Bash en Ubuntu en Windows 10 proporciona un subsistema de Linux en Windows. Bash permite ejecutar utilidades de Linux directamente sin tener que mantener una instalación de Linux dedicada. Consulte la Guía de instalación del subsistema de Windows para Linux para Windows 10 para conocer los pasos de instalación. Otros shells de Unix también funcionarán.
- Docker para Windows proporciona acceso a muchas herramientas basadas en Linux y se puede ejecutar directamente desde Windows. Por ejemplo, puede usar Docker para ejecutar al cliente Beeline para Hive directamente desde Windows. También puede usar Docker para ejecutar un cuaderno de Jupyter Notebook local y conectarse de forma remota con Spark en HDInsight. Introducción a Docker para Windows
- MobaXTerm permite examinar gráficamente el sistema de archivos del clúster a través de una conexión SSH.
Herramientas multiplataforma
La interfaz de la línea de comandos (CLI) de Azure es la experiencia de línea de comandos multiplataforma de Microsoft para administrar los recursos de Azure. Para obtener más información, consulte Interfaz de la línea de comandos (CLI) de Azure.
Pasos siguientes
Si no ha trabajado antes en clústeres basados en Linux, consulte los artículos siguientes: