Compartir vía


Configuración de un laboratorio para el análisis de macrodatos en Azure Lab Services mediante la implementación de Docker de HortonWorks Data Platform

Importante

Azure Lab Services se retirará el 28 de junio de 2027. Para más información, consulte la guía de retirada.

Nota:

En este artículo se hace referencia a las características disponibles en planes de laboratorio, que reemplazaron las cuentas de laboratorio.

En este artículo se muestra cómo configurar un laboratorio para enseñar una clase de análisis de macrodatos. Una clase de análisis de macrodatos enseña a los usuarios a controlar grandes volúmenes de datos. También les enseña a aplicar algoritmos de aprendizaje automático y estadístico para derivar información de datos. Un objetivo clave es aprender a usar herramientas de análisis de datos, como paquete de software de código abierto de Apache Hadoop. El paquete de software proporciona herramientas para almacenar, administrar y procesar macrodatos.

En este laboratorio, los usuarios del laboratorio trabajan con una versión comercial popular de Hadoop proporcionada por Cloudera, denominada Hortonworks Data Platform (HDP). En concreto, los alumnos usarán HDP Sandbox 3.0.1, que es una versión simplificada y fácil de usar de la plataforma. HDP Sandbox 3.0.1 también es gratuito y está pensado para aprender y experimentar. Aunque esta clase puede usar máquinas virtuales (VM) Windows o Linux con una instancia de HDP Sandbox implementada, En este artículo se muestra cómo usar Windows.

Otro aspecto interesante es que se implementa el espacio aislado de HDP en las máquinas virtuales del laboratorio mediante contenedores de Docker. Cada contenedor de Docker proporciona su propio entorno aislado para que las aplicaciones de software se ejecuten en él. Conceptualmente, los contenedores de Docker son como VM anidadas, y se pueden usar para implementar y ejecutar fácilmente una amplia variedad de aplicaciones de software basadas en las imágenes de contenedor que se proporcionan en Docker Hub. El script de implementación de Cloudera para HDP Sandbox extrae automáticamente la imagen de Docker de HDP Sandbox 3.0.1 de Docker Hub y ejecuta dos contenedores de Docker:

  • sandbox-hdp
  • sandbox-proxy

Requisitos previos

Para configurar este laboratorio, necesita acceso a una suscripción a Azure. Hable con el administrador de su organización para ver si puede obtener acceso a una suscripción de Azure existente. Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.

Configuración del laboratorio

Configuración del plan de laboratorio

Después de tener una suscripción de Azure, puede crear un plan de laboratorio en Azure Lab Services. Para obtener más información sobre cómo crear un nuevo plan de laboratorio, consulte Inicio rápido: configuración de recursos para crear laboratorios. También puede usar un plan de laboratorio existente.

Este laboratorio usa imágenes de Azure Marketplace de Windows 10 Pro como imagen de máquina virtual base. Primero debe habilitar esta imagen en el plan de laboratorio. Esto permite a los creadores de laboratorio seleccionar la imagen como una imagen base para su laboratorio.

Siga estos pasos para habilitar estas imágenes de Azure Marketplace disponibles para creadores de laboratorio. Seleccione una de las imágenes de Windows 10 de Azure Marketplace.

Configuración del laboratorio

Crear un laboratorio para el plan de laboratorio. Para ver instrucciones sobre cómo crear un laboratorio, vea Tutorial: configuración de un laboratorio. Use la configuración siguiente al crear el laboratorio.

Configuración del laboratorio Valor/instrucciones
Tamaño de máquina virtual Mediano (virtualización anidada). Este tamaño de VM es el más adecuado para bases de datos relacionales, análisis y almacenamiento en caché en memoria. El tamaño admite la virtualización anidada.
Imagen de máquina virtual Windows 10 Pro

Nota:

Use el tamaño de máquina virtual mediano (virtualización anidada) porque el espacio aislado de HDP mediante Docker requiere Windows Hyper-V con virtualización anidada y al menos 10 GB de RAM.

Configuración de la máquina de plantilla

Para configurar la máquina de plantilla:

  1. Instalación de Docker
  2. Implementación de HDP Sandbox
  3. Uso de PowerShell y el Programador de tareas de Windows para iniciar automáticamente los contenedores de Docker

Instalación de Docker

Los pasos de esta sección se basan en las instrucciones de Cloudera para la implementación con contenedores de Docker.

Para usar contenedores de Docker, primero debe instalar Docker Desktop en la VM de plantilla:

  1. Siga los pasos descritos en la sección de requisitos previos para instalar Docker para Windows.

    Importante

    Asegúrese de que la opción de configuración Use Windows containers instead of Linux containers se deje desactivada.

  2. Asegúrese de que las características Contenedores de Windows y Hyper-V estén activadas.

    Activar o desactivar características de Windows.

  3. Siga los pasos de la sección Memory for Windows para configurar la memoria de Docker.

    Advertencia

    Si por accidente activa la opción Use Windows containers instead of Linux containers al instalar Docker, no verá las opciones de configuración de memoria. Para solucionar esto, puede cambiar al uso de contenedores de Linux haciendo clic en el icono de Docker en la bandeja del sistema de Windows; cuando se abra el menú de Docker Desktop, seleccione Switch to Linux containers.

Implementación de HDP Sandbox

A continuación, implemente el espacio aislado de HDP y, a continuación, acceda al espacio aislado de HDP mediante el explorador.

  1. Asegúrese de haber instalado Git Bash como se muestra en la sección de requisitos previos de la guía, ya que se recomienda para completar los pasos siguientes.

  2. Siguiendo la guía de implementación e instalación para Docker de Cloudera, complete los pasos de las secciones siguientes:

    • Implementación de HDP Sandbox
    • Verificación de HDP Sandbox

    Advertencia

    Cuando descargue el archivo .zip más reciente para HDP, asegúrese de no guardar el archivo .zip en una ruta de acceso del directorio que incluya espacios en blanco.

    Nota:

    Si recibe una excepción durante la implementación que indica Drive has not been shared, debe compartir la unidad C con Docker para que los contenedores de Linux de HDP puedan acceder a los archivos locales de Windows. Para solucionarlo, haga clic en el icono de Docker en la bandeja del sistema de Windows para abrir el menú de Docker Desktop y seleccione Settings. Cuando se abra el cuadro de diálogo Configuración de Docker, seleccione Recursos > Uso compartido de archivos y marque la unidad C. A continuación, puede repetir los pasos para implementar HDP Sandbox.

  3. Cuando los contenedores Docker para HDP Sandbox estén implementados y funcionando, puede acceder al entorno iniciando el navegador. Siga las instrucciones de Cloudera para abrir la página de bienvenida de Sandbox e iniciar el panel HDP.

    Nota:

    En estas instrucciones se da por hecho que primero ha asignado la dirección IP local del entorno de espacio aislado a sandbox-hdp.hortonworks.com en el archivo de host en la VM de la plantilla. Si no hace esta asignación, puede acceder a la página principal de Sandbox yendo a http://localhost:8080.

Iniciar automáticamente contenedores de Docker cuando los usuarios del laboratorio inician sesión

Para proporcionar una experiencia fácil de usar para los usuarios del laboratorio, cree un script de PowerShell que:

  1. Inicie los contenedores de Docker de espacio aislado de HDP cuando un usuario de laboratorio inicia y se conecta a su máquina virtual de laboratorio.
  2. Inicie el explorador y navegue a la página principal de Sandbox.

Use el Programador de tareas de Windows para ejecutar automáticamente este script cuando un usuario de laboratorio inicia sesión en su máquina virtual. Para configurar un Programador de tareas, siga estos pasos: Scripting de análisis de macrodatos.

Conclusión

En este artículo se explican los pasos necesarios para crear un laboratorio para una clase de análisis de macrodatos, que usa Hortonworks Data Platform implementado con Docker. La configuración de este tipo de clase se puede usar para clases similares de análisis de datos. Esta configuración también puede aplicarse a otros tipos de clases que usen Docker para la implementación.

Pasos siguientes

Ahora se puede publicar la imagen de plantilla en el laboratorio. Para obtener más información, vea Publicación de la máquina virtual de plantilla.

Cuando configure el laboratorio, consulte los siguientes artículos: