Ejercicio: Uso de las transformaciones de proceso en Azure Data Factory

Completado

En algunos casos, puede que la transformación sin código a escala no cumpla sus requisitos. Puede usar Azure Data Factory para ingerir datos sin procesar recopilados de orígenes diferentes y trabajar con una variedad de recursos de procesos como Azure Databricks, Azure HDInsight u otros recursos de procesos para reestructurarlos según sus requisitos.

ADF y Azure Databricks

Por ejemplo, la integración de Azure Databricks con ADF permite agregar cuadernos de Databricks en una canalización de ADF para aprovechar las capacidades de análisis y de transformación de datos de Databricks. Puede agregar un cuaderno en el flujo de trabajo de datos para estructurar y transformar los datos sin procesar cargados a ADF desde orígenes diferentes. Cuando los datos se hayan transformado con Databricks, podrá cargarlos en cualquier origen de almacenamiento de datos.

La ingesta y la transformación de datos mediante las funcionalidades colectivas de ADF y Azure Databricks implica básicamente los pasos siguientes:

  1. Crear una cuenta de almacenamiento de Azure: el primer paso es crear una cuenta de almacenamiento de Azure para almacenar los datos ingeridos y transformados.

  2. Crear una instancia de Azure Data Factory: cuando haya configurado su cuenta de almacenamiento, tendrá que crear la instancia de Azure Data Factory mediante Azure Portal.

  3. Crear la canalización del flujo de trabajo de los datos: cuando el almacenamiento y ADF estén listos y en funcionamiento, empiece a crear una canalización en la que el primer paso sea copiar los datos del origen usando la actividad de copia de ADF. La actividad de copia le permite copiar datos de diferentes orígenes locales y en la nube.

  4. Agregar el cuaderno de Databricks a la canalización: cuando haya copiado los datos a ADF, deberá agregar el cuaderno de Databricks a la canalización después de la actividad de copia. Este cuaderno puede contener sintaxis y código para transformar y limpiar datos sin procesar según sea necesario.

  5. Analizar los datos: ahora que los datos están limpios y estructurados en el formato deseado, puede usar cuadernos de Databricks para entrenarlos o analizarlos más a fondo con la finalidad de obtener los resultados necesarios.

Ha aprendido qué es Azure Data Factory y cómo puede sacar partido de su integración con Azure Databricks para cargar y transformar sus datos. Ahora se creará un flujo de trabajo de datos de ejemplo de un extremo a otro.

Integración de los cuadernos de Azure Databricks con la canalización de Azure Data Factory

Para integrar los cuadernos de Azure Databricks con la canalización de Azure Data Factory, deben realizarse varias tareas, como se describe a continuación:

  1. Generar un token de acceso de Databricks.

  2. Generar un cuaderno de Databricks.

  3. Crear servicios vinculados.

  4. Crear una canalización que utilice la actividad de cuaderno de Databricks.

  5. Desencadenar una ejecución de canalización.

    Nota:

    En los pasos siguientes se supone que ya hay un clúster Azure Databricks ya aprovisionado.

Tarea 1: generación de un token de acceso de Databricks

  1. En Azure Portal, haga clic en Grupos de recursos, haga clic en awrgstudxx y, a continuación, haga clic en awdbwsstudxx, donde xx son las iniciales de su nombre.

  2. Haga clic en Iniciar área de trabajo.

  3. Haga clic en la Configuración del usuario en la esquina inferior izquierda del área de trabajo de Databricks.

  4. Haga clic en Configuración de usuario.

  5. Vaya a la pestaña Tokens de acceso y haga clic en el botón Generar nuevo token.

  6. Escriba una descripción en el comentario "Para la integración con ADF", establezca el período de duración de 10 días y haga clic en Generar.

  7. Copie el token generado, almacénelo en el Bloc de notas y haga clic en Listo.

Tarea 2: generación de un cuaderno de Databricks

  1. En la parte izquierda de la pantalla, haga clic en el icono Área de trabajo y en la flecha situada junto al término Área de trabajo; a continuación, en Crear y, por último, en Carpeta. Asigne a la carpeta el nombre adftutorial y haga clic en Crear carpeta. La carpeta adftutorial aparece en el área de trabajo.

  2. Haga clic en la flecha desplegable situada junto a adftutorial y, después, en Crear y en Cuaderno.

  3. En el cuadro de diálogo Crear cuaderno, escriba el nombre mynotebook, asegúrese de que el lenguaje indica Python y, a continuación, haga clic en Crear. Aparece el cuaderno con el título mynotebook/.

  4. En el cuaderno "mynotebook" recién creado, agregue el código siguiente:

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    Nota:

    que la ruta de acceso del cuaderno es /adftutorial/mynotebook.

Tarea 3: creación de los servicios vinculados

  1. En Microsoft Edge, haga clic en la pestaña del portal en Azure Portal, vuelva a Azure Data Factory y haga clic en Abrir Azure Data Factory Studio.

  2. En el lado izquierdo de la pantalla, haga clic en el icono Administrar.

  3. En Conexiones, haga clic en Servicios vinculados.

  4. En el Servicio vinculado, en la parte superior de la pantalla, haga clic en + Nuevo.

  5. Haga clic en la pestaña Compute, Azure Databricks y Continuar.

  6. En la pantalla Nuevo servicio vinculado (Azure Databricks), rellene los detalles siguientes y haga clic en Finalizar.

    • Nombre: xx_dbls, donde xx son sus iniciales
    • Área de trabajo de Databricks: awdbwsstudxx, donde xx son sus iniciales
    • Seleccionar clúster: usar el existente
    • Dominio/región: debería propagarse
    • Token de acceso: copie el token de acceso del Bloc de notas y péguelo en este campo
    • Elegir de un clúster existente: awdbclstudxx, donde xx son sus iniciales
    • Deje las demás opciones con los valores predeterminados.

    Nota:

    Al hacer clic en finalizar, regresará a la pantalla Crear y supervisar, donde se ha creado xx_dbls, con los demás servicios vinculados creados en el ejercicio anterior.

Tarea 4: creación de una canalización que usa la actividad de cuaderno de Databricks

  1. En el lado izquierdo de la pantalla, haga clic en el icono Autor y, a continuación, haga clic en Canalización. Se abrirá una pestaña con un diseñador de canalizaciones.

  2. En la parte inferior del diseñador de canalizaciones, haga clic en la pestaña Parámetros y, a continuación, haga clic en +Nuevo.

  3. Cree un parámetro con el nombre nombre y el tipo cadena.

  4. En el menú Actividades, expanda Databricks.

  5. Haga clic y arrastre Cuaderno al lienzo.

  6. En las propiedades de la ventana Cuaderno1 de la parte inferior, realice los pasos siguientes:

    • Cambie a la pestaña Azure Databricks.

    • Seleccione xx_dbls, creado en el procedimiento anterior.

    • Cambie a la pestaña Configuración y coloque /adftutorial/mynotebook en Ruta de acceso del cuaderno.

    • Expanda Parámetros de base y haga clic en +Nuevo.

    • Cree un parámetro con el nombre de entrada y un valor de @pipeline().parameters.name.

  7. En Cuaderno1, haga clic en Validar, junto al botón Guardar como plantilla. Aparece una ventana a la derecha de la pantalla que indica "La canalización se ha validado. No se han encontrado errores". Haga clic en para >> cerrar la ventana.

  8. Haga clic en Publicar todo para publicar el servicio vinculado y la canalización.

    Nota:

    Aparecerá un mensaje para indicar que la implementación se ha realizado correctamente.

Tarea 5: desencadenamiento de una ejecución de canalización

  1. En Cuaderno1, haga clic en Agregar desencadenador y después en Desencadenar ahora junto al botón Depurar.

  2. El cuadro de diálogo Pipeline Run (Ejecución de canalización) solicita el parámetro name. Utilice /path/filename como parámetro aquí. Haga clic en Finish. Aparece un círculo rojo encima de la actividad Cuaderno1 en el lienzo.

Tarea 6: supervisión de la canalización

  1. A la izquierda de la pantalla, haga clic en la pestaña Supervisar. Confirme que ve una ejecución de canalización. Se tarda aproximadamente entre 5 y 8 minutos crear un clúster de trabajo de Databricks, donde se ejecuta el cuaderno.

  2. Seleccione Actualizar periódicamente para comprobar el estado de la ejecución de canalización.

  3. Para ver las ejecuciones de actividad asociadas con la ejecución de esta canalización, seleccione View Activity Runs (Ver ejecuciones de actividad) de la columna Actions (Acciones).

Tarea 7: comprobación de la salida

  1. En Microsoft Edge, haga clic en la pestaña mynotebook - Databricks.

  2. En el área de trabajo de Azure Databricks, haga clic en Clústeres, donde puede ver el estado del trabajo como ejecución pendiente, en ejecución o finalizado.

  3. Haga clic en el clúster awdbclstudxx y, a continuación, haga clic en el Registro de eventos para ver las actividades.

    Nota:

    Debería ver un tipo de evento Iniciándose con la hora en que desencadenó la ejecución de canalización.