Ejercicio: Uso de la actividad de copia de Data Factory

Completado

Una vez completada la creación de la instancia de Data Factory, puede ir al recurso y empezar a crear las canalizaciones de datos; para ello, haga clic en el botón Crear y supervisar. Se abrirá la pantalla siguiente:

Authoring in Azure Data Factory

El primer paso de la canalización es la creación de una actividad de copia que copia los datos entre el origen y el destino mediante los pasos siguientes.

  1. Para abrir el lienzo de creación, haga clic en el icono del lápiz de la barra lateral izquierda o en el botón Crear canalización.

    Screenshot that shows the Create pipeline option highlighted.

  2. Cree la canalización. Haga clic en el botón + del panel de recursos de fábrica y seleccione Canalización.

    Screenshot that shows Factory Resources under the Data Factory tab. The plus symbol is selected, exposing Pipeline, both are highlighted.

  3. Agregue una actividad de copia. En el panel Actividades, abra el acordeón Mover y transformar y arrastre la actividad Copiar datos al lienzo de la canalización.

    Using the Copy Activity

Una vez agregada la actividad de copia, puede empezar a definir los datos de origen.

  1. En la pestaña Origen de la configuración de la actividad de copia, haga clic en + Nuevo para seleccionar un origen de datos.

    Creating as data source

  2. Por ejemplo, en la lista de almacenes de datos, seleccione el icono Amazon S3 y haga clic en Continuar.

    Select Amazon S3 as a data source

  3. En la lista de formatos de archivo, seleccione el icono del formato DelimitedText y haga clic en Continuar.

    Screenshot that shows Delimited Text selected in the Select format list.

  4. En la ventana Establecer propiedades, asigne un nombre comprensible al conjunto de datos y haga clic en la lista desplegable de servicios vinculados. Si no ha creado el servicio vinculado S3, seleccione Nuevo.

    Screenshot that shows the Set Properties window, with filter highlighted under Linked service.

  5. En el panel de configuración del servicio vinculado S3, especifique la clave de acceso y la clave secreta de S3. El servicio Data Factory cifra las credenciales con certificados administrados por Microsoft. Para obtener más información, consulte Consideraciones de seguridad sobre el movimiento de datos. Para comprobar que las credenciales son válidas, haga clic en Probar conexión. Cuando haya terminado, haga clic en Create (Crear).

    Setting data source access with keys

  6. Una vez que haya creado y seleccionado el servicio vinculado, especifique el resto de la configuración del conjunto de datos. Estas opciones especifican cómo y en qué punto de la conexión quiere extraer los datos. Haga clic en Finalizar cuando haya terminado.

    Finishing up data source settings

  7. Para comprobar que el conjunto de datos se ha configurado correctamente, haga clic en Vista previa de los datos en la pestaña Origen de la actividad de copia para obtener una pequeña instantánea de los datos.

    Previewing data

Una vez que ha definido el origen de datos, ya puede definir el receptor en el que se cargarán los datos. En este ejemplo, se definirá el receptor Azure Data Lake Storage Gen2 mediante los pasos siguientes:

  1. En la pestaña Receptor, haga clic en +Nuevo.

    Defining a data sink in the Copy Activity

  2. Seleccione el icono Azure Data Lake Storage Gen2 y haga clic en Continuar.

    Defining the dataset

  3. En la navegación lateral Establecer propiedades, asigne un nombre comprensible al conjunto de datos y haga clic en la lista desplegable de servicios vinculados. Si no ha creado el servicio vinculado ADLS, seleccione Nuevo.

    Setting the dataset properties

  4. En el panel de configuración del servicio vinculado ADLS, seleccione el método de autenticación y escriba sus credenciales. En el ejemplo siguiente, se ha proporcionado una clave de cuenta y se ha seleccionado mi cuenta de almacenamiento en la lista desplegable.

    Finalizing the dataset properties

  5. Una vez configurado el servicio vinculado, especifique la configuración del conjunto de datos de ADLS. Haga clic en Finalizar cuando haya terminado.

    Finish the dataset properties

En este momento, ha configurado totalmente la actividad de copia.

  1. Para probarla, haga clic en el botón Depurar situado en la parte superior del lienzo de la canalización. Se iniciará una ejecución de depuración de la canalización.

    Testing the Copy Activity

  2. Para supervisar el progreso de una ejecución de depuración de la canalización, haga clic en la pestaña Salida de la canalización.

    Monitoring the Copy Activity

  3. Para ver una descripción más detallada de la salida de la actividad, haga clic en el icono de los anteojos. Se abrirá la pantalla de supervisión de copia, que proporciona métricas útiles como los datos leídos/escritos, el rendimiento y las estadísticas de duración detalladas.

    Viewing the Copy Activity Results

Para comprobar que la copia se ha realizado como se esperaba, abra la cuenta de almacenamiento de ADLS Gen2 y compruebe que el archivo se ha escrito como se esperaba.