Carga de datos en Azure Data Lake Storage Gen2 con Azure Data Factory

Artículo
05/15/2024

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

‎Azure Data Lake Storage Gen2 es un conjunto de funcionalidades dedicadas al análisis de macrodatos basado en Azure Blob Storage. Permite establecer una conexión con los datos usando tanto el sistema de archivos como el almacenamiento de objetos.

Azure Data Factory (ADF) es un servicio de integración de datos en la nube totalmente administrado. Puede utilizar el servicio para rellenar el lago con datos de un amplio conjunto de almacenes de datos locales y basados en la nube y ahorrar tiempo al crear las soluciones de análisis. Para una lista detallada de conectores admitidos, consulte la tabla de Almacenes de datos admitidos.

Azure Data Factory ofrece una solución de movimiento de datos administrados y de escalabilidad horizontal. Debido a la arquitectura con escalabilidad horizontal de ADF, puede ingerir datos con un alto rendimiento. Para más información, consulte el rendimiento de la actividad de copia.

En este artículo se muestra cómo utilizar la herramienta Copiar datos de Data Factory para cargar datos del servicio Amazon Web Services S3 en Azure Data Lake Storage Gen2. Puede seguir los mismos pasos para copiar datos de otros tipos de almacenes de datos.

Sugerencia

Para copiar datos desde Azure Data Lake Storage Gen1 en Gen2, consulte en este tutorial específico.

Requisitos previos

Suscripción de Azure: Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.
Cuenta de Azure Storage con Data Lake Storage Gen2 habilitado: Si no tiene una cuenta de Storage, debe crear una.
Cuenta de AWS con un cubo de S3 que contiene datos: En este artículo se muestra cómo copiar datos de Amazon S3. Puede usar otros almacenes de datos siguiendo los mismos pasos.

Crear una factoría de datos

Si aún no ha creado la factoría de datos, siga los pasos descritos en Inicio rápido: Creación de una factoría de datos mediante Azure Portal y Azure Data Factory Studio para crear una. Después de crearla, vaya a la factoría de datos en Azure Portal.
Seleccione Open (Abrir) en el icono Open Azure Data Factory Studio (Abrir Azure Data Factory Studio) para iniciar la aplicación de integración de datos en una pestaña independiente.

Carga de datos en Azure Data Lake Storage Gen2

En la página principal de Azure Data Factory, seleccione el icono Ingerir para iniciar la herramienta Copiar datos.
En la página Propiedades, elija Built-in copy task (Tarea de copia integrada) en Tipo de tarea y elija Run once now (Ejecutar una vez ahora) en Task cadence or task schedule (Cadencia de tareas o programación de tareas). A continuación, seleccione Siguiente.
En la página Almacén de datos de origen, realice los pasos siguientes:
1. Seleccione + Nueva conexión. Seleccione Amazon S3 en la galería de conectores y seleccione Continue (Continuar).
2. En la página New connection (Amazon S3) (Nueva conexión [Amazon S3]), haga lo siguiente:
  1. Especifique el valor de Access Key ID (Identificador de clave de acceso).
  2. Especifique el valor de Secret Access Key (Clave de acceso secreta).
  3. Seleccione Probar conexión para validar la configuración y, después, seleccione Crear.
3. En la página Source data store (Almacén de datos de origen), asegúrese de que la conexión de Amazon S3 recién creada está seleccionada en el bloque Conexión.
4. En la sección Archivo o carpeta, vaya a la carpeta y el archivo que quiera copiar. Seleccione la carpeta o el archivo, y, después, seleccione OK (Aceptar).
5. Elija el comportamiento de copia; para ello, seleccione las opciones Recursively (Recursivamente) y Binary copy (Copia binaria). Seleccione Next (Siguiente).
En la página Destination data store (Almacén de datos de destino), haga lo siguiente:
1. En la página + New connection (+ Nueva conexión), seleccione Azure Data Lake Storage Gen2 y, luego, Continuar.
2. En la página New connection (Azure Data Lake Storage Gen2) (Nueva conexión [Azure Data Lake Storage Gen2]), seleccione la cuenta con capacidad para Data Lake Storage Gen2 de la lista desplegable Storage account name (Nombre de la cuenta de almacenamiento) y seleccione Crear para crear la conexión.
3. En la página Destination data store (Almacén de datos de destino), seleccione la conexión recién creada en el bloque Conexión. Luego, en Ruta de la carpeta, escriba copyfroms3 como nombre de la carpeta de salida y seleccione Siguiente. ADF creará el sistema de archivos y subcarpetas correspondientes de ADLS Gen2 durante la copia, si no existen.
En la página Configuración, especifique CopyFromAmazonS3ToADLS en el campo Nombre de la tarea y seleccione Siguiente para usar la configuración predeterminada.
En la página Resumen, revise la configuración y seleccione Siguiente.
En la página Deployment (Implementación), seleccione Monitor (Supervisión) para supervisar la canalización (tarea).
Cuando la ejecución de la canalización se complete correctamente, verá una ejecución de canalización que se desencadena mediante un desencadenador manual. Puede usar los vínculos de la columna Nombre de la canalización para ver los detalles de la actividad y volver a ejecutar la canalización.
Para ver las ejecuciones de actividad asociadas a la ejecución de la canalización, seleccione el vínculo CopyFromAmazonS3ToADLS en la columna Nombre de canalización. Para más información sobre la operación de copia, seleccione el vínculo Details (Detalles) (icono de gafas) en la columna Activity name (Nombre de actividad). Puede supervisar detalles como el volumen de datos copiados desde el origen al receptor, el rendimiento de los datos, los pasos de ejecución con su duración correspondiente y las configuraciones que se utilizan.
Para actualizar la vista, seleccione Refresh (Actualizar). Para volver a la vista de ejecuciones de canalización, seleccione Todas las ejecuciones de la canalización arriba.
Verifique que los datos se copian en la cuenta de Data Lake Storage Gen2.