Compartir a través de


Captura de datos modificados de Azure Data Lake Storage Gen2 a Azure SQL Database mediante un recurso de captura de datos modificados

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

En este artículo, usará la interfaz de usuario de Azure Data Factory para crear un recurso de captura de datos modificados (CDC). El recurso recoge los datos modificados de un origen de Azure Data Lake Storage Gen2 y los agrega a Azure SQL Database en tiempo real.

En este artículo aprenderá a:

  • Cree un recurso de CDC.
  • Supervise la actividad de CDC.

Puede modificar y expandir el patrón de configuración de este artículo.

Requisitos previos

Antes de iniciar los procedimientos de este artículo, asegúrese de que dispone de estos recursos:

  • Suscripción de Azure. Si no tiene una suscripción a Azure, cree una cuenta de Azure gratuita.
  • Base de datos SQL. Use Azure SQL Database como almacén de datos de origen. Si no tiene una base de datos SQL, cree una en Azure Portal.
  • Cuenta de almacenamiento. Se utiliza Delta Lake almacenado en Azure Data Lake Storage Gen2 como almacén de datos de destino. Si no tiene una cuenta de almacenamiento, consulte Crear una cuenta de almacenamiento para ver los pasos para su creación.

Creación de un artefacto de CDC

  1. Vaya al panel Creador de la factoría de datos. En Canalizaciones, aparece un nuevo artefacto de nivel superior denominado Captura de datos modificados (versión preliminar).

    Captura de pantalla de un nuevo artefacto de nivel superior para la captura de datos modificados en el panel Recursos de la factoría.

  2. Mantenga el puntero sobre Captura de datos modificados (versión preliminar) hasta que aparezcan tres puntos. A continuación, seleccione Acciones de captura de datos modificados (versión preliminar).

    Captura de pantalla del botón para las acciones de captura de datos modificados sobre el nuevo artefacto de nivel superior.

  3. Seleccione Nuevo CDC (versión preliminar). Este paso abre un control flotante para comenzar el proceso guiado.

    Captura de pantalla de una lista de las acciones de captura de datos modificados.

  4. Se le pide que asigne un nombre al recurso de CDC. De manera predeterminada, el nombre es "adfcdc" con un número que aumenta en 1. Puede reemplazar este nombre predeterminado por un nombre que elija.

    Captura de pantalla del cuadro de texto para actualizar el nombre de un recurso.

  5. Use la lista desplegable para elegir el origen de datos. Para este artículo, seleccione DelimitedText.

    Captura de pantalla del control flotante del proceso guiado con las opciones de origen en una lista desplegable.

  6. Se le pide que seleccione un servicio vinculado. Cree un nuevo servicio vinculado o seleccione uno existente.

    Captura de pantalla del cuadro para elegir o crear un servicio vinculado.

  7. Use el área Configuración de origen para establecer de manera opcional configuraciones avanzadas de origen, incluidos los delimitadores de columna y fila.

    Captura de pantalla de la configuración avanzada del origen para establecer delimitadores.

    Si no edita manualmente esta configuración de origen, se establece en los valores predeterminados.

  8. Use el botón Examinar para seleccionar la carpeta de los datos de origen.

    Captura de pantalla de un icono de carpeta para buscar una ruta de acceso de carpeta.

  9. Una vez que haya seleccionado una ruta de acceso de carpeta, seleccione Continuar para establecer el destino de los datos.

    Captura de pantalla del botón Continuar del proceso guiado para seleccionar destinos de datos.

    Puede optar por agregar varias carpetas de origen con el botón más (+). Los demás orígenes también deben usar el mismo servicio vinculado que ya ha seleccionado.

  10. Seleccione un valor de Tipo de destino mediante la lista desplegable. En este artículo, seleccione Azure SQL Database.

    Captura de pantalla de un menú desplegable de todos los tipos de destino de datos.

  11. Se le pide que seleccione un servicio vinculado. Cree un nuevo servicio vinculado o seleccione uno existente.

    Captura de pantalla del cuadro para elegir o crear un servicio vinculado en el destino de datos.

  12. Para las Tablas de destino, puede crear una nueva tabla de destino o seleccionar una existente:

    • Para crear una tabla de destino, seleccione la pestaña Nuevas entidades y, a continuación, seleccione Editar nuevas tablas.

      Captura de pantalla de la pestaña para crear nuevas tablas para el destino.

    • Para seleccionar una tabla existente, seleccione la pestaña Entidades existentes y, a continuación, use la casilla para elegir una tabla. Use el botón Vista previa para ver los datos de la tabla.

      Captura de pantalla de la pestaña para elegir tablas para el destino.

    Si las tablas existentes en el destino tienen nombres coincidentes, se seleccionan de manera predeterminada en Entidades existentes. Si no es así, se crean nuevas tablas con nombres coincidentes en Nuevas entidades. Además, puede editar nuevas tablas con el botón Editar nuevas tablas.

  13. Puede usar las casillas para elegir varias tablas de destino de la base de datos SQL. Cuando termine de elegir las tablas de destino, seleccione Continuar.

    Captura de pantalla del botón Continuar del proceso guiado para continuar con el siguiente paso.

  14. Aparece una nueva pestaña para capturar datos modificados. Esta pestaña es el estudio CDC, donde puede configurar su nuevo recurso.

    Captura de pantalla del estudio de captura de datos modificados.

    Se creará automáticamente una nueva asignación. Puede actualizar las selecciones de Origen de tabla y Destino de tabla de la asignación mediante las listas desplegables.

    Captura de pantalla de la asignación de origen a destino en el estudio de captura de datos modificados.

  15. Después de seleccionar las tablas, sus columnas se asignan de manera predeterminada con el botón de alternancia Asignación automática activado. La Asignación automática asigna automáticamente las columnas por nombre en el receptor, recoge los nuevos cambios de columna cuando el esquema de origen evoluciona y traslada esta información a los tipos de receptor admitidos.

    Si desea usar la Asignación automática y no cambiar ninguna asignación de columnas, vaya directamente al paso 18.

    Captura de pantalla del botón de alternancia activado para la asignación automática.

    Si desea habilitar las asignaciones de columnas, seleccione las asignaciones y desactive el botón de alternancia Asignación automática. A continuación, seleccione el botón Asignaciones de columnas para ver las asignaciones.

    Captura de pantalla de la selección de asignaciones, el botón de asignación automática desactivado y el botón para la asignación de columnas.

    Puede volver a la asignación automática en cualquier momento activando el botón de alternancia Asignación automática.

  16. Vea las asignaciones de columnas. Use las listas desplegables para editar las asignaciones de columnas para el Método de asignación, la Columna de origen y la Columna de destino.

    Captura de pantalla de la página para editar las asignaciones de columna.

    Desde esta página, puedes:

    • Agregue más asignaciones de columnas mediante el botón Nueva asignación. Use las listas desplegables para hacer elecciones para el Método de asignación, la Columna de origen y la Columna de destino.
    • Seleccione la columna Claves si desea realizar un seguimiento de la operación de eliminación para los tipos de receptor admitidos.
    • Seleccione el botón Actualizar en Vista previa de datos para visualizar cómo se ven los datos en el destino.

    Captura de pantalla del botón para agregar asignaciones de columna, la lista desplegable para los métodos de asignación, la columna Claves y el botón Actualizar.

  17. Una vez completada la asignación, seleccione el botón de flecha para volver al lienzo principal de CDC.

    Captura de pantalla del botón para volver a la página de asignación de tablas.

  18. Puede agregar asignaciones de origen a destino en un artefacto de CDC. Use el botón Editar para añadir más orígenes y destinos de datos. A continuación, seleccione Nueva asignación y use las listas desplegables para establecer un nuevo origen y un nuevo destino. Puede activar o desactivar la Asignación automática para cada una de estas asignaciones de forma independiente.

    Captura de pantalla del botón para agregar nuevos orígenes y el botón para establecer una nueva asignación de origen a destino.

  19. Una vez completadas las asignaciones, establezca la latencia de CDC mediante el botón Establecer latencia.

    Captura de pantalla del botón Establecer latencia en la parte superior del lienzo.

  20. Seleccione la latencia del CDC y seleccione Aplicar para realizar los cambios.

    De manera predeterminada, la latencia se establece en 15 minutos. En el ejemplo de este artículo se usa la opción En tiempo real para la latencia. La latencia en tiempo real continuamente recopila los cambios en los datos de origen en intervalos de menos de 1 minuto.

    Para otras latencias (por ejemplo, se selecciona 15 minutos), la captura de datos modificados procesará los datos de origen y recogerá los datos que se hayan modificado desde la hora del último procesamiento.

    Captura de pantalla de las opciones para establecer la latencia.

    Nota:

    Si la compatibilidad se extiende al streaming de la integración de datos (orígenes de datos de Azure Event Hubs y Kafka), la latencia se establecerá en Tiempo real de manera predeterminada.

  21. Después de finalizar la configuración de CDC, seleccione Publicar todo para publicar los cambios.

    Captura de pantalla del botón Publicar en la parte superior del lienzo.

    Nota:

    Si no publica los cambios, no podrá iniciar el recurso de CDC. El botón Iniciar del paso siguiente no estará disponible.

  22. Seleccione Iniciar para empezar a ejecutar la captura de datos modificados.

    Captura de pantalla del botón Iniciar en la parte superior del lienzo.

Supervisión de la captura de datos modificados

  1. Abra el panel Supervisar mediante cualquiera de estos métodos:

    • Seleccione Supervisar en Azure Portal.

      Captura de pantalla del botón Supervisar en Azure Portal.

    • Seleccione el icono de supervisión en el diseñador de CDC.

      Captura de pantalla del icono de supervisión en la parte superior del lienzo de CDC.

  2. Seleccione Captura de datos modificados (versión preliminar) para ver los recursos de CDC.

    Captura de pantalla del botón Captura de datos modificados.

    El panel Captura de datos modificados muestra la información de Origen, Destino, Estado y Último procesamiento para la captura de datos modificados.

    Captura de pantalla de información general de la página de supervisión de la captura de datos modificados.

  3. Seleccione el nombre de la CDC para ver más detalles. Puede ver cuántos cambios (inserción, actualización o eliminación) se leyeron y escribieron, junto con otra información de diagnóstico.

    Captura de pantalla de la supervisión detallada de una captura de datos modificados seleccionada.

    Si configura varias asignaciones en la captura de datos modificados, cada asignación aparece en un color diferente. Seleccione la barra para ver los detalles específicos de cada asignación o use la información de diagnóstico en la parte inferior de la pantalla.

    Captura de pantalla de la información de supervisión detallada de una captura de datos modificados con varias asignaciones de origen a destino.

    Captura de pantalla de un desglose detallado de cada asignación en el artefacto de captura de datos modificados.