Compartir vía


Captura de datos modificados con evolución de esquemas desde Azure SQL Database a un sumidero Delta mediante el uso de un recurso de captura de datos modificados

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

En este artículo, usará la interfaz de usuario de Azure Data Factory para crear un recurso de captura de datos modificados (CDC). El recurso recoge los datos modificados de una fuente Azure SQL Database y los agrega a Delta Lake almacenados en Azure Data Lake Storage Gen2, en tiempo real. Esta actividad muestra el apoyo a la evolución de esquemas mediante el uso de un recurso CDC entre la fuente y el receptor.

En este artículo aprenderá a:

  • Cree un recurso de CDC.
  • Realizar cambios dinámicos de esquema en una tabla de origen.
  • Validar los cambios de esquema en el sumidero Delta de destino.

Puede modificar y ampliar el patrón de configuración en este artículo.

Requisitos previos

Antes de iniciar los procedimientos de este artículo, asegúrese de que dispone de estos recursos:

  • Suscripción de Azure. Si no tiene una suscripción a Azure, cree una cuenta de Azure gratuita.
  • Base de datos SQL. Use Azure SQL Database como almacén de datos de origen. Si no tiene una base de datos SQL, cree una en Azure Portal.
  • Cuenta de almacenamiento. Se utiliza Delta Lake almacenado en Azure Data Lake Storage Gen2 como almacén de datos de destino. Si no tiene una cuenta de almacenamiento, consulte Crear una cuenta de almacenamiento para ver los pasos para su creación.

Creación de un artefacto de CDC

  1. Vaya al panel Creador de la factoría de datos. En Canalizaciones, aparece un nuevo artefacto de nivel superior denominado Captura de datos modificados (versión preliminar).

    Captura de pantalla de un nuevo artefacto de nivel superior para la captura de datos modificados en el panel Recursos de la factoría.

  2. Mantenga el puntero sobre Captura de datos modificados (versión preliminar) hasta que aparezcan tres puntos. A continuación, seleccione Acciones de captura de datos modificados (versión preliminar).

    Captura de pantalla del botón para las acciones de captura de datos modificados sobre el nuevo artefacto de nivel superior.

  3. Seleccione Nuevo CDC (versión preliminar). Este paso abre un control flotante para comenzar el proceso guiado.

    Captura de pantalla de una lista de las acciones de captura de datos modificados.

  4. Se le pide que asigne un nombre al recurso de CDC. De manera predeterminada, el nombre es "adfcdc" con un número que aumenta en 1. Puede reemplazar este nombre predeterminado por un nombre que elija.

    Captura de pantalla del cuadro de texto para actualizar el nombre de un recurso.

  5. Use la lista desplegable para elegir el origen de datos. En este artículo, seleccione Azure SQL Database.

    Captura de pantalla del control flotante del proceso guiado con las opciones de origen en una lista desplegable.

  6. Se le pide que seleccione un servicio vinculado. Cree un nuevo servicio vinculado o seleccione uno existente.

    Captura de pantalla del cuadro para elegir o crear un servicio vinculado.

  7. Luego de seleccionar un servicio vinculado, se le pedirá que seleccione las tablas de origen. Utilice las casillas de verificación para seleccionar las tablas de origen, y luego, seleccione el valor de la columna incremental utilizando la lista desplegable.

    Captura de pantalla que muestra la selección de una tabla de origen y una columna incremental.

    El panel solo muestra las tablas que admiten tipos de datos de columnas incrementales.

    Nota:

    Para habilitar CDC con evolución de esquemas en un origen de Azure SQL Database, elija tablas basadas en columnas de filigrana en lugar de tablas habilitadas para CDC nativo de SQL.

  8. Una vez seleccionadas las tablas de origen, seleccione Continuar para establecer el destino de los datos.

    Captura de pantalla del botón Continuar en el proceso guiado para seleccionar un destino de datos.

  9. Seleccione un valor de Tipo de destino mediante la lista desplegable. Para este artículo, seleccione Delta.

    Captura de pantalla de un menú desplegable de todos los tipos de destino de datos.

  10. Se le pide que seleccione un servicio vinculado. Cree un nuevo servicio vinculado o seleccione uno existente.

    Captura de pantalla del cuadro para elegir o crear un servicio vinculado en el destino de datos.

  11. Seleccione la carpeta de datos de destino. Puede usar:

    • El botón Examinar en Ruta base de destino, que le ayuda a rellenar automáticamente la ruta de exploración para todas las nuevas tablas seleccionadas para una fuente.
    • El botón Examinar afuera para seleccionar individualmente la ruta de la carpeta.

    Captura de pantalla de un icono de carpeta para buscar una ruta de acceso de carpeta.

  12. Luego de seleccionar una ruta de carpeta, seleccione el botón Continuar.

    Captura de pantalla del botón Continuar en el proceso guiado para pasar al siguiente paso.

  13. Aparece una nueva pestaña para capturar datos modificados. Esta pestaña es el estudio CDC, donde puede configurar su nuevo recurso.

    Captura de pantalla del estudio de captura de datos modificados.

    Se creará automáticamente una nueva asignación. Puede actualizar las selecciones de Origen de tabla y Destino de tabla de la asignación mediante las listas desplegables.

    Captura de pantalla de la asignación de origen a destino en el estudio de captura de datos modificados.

  14. Después de seleccionar las tablas, sus columnas se asignan de manera predeterminada con el botón de alternancia Asignación automática activado. La Asignación automática asigna automáticamente las columnas por nombre en el receptor, recoge los nuevos cambios de columna cuando el esquema de origen evoluciona y traslada esta información a los tipos de receptor admitidos.

    Captura de pantalla del botón de alternancia activado para la asignación automática.

    Nota:

    La evolución del esquema solo funciona cuando el botón de alternancia Asignación automática está activado. Para saber cómo editar las asignaciones de columnas o incluir transformaciones, consulte Capturar datos modificados con un recurso de captura de datos de modificación.

  15. Seleccione el enlace Claves, y luego, seleccione la columna Claves que se utilizará para el seguimiento de las operaciones de eliminación.

    Captura de pantalla del enlace para activar la selección de columnas de Claves.

    Captura de pantalla de la acción de seleccionar una columna Claves para el origen seleccionado.

  16. Una vez completadas las asignaciones, establezca la latencia de CDC mediante el botón Establecer latencia.

    Captura de pantalla del botón Establecer latencia en la parte superior del lienzo.

  17. Seleccione la latencia del CDC y seleccione Aplicar para realizar los cambios.

    De manera predeterminada, la latencia se establece en 15 minutos. En el ejemplo de este artículo se usa la opción En tiempo real para la latencia. La latencia en tiempo real continuamente recopila los cambios en los datos de origen en intervalos de menos de 1 minuto.

    Para otras latencias (por ejemplo, se selecciona 15 minutos), la captura de datos modificados procesará los datos de origen y recogerá los datos que se hayan modificado desde la hora del último procesamiento.

    Captura de pantalla de las opciones para establecer la latencia.

  18. Después de finalizar la configuración de CDC, seleccione Publicar todo para publicar los cambios.

    Captura de pantalla del botón Publicar en la parte superior del lienzo.

    Nota:

    Si no publica los cambios, no podrá iniciar el recurso de CDC. El botón Iniciar del paso siguiente no estará disponible.

  19. Seleccione Iniciar para empezar a ejecutar la captura de datos modificados.

    Captura de pantalla del botón Iniciar en la parte superior del lienzo.

Ahora que la captura de datos de cambios está en marcha, puede:

  • Utilice la página de supervisión para ver cuántos cambios (inserción, actualización o eliminación) se han leído y escrito, junto con otra información de diagnóstico.

    Captura de pantalla de la página de supervisión de una captura de datos modificados seleccionada.

    Captura de pantalla de la página de seguimiento de una captura de datos de cambio seleccionada con una vista detallada.

  • Validar que los datos de cambio llegaron a Delta Lake almacenados en Azure Data Lake Storage Gen2, en formato Delta.

    Captura de pantalla de una carpeta Delta de destino.

  • Validar el esquema de los datos de modificación que han llegado.

    Captura de pantalla de un fichero Delta.

Realizar cambios dinámicos a nivel de esquema en las tablas de origen

  1. Agregue una nueva columna PersonalEmail a la tabla de origen mediante una sentencia ALTER TABLE T-SQL, como se muestra en el siguiente ejemplo.

    Captura de pantalla del comando ALTER en Azure Data Studio.

  2. Compruebe que la nueva columna PersonalEmail aparece en la tabla existente.

    Captura de pantalla de un nuevo diseño de tabla con una columna agregada para el correo electrónico personal.

Validar los cambios de esquema en el sumidero Delta

Confirme que la nueva columna PersonalEmail aparece en el receptor Delta. Ahora ya sabe que los datos de modificación con cambios de esquema llegaron al destino.

 Captura de pantalla de un fichero Delta con un cambio de esquema.