Captura de datos modificados de Azure Data Lake Storage Gen2 a Azure SQL Database mediante un recurso de captura de datos modificados
SE APLICA A: Azure Data Factory Azure Synapse Analytics
Sugerencia
Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.
En este artículo, usará la interfaz de usuario de Azure Data Factory para crear un recurso de captura de datos modificados (CDC). El recurso recoge los datos modificados de un origen de Azure Data Lake Storage Gen2 y los agrega a Azure SQL Database en tiempo real.
En este artículo aprenderá a:
- Cree un recurso de CDC.
- Supervise la actividad de CDC.
Puede modificar y expandir el patrón de configuración de este artículo.
Requisitos previos
Antes de iniciar los procedimientos de este artículo, asegúrese de que dispone de estos recursos:
- Suscripción de Azure. Si no tiene una suscripción a Azure, cree una cuenta de Azure gratuita.
- Base de datos SQL. Use Azure SQL Database como almacén de datos de origen. Si no tiene una base de datos SQL, cree una en Azure Portal.
- Cuenta de almacenamiento. Se utiliza Delta Lake almacenado en Azure Data Lake Storage Gen2 como almacén de datos de destino. Si no tiene una cuenta de almacenamiento, consulte Crear una cuenta de almacenamiento para ver los pasos para su creación.
Creación de un artefacto de CDC
Vaya al panel Creador de la factoría de datos. En Canalizaciones, aparece un nuevo artefacto de nivel superior denominado Captura de datos modificados (versión preliminar).
Mantenga el puntero sobre Captura de datos modificados (versión preliminar) hasta que aparezcan tres puntos. A continuación, seleccione Acciones de captura de datos modificados (versión preliminar).
Seleccione Nuevo CDC (versión preliminar). Este paso abre un control flotante para comenzar el proceso guiado.
Se le pide que asigne un nombre al recurso de CDC. De manera predeterminada, el nombre es "adfcdc" con un número que aumenta en 1. Puede reemplazar este nombre predeterminado por un nombre que elija.
Use la lista desplegable para elegir el origen de datos. Para este artículo, seleccione DelimitedText.
Se le pide que seleccione un servicio vinculado. Cree un nuevo servicio vinculado o seleccione uno existente.
Use el área Configuración de origen para establecer de manera opcional configuraciones avanzadas de origen, incluidos los delimitadores de columna y fila.
Si no edita manualmente esta configuración de origen, se establece en los valores predeterminados.
Use el botón Examinar para seleccionar la carpeta de los datos de origen.
Una vez que haya seleccionado una ruta de acceso de carpeta, seleccione Continuar para establecer el destino de los datos.
Puede optar por agregar varias carpetas de origen con el botón más (+). Los demás orígenes también deben usar el mismo servicio vinculado que ya ha seleccionado.
Seleccione un valor de Tipo de destino mediante la lista desplegable. En este artículo, seleccione Azure SQL Database.
Se le pide que seleccione un servicio vinculado. Cree un nuevo servicio vinculado o seleccione uno existente.
Para las Tablas de destino, puede crear una nueva tabla de destino o seleccionar una existente:
Para crear una tabla de destino, seleccione la pestaña Nuevas entidades y, a continuación, seleccione Editar nuevas tablas.
Para seleccionar una tabla existente, seleccione la pestaña Entidades existentes y, a continuación, use la casilla para elegir una tabla. Use el botón Vista previa para ver los datos de la tabla.
Si las tablas existentes en el destino tienen nombres coincidentes, se seleccionan de manera predeterminada en Entidades existentes. Si no es así, se crean nuevas tablas con nombres coincidentes en Nuevas entidades. Además, puede editar nuevas tablas con el botón Editar nuevas tablas.
Puede usar las casillas para elegir varias tablas de destino de la base de datos SQL. Cuando termine de elegir las tablas de destino, seleccione Continuar.
Aparece una nueva pestaña para capturar datos modificados. Esta pestaña es el estudio CDC, donde puede configurar su nuevo recurso.
Se creará automáticamente una nueva asignación. Puede actualizar las selecciones de Origen de tabla y Destino de tabla de la asignación mediante las listas desplegables.
Después de seleccionar las tablas, sus columnas se asignan de manera predeterminada con el botón de alternancia Asignación automática activado. La Asignación automática asigna automáticamente las columnas por nombre en el receptor, recoge los nuevos cambios de columna cuando el esquema de origen evoluciona y traslada esta información a los tipos de receptor admitidos.
Si desea usar la Asignación automática y no cambiar ninguna asignación de columnas, vaya directamente al paso 18.
Si desea habilitar las asignaciones de columnas, seleccione las asignaciones y desactive el botón de alternancia Asignación automática. A continuación, seleccione el botón Asignaciones de columnas para ver las asignaciones.
Puede volver a la asignación automática en cualquier momento activando el botón de alternancia Asignación automática.
Vea las asignaciones de columnas. Use las listas desplegables para editar las asignaciones de columnas para el Método de asignación, la Columna de origen y la Columna de destino.
Desde esta página, puedes:
- Agregue más asignaciones de columnas mediante el botón Nueva asignación. Use las listas desplegables para hacer elecciones para el Método de asignación, la Columna de origen y la Columna de destino.
- Seleccione la columna Claves si desea realizar un seguimiento de la operación de eliminación para los tipos de receptor admitidos.
- Seleccione el botón Actualizar en Vista previa de datos para visualizar cómo se ven los datos en el destino.
Una vez completada la asignación, seleccione el botón de flecha para volver al lienzo principal de CDC.
Puede agregar asignaciones de origen a destino en un artefacto de CDC. Use el botón Editar para añadir más orígenes y destinos de datos. A continuación, seleccione Nueva asignación y use las listas desplegables para establecer un nuevo origen y un nuevo destino. Puede activar o desactivar la Asignación automática para cada una de estas asignaciones de forma independiente.
Una vez completadas las asignaciones, establezca la latencia de CDC mediante el botón Establecer latencia.
Seleccione la latencia del CDC y seleccione Aplicar para realizar los cambios.
De manera predeterminada, la latencia se establece en 15 minutos. En el ejemplo de este artículo se usa la opción En tiempo real para la latencia. La latencia en tiempo real continuamente recopila los cambios en los datos de origen en intervalos de menos de 1 minuto.
Para otras latencias (por ejemplo, se selecciona 15 minutos), la captura de datos modificados procesará los datos de origen y recogerá los datos que se hayan modificado desde la hora del último procesamiento.
Nota:
Si la compatibilidad se extiende al streaming de la integración de datos (orígenes de datos de Azure Event Hubs y Kafka), la latencia se establecerá en Tiempo real de manera predeterminada.
Después de finalizar la configuración de CDC, seleccione Publicar todo para publicar los cambios.
Nota:
Si no publica los cambios, no podrá iniciar el recurso de CDC. El botón Iniciar del paso siguiente no estará disponible.
Seleccione Iniciar para empezar a ejecutar la captura de datos modificados.
Supervisión de la captura de datos modificados
Abra el panel Supervisar mediante cualquiera de estos métodos:
Seleccione Captura de datos modificados (versión preliminar) para ver los recursos de CDC.
El panel Captura de datos modificados muestra la información de Origen, Destino, Estado y Último procesamiento para la captura de datos modificados.
Seleccione el nombre de la CDC para ver más detalles. Puede ver cuántos cambios (inserción, actualización o eliminación) se leyeron y escribieron, junto con otra información de diagnóstico.
Si configura varias asignaciones en la captura de datos modificados, cada asignación aparece en un color diferente. Seleccione la barra para ver los detalles específicos de cada asignación o use la información de diagnóstico en la parte inferior de la pantalla.