Copia rápida en Dataflows Gen2
En este artículo se describe la característica de copia rápida de Dataflows Gen2 para Data Factory en Microsoft Fabric. Dataflows ayuda a ingerir y transformar datos. Con la introducción del escalado horizontal del flujo de datos con el proceso de SQL DW, puede transformar los datos a gran escala. Sin embargo, los datos deben ingerirse primero. Con la introducción de la copia rápida, puede ingerir terabytes de datos con la experiencia sencilla de flujos de datos, pero con el back-end escalable de la actividad de copia de canalización.
Después de habilitar esta funcionalidad, Dataflows cambia automáticamente el back-end cuando el tamaño de los datos supera un umbral determinado, sin necesidad de cambiar nada durante la creación de los flujos de datos. Después de actualizar un flujo de datos, puede consultar el historial de actualizaciones para ver si se usó la copia rápida durante la ejecución; para ello, consulte el tipo Motor que aparece.
Con la opción Requerir copia rápida habilitada, la actualización del flujo de datos se cancela si no se usa la copia rápida. Esto le ayuda a evitar esperar un tiempo de espera de actualización para continuar. Este comportamiento también puede ser útil en una sesión de depuración para probar el comportamiento del flujo de datos con los datos a la vez que se reduce el tiempo de espera. Con los indicadores de copia rápida en el panel de pasos de consulta, puede comprobar fácilmente si la consulta se puede ejecutar con una copia rápida.
Requisitos previos
- Debe tener una capacidad de Fabric.
- En el caso de los datos de archivos, los archivos están en formato .csv o parquet de al menos 100 MB y se almacenan en una cuenta de Azure Data Lake Storage (ADLS) Gen2 o de Blob Storage.
- En el caso de las bases de datos, incluida la de Azure SQL y PostgreSQL, 5 millones de filas de datos o más en el origen de datos.
Nota:
Puede omitir el umbral para forzar la copia rápida seleccionando la opción "Requerir copia rápida".
Compatibilidad con conectores
La copia rápida es compatible actualmente con los siguientes conectores de Dataflows Gen2:
- ADLS Gen2
- Blob Storage
- Azure SQL DB
- Lakehouse
- PostgreSQL
- Servidor SQL Server local
- Almacén de lago
- Oracle
- Snowflake
La actividad de copia solo admite algunas transformaciones al conectarse a un origen de archivos:
- Combinar archivos
- Seleccionar columnas
- Cambiar tipos de datos
- Cambio del nombre de una columna
- Quitar una columna
Puede seguir aplicando otras transformaciones si divide los pasos de ingesta y transformación en consultas independientes. La primera consulta recupera realmente los datos y la segunda consulta hace referencia a sus resultados para que se pueda usar el proceso DW. En el caso de los orígenes SQL, se admite cualquier transformación que forme parte de la consulta nativa.
Cuando se carga directamente la consulta en un destino de salida, solo se admiten actualmente los destinos de almacén de lago. Si desea usar otro destino de salida, puede almacenar provisionalmente la consulta en primer lugar y hacer referencia a ella más adelante.
Cómo usar la copia rápida
Vaya al punto de conexión de Fabric adecuado.
Vaya a un área de trabajo premium y cree un flujo de datos Gen2.
En la pestaña Inicio del nuevo flujo de datos, seleccione Opciones:
A continuación, seleccione la pestaña Escala en el cuadro de diálogo Opciones y seleccione la casilla Permitir el uso de conectores de copia rápida para activar la copia rápida. A continuación, cierre el cuadro de diálogo Opciones.
Seleccione Obtener datos y, a continuación, elija el origen de ADLS Gen2 y rellene los detalles del contenedor.
Use la funcionalidad Combinar archivo.
Para garantizar una copia rápida, aplique solo las transformaciones enumeradas en la sección Compatibilidad con conectores de este artículo. Si necesita aplicar más transformaciones, almacene provisionalmente primero los datos y haga referencia a la consulta más adelante. Realice otras transformaciones en la consulta a la que se hace referencia.
(Opcional) Para establecer la opción Requerir copia rápida para la consulta, haga clic con el botón derecho en ella para seleccionarla y habilitarla.
(Opcional) Actualmente, solo puede configurar un almacén de lago como destino de salida. Para cualquier otro destino, almacene provisionalmente la consulta y haga referencia a ella más adelante en otra consulta en la que pueda generar una salida a cualquier origen.
Compruebe los indicadores de copia rápida para ver si la consulta se puede ejecutar con una copia rápida. Si es así, el tipo Motor muestra CopyActivity.
Publicar el flujo de datos.
Compruebe después de que se haya completado la actualización para confirmar que se haya usado una copia rápida.
Restricciones conocidas
- Se necesita una puerta de enlace de datos local versión 3000.214.2 o posterior para admitir la copia rápida.
- No se admite la puerta de enlace de red virtual.
- No se admite la escritura de datos en una tabla existente en Lakehouse.
- No se admite el esquema fijo.