Qué es el trabajo de copia (versión preliminar) en Data Factory para Microsoft Fabric
Data Factory en Fabric permite a los usuarios integrar sin problemas datos de más de 100 conectores integrados ( tanto orígenes como destinos) a través de una interfaz visualmente intuitiva. La actividad de copia, que funciona en canalizaciones de datos, facilita la ingesta de datos. Mientras tanto, Dataflow Gen2 admite transformaciones de datos y canalizaciones orquestan el flujo de integración.
Ventajas del trabajo de copia
Aunque la actividad de copia dentro de las canalizaciones de datos controla la ingesta de datos con operaciones masivas o por lotes, la creación de canalizaciones de datos en Data Factory sigue siendo difícil para muchos usuarios que son nuevos en el campo, con una curva de aprendizaje más pronunciada. Por lo tanto, estamos encantados de introducir el trabajo de copia, elevando la experiencia de ingesta de datos a un proceso más simplificado y fácil de usar de cualquier origen a cualquier destino. Ahora, copiar los datos es más fácil que nunca. Además, el trabajo de copia admite varios estilos de entrega de datos, incluida la copia por lotes y la copia incremental, lo que ofrece flexibilidad para satisfacer sus necesidades específicas.
Entre las ventajas del trabajo de copia sobre otros métodos de movimiento de datos se incluyen:
- Experiencia intuitiva: experimente la copia de datos sin problemas sin riesgos, lo que facilita que nunca.
- Eficiencia: habilite la copia incremental sin esfuerzo, lo que reduce la intervención manual. Esta eficacia se traduce en menos uso de recursos y duraciones de copia más rápidas.
- Flexibilidad: al mismo tiempo que disfruta de la simplicidad, también tiene la flexibilidad de controlar el movimiento de datos. Elija las tablas y columnas que se van a copiar, asigne los datos, defina el comportamiento de lectura y escritura y establezca programaciones que se ajusten a sus necesidades, ya sea para una tarea única o una operación periódica.
- Rendimiento sólido: una configuración sin servidor que habilita la transferencia de datos con paralelismo a gran escala, lo que maximiza el rendimiento del movimiento de datos para el sistema.
Conectores compatibles
Actualmente, puede usar el trabajo de copia para la transferencia de datos en la nube o copiar datos desde un almacén de datos local a través de la puerta de enlace. El trabajo de copia admite los siguientes almacenes de datos como origen y destino:
- Azure SQL DB
- SQL Server local
- Fabric Warehouse
- Fabric Lakehouse
- Amazon S3
- Azure Data Lake Storage Gen2
- Azure Blob Storage
- Amazon RDS para SQL Server
El equipo del producto está explorando el soporte técnico adicional del conector, por lo que debe mantenerse atento a las actualizaciones.
Comportamiento de copia
Puede elegir entre los siguientes estilos de entrega de datos.
- Modo de copia completa: cada trabajo de copia se ejecuta copia todos los datos del origen al destino a la vez.
- Modo de copia incremental: la ejecución del trabajo inicial copia todos los datos y el trabajo posterior solo copia los cambios desde la última ejecución. Los datos modificados se anexan al almacén de destino.
También puede elegir cómo se escriben los datos en el almacén de destino.
De manera predeterminada, Copiar trabajo anexa datos al destino, de modo que no se pierda ningún historial de cambios. Pero también puede ajustar el comportamiento de escritura a upsert o sobrescribir.
- Cuando se copian datos en el almacén de almacenamiento: las nuevas filas de las tablas o archivos se copian en archivos nuevos en el destino. Si ya existe un archivo con el mismo nombre en el almacén de destino, se sobrescribirá.
- Al copiar datos en la base de datos: las nuevas filas de las tablas o archivos se anexan a las tablas de destino. Puede cambiar el comportamiento de escritura a upsert (en SQL DB o SQL Server) o sobrescribir (en tablas de Fabric Lakehouse).
Columna incremental
En el modo de copia incremental, deberá seleccionar una columna incremental para cada tabla para identificar los cambios. El trabajo de copia usa esta columna como marca de agua, comparando su valor con el mismo desde la última ejecución para copiar solo los datos nuevos o actualizados. La columna incremental debe ser una marca de tiempo o un INT creciente.
Disponibilidad regional
El trabajo de copia tiene la misma disponibilidad regional que la canalización.
Precios
El trabajo copiar usa el mismo medidor de facturación: Movimiento de datos, con una tasa de consumo idéntica.