Cómo copiar datos mediante la actividad de copia
En Canalización de datos, puede usar la actividad de copia para copiar datos entre almacenes de datos locales y en la nube.
Después de copiar los datos, puede usar otras actividades para luego transformarlos y analizarlos. La actividad de copia también puede usarse para publicar los resultados de transformación y análisis de inteligencia empresarial (BI) y el consumo de la aplicación.
Para copiar datos de un origen a un destino, el servicio que ejecuta la actividad de copia realiza estos pasos:
- Lee datos desde un almacén de datos de origen.
- Realiza procesos de serialización y deserialización, compresión y descompresión, asignación de columnas, etc. Realiza estas operaciones en función de la configuración.
- Escribe datos en el almacén de datos de destino.
Requisitos previos
Para empezar, debe completar los siguientes requisitos previos:
Una cuenta de inquilino de Microsoft Fabric con una suscripción activa. Cree una cuenta gratuita.
Asegúrese de que tiene un área de trabajo habilitada para Microsoft Fabric.
Adición de una actividad de copia mediante el asistente de copia
Siga estos pasos para configurar la actividad de copia mediante el asistente de copia.
Empezar con el asistente de copia
Abra una canalización de datos existente o cree una nueva canalización de datos.
Seleccione Copiar datos en el lienzo para abrir la herramienta Asistente para copia para empezar. O bien, seleccione Usar asistente para copia en la lista desplegable Copiar datos en la pestaña Actividades de la cinta de opciones.
Configuración del origen
Seleccione un tipo de origen de datos de la categoría. Usará Azure Blob Storage como ejemplo. Después, seleccione Azure Blob Storage y Siguiente.
Cree una conexión al origen de datos seleccionando Crear nueva conexión.
Después de seleccionar Crear nueva conexión, rellene la información de conexión necesaria y, a continuación, seleccione Siguiente. Para obtener información detallada sobre la creación de conexiones para cada tipo de origen de datos, puede consultar el artículo de cada conector.
Si tiene conexiones existentes, puede seleccionar Conexión existente y seleccionar la conexión en la lista desplegable.
Elija el archivo o la carpeta que se va a copiar en este paso de configuración de origen y, a continuación, seleccione Siguiente.
Configuración del destino
Seleccione un tipo de origen de datos de la categoría. Usará Azure Blob Storage como ejemplo. Puede crear una nueva conexión que se vincule a una nueva cuenta de Azure Blob Storage siguiendo los pasos de la sección anterior o use una conexión existente en la lista desplegable de conexiones. Las funcionalidades de Probar conexión y Editar están disponibles para cada conexión seleccionada.
Configure y asigne los datos de origen al destino. A continuación, seleccione Siguiente para finalizar las configuraciones de destino.
Nota:
Solo puede usar una única puerta de enlace de datos local dentro de la misma actividad de copia. Si tanto el origen como el receptor son orígenes de datos en el entorno local, deben usar la misma puerta de enlace. Para mover datos entre orígenes de datos en el entorno local con puertas de enlace diferentes, debe copiar mediante la primera puerta de enlace a un origen en la nube intermedio en una Actividad de copia. A continuación, puede usar otra Actividad de copia para copiarlo desde el origen intermedio en la nube mediante la segunda puerta de enlace.
Revisión y creación de la actividad de copia
Revise la configuración de la actividad de copia en los pasos anteriores y seleccione Aceptar para finalizar. O bien, puede volver a los pasos anteriores para editar la configuración si es necesario en la herramienta.
Una vez finalizada, la actividad de copia se agregará al lienzo de la canalización de datos. Toda la configuración, incluida la configuración avanzada para esta actividad de copia, está disponible en la pestaña cuando está seleccionada.
Ahora puede guardar la canalización de datos con esta única actividad de copia o seguir diseñando la canalización de datos.
Agregar una actividad de copia directamente
Siga estos pasos para agregar una actividad de copia directamente.
Agregar una actividad de copia
Abra una canalización de datos existente o cree una nueva canalización de datos.
Agregue una actividad de copia seleccionando Agregar actividad de canalización>Actividad de copia o seleccionando Copiar datos>Agregar al lienzo en la pestaña Actividades.
Configuración de las opciones generales en la pestaña General
Para obtener información sobre cómo configurar las opciones generales, consulte General.
Configuración del origen en la pestaña origen
Seleccione + Nuevo junto a Conexión para crear una conexión con el origen de datos.
Elija el tipo de origen de datos en la ventana emergente. Usará Azure SQL Database como ejemplo. Seleccione Azure SQL Database y luego Continuar.
Navega a la página de creación de la conexión. Rellene la información de conexión necesaria en el panel y, a continuación, seleccione Crear. Para obtener información detallada sobre la creación de conexiones para cada tipo de origen de datos, puede consultar el artículo de cada conector.
Una vez que la conexión se haya creado correctamente, volverá a la página de canalización de datos. A continuación, seleccione Actualizar para capturar la conexión que creó en la lista desplegable. También puede elegir una conexión existente de Azure SQL Database en la lista desplegable directamente si ya la creó antes. Las funcionalidades de Probar conexión y Editar están disponibles para cada conexión seleccionada. A continuación, seleccione Azure SQL Database en Tipo de conexión.
Especifique una tabla que se va a copiar. Seleccione Vista previa de los datos para obtener una vista previa de la tabla de origen. También puede usar Consultar y Procedimiento almacenado para leer datos del origen.
Expanda Opciones avanzadas para obtener una configuración más avanzada.
Configuración del destino en la pestaña destino
Elija el tipo de destino. Podría ser el tanto almacén de datos interno de primera clase del área de trabajo, como el lago de datos o los almacenes de datos externos. Usará el lago de datos como ejemplo.
Elija usar Lago de datos en el Tipo de almacén de datos del área de trabajo. Seleccione + Nuevo y le llevará a la página de creación de lago de datos. Especifique el nombre del lago de datos y, a continuación, seleccione Crear.
Una vez que la conexión se haya creado correctamente, volverá a la página de canalización de datos. A continuación, seleccione Actualizar para capturar la conexión que creó en la lista desplegable. También puede elegir una conexión de lago de datos existente en la lista desplegable directamente si ya la creó antes.
Especifique una tabla o configure la ruta de acceso del archivo para definir el archivo o la carpeta como destino. Aquí, seleccione Tablas y especifique una tabla para escribir datos.
Expanda Opciones avanzadas para obtener una configuración más avanzada.
Ahora puede guardar la canalización de datos con esta única actividad de copia o seguir diseñando la canalización de datos.
Configuración de las asignaciones en la pestaña asignación
Si el conector que aplica admite la asignación, puede ir a la pestaña Asignación para configurar la asignación.
Seleccione Importar esquemas para importar el esquema de datos.
Puede ver que se muestra la asignación automática. Especifique la columna Origen y la columna Destino. Si crea una nueva tabla en el destino, puede personalizar el nombre de la columna Destino aquí. Si desea escribir datos en la tabla de destino existente, no puede modificar el nombre de la columna Destino existente. También puede ver las columnas Tipo de origen y destino.
Además, puede seleccionar + Nueva asignación para agregar una nueva asignación, seleccionar Borrar para borrar todas las opciones de asignación y Restablecer para restablecer todas las columnas deOrigen de asignación.
Configure otras opciones en la pestaña Configuración
La pestaña Configuración contiene la configuración de rendimiento, almacenamiento provisional, etc.
Consulta la tabla siguiente para ver una descripción de cada configuración.
Configuración | Descripción | Propiedad de script JSON |
---|---|---|
Optimización inteligente del rendimiento | Especifique para optimizar el rendimiento. Puede elegir entre: • Automático • Estándar • Equilibrado • Máximo Al elegir Automático, la configuración óptima se aplica dinámicamente en función del patrón de datos y el par de destino y origen. También puede personalizar el rendimiento y el valor personalizado puede ser de 2 a 256, mientras que un valor mayor implica más ganancias. |
dataIntegrationUnits |
Grado de paralelismo de copia | Especifique el grado de paralelismo que usaría la carga de datos. | parallelCopies |
Tolerancia a errores | Al seleccionar esta opción, puede omitir algunos errores en medio del proceso de copia. Por ejemplo, filas incompatibles entre el almacén de origen y destino, un archivo que se elimina durante el movimiento de datos, etc. | • enableSkipIncompatibleRow • skipErrorFile: fileMissing fileForbidden invalidFileName |
Habilitar registro | Al seleccionar esta opción, puede registrar archivos copiados, archivos omitidos y filas. | / |
Enable staging (Habilitar almacenamiento provisional) | Especifique si desea copiar los datos a través de un almacén provisional. Habilite el almacenamiento provisional solo para los escenarios beneficiosos. | enableStaging |
Tipo de almacén de datos | Al habilitar el almacenamiento provisional, puede elegir Área de trabajo y Externa como tipo de almacén de datos. | / |
Para área de trabajo | ||
Área de trabajo | Especifique para usar el almacenamiento provisional integrado. | / |
Para externo | ||
Conexión de la cuenta de almacenamiento provisional | Especifique la conexión de Una instancia de Azure Blob Storage o Azure Data Lake Storage Gen2, que hace referencia a la instancia de Storage que se usa como almacén provisional. Cree una conexión de almacenamiento provisional si no la tiene. | conexión (en externalReferences ) |
Ruta de acceso de almacenamiento | Especifique la ruta de acceso que quiere que contenga los datos almacenados provisionalmente. Si no se proporciona una ruta de acceso, el servicio creará un contenedor para almacenar los datos temporales. Especifique una ruta de acceso solo si usa Almacenamiento con una firma de acceso compartido o si necesita que los datos temporales estén en una ubicación específica. | path |
Habilitación de la compresión | Especifica si se deben comprimir los datos antes de copiarlos en el destino. Esta configuración reduce el volumen de datos que se va a transferir. | enableCompression |
Preserve | Especifique si desea conservar los metadatos o las ACL durante la copia de datos. | preservar |
Nota:
Si usa la copia almacenada provisionalmente con la compresión habilitada, no se admite la autenticación de la entidad de servicio para la conexión de blobs provisional.
Configuración de parámetros en una actividad de copia
Los parámetros se pueden usar para controlar el comportamiento de una canalización y sus actividades. Puede usar Agregar contenido dinámico para especificar parámetros para las propiedades de la actividad de copia. Vamos a especificar Lakehouse/Data Warehouse/KQL Database como ejemplo para ver cómo usarlo.
En el origen o destino, después de seleccionar Área de trabajo como tipo de almacén de datos y especificar la base de datos KQL de Lakehouse/Data Warehouse/como tipo de almacén de datos del área de trabajo, seleccione Agregar contenido dinámico en la lista desplegable de Lakehouse o Data Warehouse o KQL Database.
En el panel emergente Agregar contenido dinámico, en la pestaña Parámetros , seleccione+.
Especifique el nombre del parámetro y asígnele un valor predeterminado si lo desea, o bien puede especificar el valor del parámetro después de seleccionar Ejecutar en la canalización.
Tenga en cuenta que el valor del parámetro debe ser Lakehouse/Data Warehouse/KQL Database id. de objeto. Para obtener el identificador de objeto de base de datos de Lakehouse/Data Warehouse/KQL, abra la base de datos de Lakehouse/Data Warehouse/KQL en el área de trabajo y el identificador es posterior
/lakehouses/
o/datawarehouses/
/databases/
en la dirección URL.Identificador deobjeto de Lakehouse:
ID de objeto de Data Warehouse:
ID Objetos de base de datos KQL:
Seleccione Guardar para volver al panel Agregar contenido dinámico. A continuación, seleccione el parámetro para que aparezca en el cuadro de expresión. A continuación, seleccione Aceptar. Volverá a la página de canalización y verá que la expresión de parámetro se especifica después de que el identificador de objeto de Lakehouse Id/. de objeto de ID Data Warehouse/. de objeto KQL Database id.