Migración de datos y canalizaciones de Azure Synapse Analytics a Microsoft Fabric
El primer paso de la migración de datos y canalizaciones es identificar los datos que se desean que estén disponibles en OneLake y las canalizaciones que se quieren mover.
Hay dos opciones para migrar datos:
- Opción 1: Azure Data Lake Storage (ADLS) Gen2 como almacenamiento predeterminado. Si actualmente se está usando ADLS Gen2 y se quiere evitar la copia de datos, hay que considerar la posibilidad de usar accesos directos de OneLake.
- Opción 2: OneLake como almacenamiento predeterminado. Si quieres pasar de ADLS Gen2 a OneLake como una capa de almacenamiento, considera la posibilidad de leer y escribir desde o hacia OneLake desde los cuadernos y las definiciones de trabajos de Spark.
Migración de datos
Opción 1: ADLS Gen2 como almacenamiento (accesos directos)
Si interactúas con ADLS Gen2 y quieres evitar la duplicación de datos, puedes crear un acceso directo a la ruta de acceso de origen de ADLS Gen2 en OneLake. Puede crear accesos directos en las secciones Archivos y Tablas del almacén de lago en Fabric con las consideraciones siguientes:
- La sección Archivos es el área no administrada del lago. Si los datos están en formato CSV, JSON o Parquet, se recomienda crear un acceso directo a esta área.
- La sección Tablas es el área no administrada del lago. Todas las tablas, tanto administradas por Spark como no administradas, se registran aquí. Si los datos están en formato Delta, puedes crear un acceso directo en esta área y el proceso de detección automática registra automáticamente esas tablas Delta en el metastore del almacén de lago.
Obtén más información sobre cómo crear un acceso directo de ADLS Gen2.
Opción 2: OneLake como almacenamiento
Para usar OneLake como capa de almacenamiento y mover datos de ADLS Gen2, debes apuntar inicialmente los elementos relacionados con Spark de Azure Synapse a OneLake y, a continuación, transferir los datos existentes a OneLake. Para el primero, consulta Integrar OneLake con Azure Synapse Spark.
Para mover los datos existentes a OneLake, tienes varias opciones:
- mssparkutils fastcp: la biblioteca mssparkutils proporciona una API fastcp que permite copiar datos de ADLS Gen2 a OneLake.
- AzCopy: se puede usar utilidad de línea de comandos de AzCopy para copiar datos de ADLS Gen2 a OneLake.
- Azure Data Factory, Azure Synapse Analytics y Data Factory en Fabric: usa actividad de copia para copiar datos en el almacén de lago.
- Usar métodos abreviados: se pueden habilitar los datos históricos de ADLS Gen2 en OneLake mediante accesos directos. No se necesita ninguna copia de datos.
- Explorador de Azure Storage: se pueden mover archivos de la ubicación de ADLS Gen2 a OneLake mediante el Explorador de Azure Storage. Consulta Cómo integrar OneLake con Explorador de Azure Storage.
Migrar canalizaciones (actividades relacionadas con Spark)
Si las canalizaciones de datos de Azure Synapse incluyen actividades de definición de trabajos de Spark o cuadernos, se deberá mover esas canalizaciones de Azure Synapse a canalizaciones de datos de Data Factory en Fabric y hacer referencia a los cuadernos de destino. La actividad del cuaderno está disponible en las canalizaciones de datos de Data Factory. Consulta todas las actividades de canalización de datos admitidas en Fabric aquí.
- Para conocer las consideraciones sobre la actividad de canalización de datos relacionada con Spark, consulta Diferencias entre Azure Synapse Spark y Fabric.
- Para migrar cuadernos, consulta Migrar cuadernos de Azure Synapse a Fabric.
- Para la migrar la canalización de datos, consulta Migrar a Data Factory en Fabric.