Canalizaciones de implementación de Lakehouse e integración de Git (versión preliminar)
El Lakehouse se integra con las funcionalidades de administración del ciclo de vida de Microsoft Fabric, lo que proporciona una colaboración estandarizada entre todos los miembros del equipo de desarrollo durante toda la vida del producto. La administración del ciclo de vida facilita un proceso eficaz de versiones y versiones del producto mediante la entrega continua de características y correcciones de errores en varios entornos. Para obtener más información, visite ¿Qué es la administración del ciclo de vida en Microsoft Fabric?
Importante
Esta característica se encuentra en versión preliminar.
Integración de Git en Lakehouse
Lakehouse es un elemento que contiene tanto metadatos como datos a los que se hace referencia en varios objetos del área de trabajo. Lakehouse contiene tablas, carpetas y accesos directos como elementos de contenedor de datos administrables principales. Desde una perspectiva del flujo de trabajo de desarrollo, los siguientes objetos dependientes pueden hacer referencia a una instancia de Lakehouse:
- Flujos de datos y Canalizaciones de datos
- Definiciones de trabajos de Spark
- Blocs de notas
- Modelos semánticos y Power BI
El modelo semántico predeterminado y los metadatos del punto de conexión de SQL Analytics están relacionados con una instancia de Lakehouse y se administran mediante el proceso de actualización de Git de forma predeterminada. Como principio, no se realiza un seguimiento de los datos en git, solo de los metadatos.
Representación de Git
La siguiente información de Lakehouse se serializa y realiza un seguimiento en un área de trabajo conectada de Git:
- Nombre para mostrar
- Descripción
- Guid lógico
Nota:
El seguimiento lógico es un identificador entre áreas de trabajo generado automáticamente que representa un elemento y su representación de control de código fuente.
Importante
Solo se realiza un seguimiento del artefacto de contenedor de almacén de lago en Git en la experiencia actual. Las tablas (Delta y no Delta) y las carpetas en la sección de archivos no se les realiza seguimiento ni se versionan en git.
Funcionalidades de integración de Git en Lakehouse
Están disponibles las siguientes funcionalidades:
- Serialización de los metadatos del objeto Lakehouse en una representación JSON de Git.
- Se deben aplicar los cambios directamente o usando la solicitud de incorporación de cambios para controlar los cambios en áreas de trabajo y ramas ascendentes o descendentes.
- Se realiza un seguimiento del cambio de nombre de Lakehouses en Git. Actualizar un Lakehouse cuyo nombre ha cambiado también cambia el nombre del modelo de datos semántico predeterminado y el punto de conexión de SQL Analytics.
- No se aplica ninguna acción a tablas y carpetas metadatos, y siempre se conservan los datos de esos elementos.
- Los atajos de metadatos de OneLake se conservan en Git.
Funcionalidades de integración de Git de OneLake Shortcuts
- Las definiciones de accesos directos de la sección Tablas y archivos se almacenan en un archivo denominado
shortcuts.metadata.json
en la carpeta lakehouse de Git. - Las siguientes operaciones se admiten y realizan un seguimiento automáticamente: adición, eliminación y actualizaciones de accesos directos.
- Las operaciones se pueden realizar directamente en la interfaz de usuario de Fabric o en el repositorio git cambiando el archivo
shortcuts.metadata.json
. - Los accesos directos con destinos internos (accesos directos de OneLake) se actualizan automáticamente durante la sincronización de Git. Para que el acceso directo sea válido, dichas referencias deben ser destinos válidos en el área de trabajo. Si los destinos no son válidos para los accesos directos definidos en la sección de las tablas del almacén de lago de datos, esos accesos directos se mueven a la sección
Unidentified
hasta que se resuelvan las referencias.
Importante
Tenga cuidado al cambiar las propiedades de acceso directo de OneLake directamente en el archivo shortcuts.metadata.json
. Los cambios incorrectos en las propiedades, especialmente en los GUID, pueden invalidar el acceso directo de OneLake cuando las actualizaciones se aplican nuevamente al área de trabajo.
Importante
Una actualización de git invalidará el estado de los accesos directos en el área de trabajo. Todos los accesos directos del área de trabajo se crean, actualizan o eliminan en función del estado entrante de Git.
Canalizaciones de implementación en Lakehouse
Lakehouse se admite en canalizaciones de implementación de administración del ciclo de vida de Microsoft Fabric. Habilita la segmentación del entorno procedimientos recomendados.
Funcionalidades de la integración de canalizaciones de implementación de Lakehouse:
Implementación entre áreas de trabajo de desarrollo, pruebas y producción.
Lakehouse se puede eliminar como objeto dependiente de la implementación. También se admite la asignación de diferentes Lakehouses dentro del contexto de canalización de implementación.
Si no se especifica nada durante la configuración de la canalización de implementación, se crea un nuevo objeto de almacén de lago vacío con el mismo nombre en el área de trabajo de destino. Las definiciones de trabajos de Spark y Notebook se reasignan para hacer referencia al nuevo objeto Lakehouse en el nuevo área de trabajo.
Si la dependencia del almacén de lago está configurada para hacer referencia a otra instancia del almacén de lago durante el tiempo de configuración de la canalización de implementación, como la instancia del almacén de lago ascendente, se crea un nuevo objeto almacén de lago vacío con el mismo nombre en el área de trabajo de destino, pero las referencias a Notebooks y definiciones de trabajos de Spark se conservan tal y como se solicitan en un almacén de lago distinto.
Los puntos de conexión de SQL Analytics y los modelos semánticos se aprovisionan como parte de la implementación de Lakehouse.
No se sobrescribe ningún objeto dentro de Lakehouse.
Las actualizaciones del nombre de Lakehouse se pueden sincronizar entre áreas de trabajo en un contexto de canalización de implementación.
Atajos de OneLake dentro de las canalizaciones de implementación
- Las definiciones de métodos abreviados se sincronizan entre fases en las canalizaciones de implementación.
- Los accesos directos con destinos externos (ADLS Gen2, S3, etc.) son los mismos en todas las fases después de la implementación.
- Los accesos directos con destinos internos (accesos directos de OneLake) en la misma área de trabajo se reasignan automáticamente entre etapas. Los accesos directos que tienen como destino Data Warehouse y modelos semánticos no se reasignan durante la implementación. Las tablas, carpetas y archivos no se crean en el área de trabajo de destino. Para que el acceso directo sea válido, esas referencias deben crearse en el área de trabajo de destino después de la implementación.
- En el caso de que el mismo acceso directo deba tener como destino ubicaciones diferentes en distintas fases. Por ejemplo, en Desarrollo, apunte a una carpeta específica en Amazon S3 y, en Producción, una carpeta diferente en ADLS Gen2. Después de la implementación, actualice la definición de acceso directo de OneLake en Lakehouse o directamente mediante las API de OneLake.
Importante
Una implementación anulará el estado de los accesos directos en el área de trabajo de destino. Todos los accesos directos en el almacén de lago de datos de destino se actualizan o eliminan según el estado del almacén de lago de datos de origen. Los nuevos accesos directos se crean en el almacén de lago de datos de destino. Haga clic siempre en "Revisar cambios" para comprender los cambios que se implementarán entre las áreas de trabajo de origen y de destino.