Linaje de datos en Microsoft Purview
En este artículo se proporciona información general sobre el linaje de datos en el Catálogo unificado de Microsoft Purview. También se detalla cómo se pueden integrar los sistemas de datos con el catálogo para capturar el linaje de datos. Microsoft Purview puede capturar linaje de datos en diferentes partes del patrimonio de datos de su organización y en diferentes niveles de preparación, incluidos:
- Datos sin procesar almacenados provisionalmente desde varias plataformas
- Datos transformados y preparados
- Datos utilizados por las plataformas de visualización
Casos de uso
El linaje de datos se entiende ampliamente como el ciclo de vida que abarca el origen de los datos y dónde se mueve a lo largo del tiempo a través del patrimonio de datos. Se usa para diferentes tipos de escenarios de aspecto hacia atrás, como la solución de problemas, el seguimiento de la causa raíz en las canalizaciones de datos y la depuración. El linaje también se usa para los escenarios de análisis de calidad de datos, cumplimiento y "what if" a los que a menudo se hace referencia como análisis de impacto. El linaje se representa visualmente para mostrar los datos que se mueven de origen a destino, incluido cómo se transformaron los datos. Dada la complejidad de la mayoría de los entornos de datos empresariales, estas vistas pueden ser difíciles de entender sin realizar alguna consolidación o enmascaramiento de puntos de datos periféricos.
Experiencia de linaje en Catálogo unificado
Catálogo unificado se conecta con otros sistemas de procesamiento, almacenamiento y análisis de datos para extraer información de linaje. La información se combina para representar una experiencia de linaje genérica específica del escenario en el catálogo.
El patrimonio de datos puede incluir sistemas que realizan extracción de datos, transformación (sistemas ETL/ELT), análisis y sistemas de visualización. Cada uno de los sistemas captura metadatos estáticos y operativos enriquecidos que describen el estado y la calidad de los datos dentro del límite de los sistemas. El objetivo del linaje en un Catálogo unificado es extraer los metadatos operativos, de transformación y movimiento de cada sistema de datos al menor nivel posible.
El ejemplo siguiente es un caso de uso típico de datos que se mueven entre varios sistemas, donde Catálogo unificado se conectarían a cada uno de los sistemas para el linaje.
- Data Factory copia los datos de la zona local o sin procesar en una zona de aterrizaje en la nube.
- Los sistemas de procesamiento de datos como Synapse y Databricks procesarían y transformarían los datos de la zona de aterrizaje a la zona curada mediante cuadernos.
- Procesamiento adicional de datos en modelos analíticos para un rendimiento y agregación óptimos de las consultas.
- Los sistemas de visualización de datos consumirán los conjuntos de datos y procesarán a través de su metamodelo para crear un panel de BI, experimentos de APRENDIZAJE, etc.
Granularidad del linaje
En la sección siguiente se tratan los detalles sobre la granularidad de la información de linaje que recopila Microsoft Purview. Esta granularidad puede variar en función de los sistemas de datos admitidos en Microsoft Purview.
Linaje de nivel de entidad: destinos de proceso > de orígenes >
- El linaje se representa como un gráfico, normalmente contiene entidades de origen y de destino en sistemas de almacenamiento de datos conectados por un proceso invocado por un sistema de proceso.
- Los sistemas de datos se conectan a Catálogo unificado para generar e informar de un objeto único que haga referencia al objeto físico del sistema de datos subyacente, por ejemplo: procedimiento almacenado de SQL, cuadernos, etc.
- El linaje de alta fidelidad con otros metadatos, como la propiedad, se captura para mostrar el linaje en un formato legible para las entidades de origen & destino. por ejemplo: linaje en un nivel de tabla de Hive en lugar de particiones o nivel de archivo.
Linaje de nivel de columna o atributo
Identifique los atributos de una entidad de origen que se usa para crear o derivar atributos en la entidad de destino. El nombre del atributo de origen se podría conservar o cambiar de nombre en un destino. Sistemas como Azure Data Factory (ADF) pueden realizar una copia única desde el entorno local a la nube. Por ejemplo: Table1/ColumnA -> Table2/ColumnA
.
Estado de ejecución del proceso
Para admitir escenarios de análisis de causa principal y calidad de datos, capturamos el estado de ejecución de los trabajos en los sistemas de procesamiento de datos. Este requisito no tiene nada que ver con el reemplazo de las capacidades de supervisión de otros sistemas de procesamiento de datos, ni el objetivo es reemplazarlas.
Resumen
Linaje es una característica crítica de Catálogo unificado para admitir escenarios de calidad, confianza y auditoría. El objetivo de un Catálogo unificado es crear un marco sólido en el que todos los sistemas de datos del entorno puedan conectarse de forma natural e informar del linaje. Una vez que los metadatos están disponibles, Catálogo unificado pueden reunir los metadatos proporcionados por los sistemas de datos para potenciar los casos de uso de gobernanza de datos.