Estándares de metadatos
La administración de metadatos desempeña un papel fundamental en la arquitectura de datos. Los metadatos son datos sobre otros datos. Describe los datos, proporcionando una referencia que le ayuda a encontrar, proteger y controlar los datos. Los metadatos también enlazan los datos juntos. Se puede usar para validar la integridad y la calidad de los datos, enrutar o replicar datos en una nueva ubicación, transformar datos y conocer los significados de los datos. Los metadatos también son esenciales para democratizar los datos a través de portales de autoservicio.
Hay una tendencia creciente en el sector para acercar la información de los datos a los analistas y científicos de datos mediante portales que usan más metadatos. Esta tendencia se conoce como observabilidad de los datos. La observabilidad de los datos usa conceptos como el lago de metadatos, los gráficos de conocimiento o los gráficos de metadatos para describir las plataformas donde los metadatos están centralizados. Es una buena manera de crear una vista unificada de cómo se usan y obtienen los datos en toda la organización cuando se usa una malla de datos distribuida.
Una buena estrategia de administración de metadatos crece orgánicamente. Comienza simple y pequeña identificando primero las áreas más importantes. También se admite una buena estrategia de administración de metadatos con servicios y procesos claros. Para empezar, es conveniente tener en cuenta las diferentes categorías de metadatos:
- Los metadatos empresariales describen todos los aspectos usados para la gobernanza, búsqueda y comprensión de datos. Algunos ejemplos conocidos incluyen términos y definiciones empresariales e información sobre la propiedad, el uso y el origen de los datos.
- Los metadatos técnicos describen los aspectos estructurales de los datos en tiempo de diseño. Algunos ejemplos conocidos incluyen información de esquema, formato de datos e información de protocolo, y claves de cifrado y descifrado.
- Los metadatos operativos describen los aspectos de procesamiento de los datos en tiempo de ejecución. Algunos ejemplos conocidos son la información del proceso, el tiempo de ejecución, la información de error del proceso y los identificadores de trabajo.
- Los metadatos sociales describen la perspectiva del usuario de los datos de sus consumidores. Algunos ejemplos conocidos incluyen información de uso y seguimiento de usuarios, datos de resultados de búsqueda, filtros y clics, tiempo de visualización, visitas al perfil y comentarios.
En la arquitectura de datos descentralizada, la administración de metadatos es un desafío organizativo que requiere encontrar un equilibrio entre los metadatos administrados centralmente y los metadatos administrados federados. Es importante que comprenda los equipos y las funciones para el análisis a escala de nube en Azure a medida que planee la administración de metadatos. El uso de una práctica de administración de datos colaborativa mejora la comunicación, la integración y la automatización del flujo de datos entre los equipos. Puede abordar parte de la complejidad de la administración de metadatos al alcanzar el equilibrio adecuado entre la gobernanza central y la propiedad del dominio.
Cuando decida qué metadatos administrará de forma centralizada o federada en los dominios de datos y comience la implementación, pregúntese lo siguiente:
- ¿Qué metadatos empresariales son críticos?
- ¿Qué metadatos técnicos se necesitan para la interoperabilidad?
- ¿Qué procesos y flujos capturan los datos?
- ¿Dónde se crean y mantienen los modelos o esquemas?
- ¿Qué equipos de información deben ofrecer de forma centralizada para permitir que el departamento de gobernanza de datos realice su trabajo correctamente?
Con las respuestas a estas preguntas, asigne el ciclo de vida del contenido para cada uno de los flujos de metadatos y determine todas las dependencias. A continuación, tiene un modelo de metadatos que puede conectar dominios de negocio, procesos, tecnología y datos.
Una vez que sepa qué metadatos necesita, debe elegir un lugar para almacenarlo y procesarlo. Puede hacerlo mediante Microsoft Purview.
Use Microsoft Purview para administrar su conjunto de datos en general
Microsoft Purview es una solución unificada de gobernanza de datos que le ayuda a administrar y gobernar los datos locales, de varias nubes y de software como servicio (SaaS). Realiza la administración de metadatos a escala, ya que es un servicio totalmente automatizado que realiza de forma inteligente la detección, el análisis, la calidad y la administración de acceso a los datos. También proporciona un mapa holístico de muchas conclusiones sobre la arquitectura de la malla de datos.
Microsoft Purview es un conjunto completo de soluciones que pueden ayudar a la organización a controlar, proteger y administrar datos, dondequiera que residan. Las soluciones de Microsoft Purview proporcionan cobertura integrada y ayudan a abordar la fragmentación de los datos en todas las organizaciones, la falta de visibilidad que dificulta la protección y la gobernanza de datos y la desenfoque de los roles tradicionales de administración de TI.
Microsoft Purview combina soluciones y servicios de gobernanza de datos y cumplimiento en una plataforma unificada para ayudar a su organización a:
- Obtener visibilidad de los datos en toda la organización
- Proteger y administrar información confidencial en su ciclo de vida, dondequiera que resida
- Controlar los datos sin problemas de formas nuevas y completas
- Administrar riesgos de datos críticos y requisitos normativos
Al implementar Microsoft Purview, no introduzca demasiados cambios y complejidad rápidamente. Los metadatos técnicos son la base de Microsoft Purview. Debe recopilar y organizar los metadatos antes de que pueda tener sentido.
Una vez que tenga los metadatos, comience con los conceptos básicos:
- Términos empresariales
- Listas de orígenes de datos autoritativos
- Listas de bases de datos
- Dominios de gobernanza
- Información de esquema
- Propiedad de los datos
- Administración de datos
- Seguridad
- Calidad de los datos
A continuación, escale lentamente con más propietarios de dominio y administradores de datos, y agregue más clasificaciones y etiquetas de confidencialidad. Estas adiciones mejoran la experiencia de búsqueda y permiten una mejor administración del acceso a los datos.
Microsoft Purview ofrece una característica denominada Dominios de gobernanza, que establecen límites para la gobernanza unificada, la propiedad y la detección de productos de datos y conceptos empresariales dentro de la arquitectura orientada a dominio. Para obtener más información, consulte Dominios de gobernanza en Microsoft Purview.
Uso de Azure Cosmos DB para crear el grafo de conocimientos.
Una solución de información de datos debe describir cómo se usan los datos y las relaciones entre entidades, como datos de origen y productos de datos, y entre productos de datos de un dominio y productos dependientes de otro dominio. Puede usar una base de datos de grafos o una interfaz de usuario personalizada para modelar estas relaciones.
Para crear una vista unificada de los datos de la organización con experiencia de usuario personalizada, consulte Azure Cosmos DB. Azure Cosmos DB es un servicio de base de datos multimodelo distribuido globalmente con puntos de conexión NoSQL. Proporciona un servicio de base de datos de grafos a través de Azure Cosmos DB for Apache Gremlin para almacenar grafos enormes con miles de millones de vértices y bordes.
El resultado final de la arquitectura de Azure Cosmos DB es un grafo de toda la organización que proporciona una vista unificada de todos los datos de la organización mediante el contexto de un extremo a otro. El lago de metadatos no solo trata de almacenar información. También organiza activamente los metadatos como un grafo mediante la conexión con otros servicios y herramientas. Este gráfico organizado le permite correlacionar varias áreas temáticas, entre las que se incluyen:
- Dominios
- Calidad de los datos
- Uso de datos
- Funcionalidades empresariales
- Funciones de la aplicación
- Información de la arquitectura técnica
- Eventos operativos
- Metadatos organizativos
- Metadatos de propiedad de la aplicación
- Información de ubicación
- Información de la administración del ciclo de vida de la aplicación