Análisis e información de autoservicio (versión preliminar)
Análisis e información de autoservicio hacen referencia a datos, herramientas y plataformas que permiten a los usuarios empresariales acceder, analizar y generar información a partir de datos de forma independiente. La aplicación de gobernanza de datos de Microsoft Purview publica el modelo de dominio de metadatos en Fabric OneLake y AdlsG2 (Azure Data Lake Storage), lo que permite a los clientes analizar y generar información aportando sus propias herramientas y proceso. El análisis de autoservicio de metadatos de gobernanza de datos es valioso para impulsar la mejora continua de la administración del estado del patrimonio de datos de los clientes y fomentar una cultura basada en datos en toda la organización mediante la democratización del acceso a la información del patrimonio de datos y la administración del estado.
Componentes clave
- Modelo de datos: modelo 3NF con detalles de dominios y dimensiones
-
Metadatos: Metadatos de gobernanza de datos que incluyen:
- Dominios de gobernanza
- productos de datos
- recursos de datos
- términos del glosario
- solicitud de suscripción
- reglas de calidad de datos
- Dimensiones
- datos de calidad de datos (recuentos de pases y errores)
Ventajas
- Empoderamiento: Permite a los profesionales de datos, propietarios de productos de datos, administradores de datos y analistas explorar metadatos de gobernanza de datos y vincular metadatos de varios orígenes para obtener información.
- Flexibilidad y eficiencia: El cliente podrá crear informes personalizados además de informes integrados en la administración del estado.
- Agilidad: Permite a las organizaciones de clientes responder más rápidamente a los problemas de administración de estado y la corrección.
- Rentable: Reduce la necesidad de configurar plataformas y herramientas de compilación. Todos los datos están disponibles en OneLake y el cliente podrá usar las herramientas disponibles (modelo semántico de Fabric, informes PBI, flujo de datos y cuaderno) en OneLake.
Informes disponibles actualmente (de fábrica)
Estos son los informes integrados disponibles. Estos informes no son personalizables.
- Recursos clásicos : información general sobre los recursos por tipo y colección, y su estado de conservación.
- Adopción del catálogo clásico: para comprender de un vistazo cómo se usa Catálogo unificado. glosario, proporcionando una instantánea de los términos y su estado.
- Clasificaciones clásicas : información general sobre los recursos clasificados y los tipos de clasificaciones.
- Administración de datos clásica : información general sobre los recursos clasificados y los tipos de clasificaciones.
- Glosario clásico : estado y uso de términos del glosario.
- Etiquetas de confidencialidad clásicas : información general sobre los recursos que tienen etiquetas de confidencialidad aplicadas y los tipos de etiquetas aplicadas.
- Gobernanza de datos : el informe de estado de gobernanza de datos permite al equipo realizar un seguimiento del progreso del estado de un vistazo e identificar las áreas que necesitan más trabajo.
- Estado de la calidad de los datos : informes de rendimiento de dimensiones de calidad de datos y reglas de calidad de datos.
Modelo de datos para metadatos de análisis de autoservicio
El modelo de dominio 3NF forma parte del proceso de normalización en el diseño de la base de datos relacional, que garantiza que la base de datos esté libre de redundancia y de anomalías de actualización. Un esquema de base de datos tiene el tercer formato normal si cumple los requisitos de la Forms Primera y Segunda Normal y todos sus atributos solo dependen funcionalmente de la clave principal. El propósito del modelo de dominio 3NF se usa para estructurar los datos de forma que se minimice la duplicación y se garantice la integridad de los datos. Se centra en dividir los datos en tablas más pequeñas y relacionadas en las que cada parte de la información se almacena solo una vez.
Características:
- Eliminación de dependencias transitivas: los atributos sin clave no deben depender de otros atributos no clave.
- Agrupación lógica: los datos se agrupan lógicamente en dominios en función de su función o significado.
- diagramas de Entity-Relationship (ERD): se usan normalmente para representar modelos de dominio 3NF, que muestran cómo se relacionan las entidades entre sí.
Nombre de la tabla | Descripción | Claves de relación |
---|---|---|
Estado de aprovisionamiento de directivas de acceso | La información sobre el estado de aprovisionamiento se almacena en esta tabla. | ProvisioningStateId |
Tipo de recurso de directiva de acceso | En esta tabla se almacena información de recursos de acceso porlich. | ResourceTypeId |
Conjunto de directivas de acceso | En esta tabla se almacena información general sobre la directiva de acceso, los detalles del caso de uso de la directiva y dónde se aplicó una directiva, etc. | AccessPolicySetId, ResourceTypeId, ProvisioningStateId |
Clasificación | La información de clasificación de recursos de datos se almacena en esta tabla. | ClassificationId |
Caso de uso de acceso personalizado | La información del caso de uso de acceso se almacena en esta tabla. | AccessPolicySetId |
Recurso de datos | El nombre del recurso de datos, la descripción y la información de origen se almacenan en esta tabla. | DataAssetId, AccountId, DataAssetTypeId |
Columna de recursos de datos | El nombre de la columna del recurso de datos, la descripción de la columna y las referencias se almacenan en esta tabla. | DataAssetId, ColumnId, DataAssetTypeId, DataTypeId, AccountId |
Asignación de clasificación de columnas de recursos de datos | Las claves de referencia relacionadas con la asignación de clasificación de datos se almacenan en esta tabla. | DataAssetId, ColumnId, ClassificationId |
Asignación de dominio de recursos de datos | La información relacionada con la asignación de dominio de gobernanza de recursos de datos está disponible en esta tabla. | DataAssetId, BusinessDomainId |
Propietario del recurso de datos | Información del propietario del recurso de datos almacenada en esta tabla. | DataAssetOwnerId |
Asignación de propietario de recursos de datos | La información de asignación del propietario del recurso de datos se almacena en esta tabla. | DataAssetId, DataAssetOwnerId |
Tipo de datos de tipo de recurso de datos | La información del tipo de recurso de datos se almacena en esta tabla. | DataTypeId, DataAssetTypeId |
Producto de datos | Nombre del producto de datos, descripción, casos de uso, estado y otra información relevante almacenada en esta tabla. | DataProductId, DataProductTypeId, AccountId |
Asignación de recursos del producto de datos | La información de asignación de recursos de datos y productos se almacena en esta tabla. | DataProductId, DataAssetId |
Asignación de dominio de gobernanza de productos de datos | La información de asignación de dominios de gobernanza y producto de datos se almacena en esta tabla. | DataProductId, BusinessDomainId |
Documentación del producto de datos | La información de referencia de la documentación del producto de datos se almacena en esta tabla. | DataProductId, DocumentationId |
Propietario del producto de datos | La información del propietario del producto de datos se almacena en esta tabla. | DataProductId, DataProductOwnerId |
Estado del producto de datos | Información relacionada con el estado del producto de datos (como publicada o borrador) almacenada en esta tabla. | DataProductStatusId |
Términos de uso del producto de datos | La información de los términos de uso del producto de datos se almacena en esta tabla. | DataProductId, TermOfUsedId, DataAssetId |
Tipo de producto de datos | En esta tabla se almacena la información sobre los tipos de producto de datos: Master, Reference, Operational, etc. . | DataProductTypeId |
Frecuencia de actualización del producto de datos | La información sobre la frecuencia con la que se actualizan los datos de este producto de datos se almacena en esta tabla. | UpdateFrequencyId |
Ejecución de reglas de recursos de calidad de datos | Resultados de análisis de calidad de datos almacenados en esta tabla | RuleId, DataAssetId, JobExecutionId |
Ejecución de trabajos de calidad de datos | El estado de ejecución del trabajo de calidad de datos se almacena en esta tabla. | JobExecutionId |
Regla de calidad de datos | En esta tabla se almacena información sobre las reglas de calidad de datos. | RuleId, RuleTypeId, BusinessDomainId, DataProductId, DataAssetId |
Ejecución de columnas de regla de calidad de datos | En esta tabla se almacena información sobre las reglas de calidad de datos y el recuento de errores, la puntuación de calidad de los datos en el nivel de columnas y los detalles de ejecución del trabajo de calidad de datos. | RuleId, DataAssetId, ColumnId |
Tipo de regla de calidad de datos | El tipo de regla de calidad de datos y las dimensiones asociadas se almacenan en esta tabla. | RuleTypeId |
Solicitud de suscripción de datos | Información sobre los suscriptores de datos, las directivas aplicadas, el estado de la solicitud de suscripción y otra información relevante almacenada en esta tabla. | SubscriberRequestId |
Término del glosario | En esta tabla se almacena información sobre el término del glosario, la descripción y el estado general del término del glosario. | GlossaryTermId, ParentGlossaryTermId, AccountId |
Asignación de dominio de gobernanza de términos del glosario | En esta tabla se almacena información sobre los estados y la asignación de dominio de gobernanza de términos del glosario. | GlossaryTermId, BusinessDomainId |
Asignación de productos de datos de términos de glosario | En esta tabla se almacena información sobre la asignación de productos de datos de términos del glosario. | GlossaryTermId, DataProductId |
Aprobador del conjunto de directivas | El conjunto de directivas y la información del aprobador se almacenan en esta tabla. | SubscriberRequestId, AccessPolicySetId |
Relación | En esta tabla se almacena información sobre el tipo de origen y la información de destino. | AccountId, SourceId, TargetId |
Suscripción a los metadatos del catálogo de Microsoft Purview a Fabric OneLake
Puede suscribirse a los metadatos de gobernanza de datos de Microsoft Purview para el análisis y obtener información siguiendo estos pasos:
Seleccione Configuración en el panel izquierdo, seleccione Catálogo unificado y, después, integraciones de soluciones.
Seleccione Editar.
Agregue Tipo de almacenamiento y Habilitado el programa de instalación.
Agregar dirección URL de ubicación (ejemplo:
https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata
)- Seleccione Propiedades para copiar la dirección URL.
- Copie la dirección URL de la página Propiedades .
Agregar nombre de carpeta al final de la dirección URL: ejemplo: /DEH (vea la captura de pantalla)
Conceda acceso de colaborador a Microsoft Purview Manage Service Identity (MSI) al área de trabajo de fabric.
Probar la conexión.
Seleccione Guardar para guardar la configuración para publicar metadatos de Purview en el área de trabajo de OneLake.
Creación de un modelo semántico en OneLake
Un modelo semántico en el contexto de datos y análisis hace referencia a una representación estructurada de datos que define el significado, las relaciones y las reglas dentro de un dominio específico. Proporciona una capa de abstracción que ayuda a los usuarios a comprender e interactuar con datos complejos al hacerlos más intuitivos y accesibles, especialmente en el contexto de la inteligencia empresarial (BI) y las plataformas de análisis. Siempre se requiere un modelo semántico antes de que se puedan compilar los informes. Dentro del almacén, un usuario puede agregar objetos de almacenamiento( tablas o vistas) a su modelo semántico predeterminado de Power BI. También pueden agregar otras propiedades de modelado semántico, como jerarquías y descripciones. A continuación, estas propiedades se usan para crear las tablas del modelo semántico de Power BI. Los usuarios también pueden quitar objetos del modelo semántico predeterminado de Power BI.
Para crear un modelo semántico a partir del modelo de dominio de metadatos de Microsoft Purview Data Governance:
Abra un almacén en el área de trabajo de Fabric.
Publicación de los archivos de modelo de dominios en tablas delta
- Seleccione el botón de puntos suspensivos (...)
- Seleccione **Cargar en tablas > Nueva tabla
- Nuevo nombre de tabla rellenado previamente
- Seleccione Parquet de tipo de archivo
También puede usar el acceso directo para obtener acceso directo al modelo de dominio desde OneLake y dentro de OneLake.
- Seleccionar el botón de puntos suspensivos (...) de Tablas
- Seleccione Nuevo acceso directo y seleccione Microsoft OneLake en la página Nuevos orígenes de acceso directo.
- Selección de la tabla de modelos de dominios para el acceso directo
Después de publicar todos los archivos en tablas delta manualmente o mediante acceso directo, puede agregar las tablas delta al modelo semántico.
- Cambie a la página de punto de conexión de análisis de SQL desde la página Lakehouse.
- Seleccione Informes en la esquina superior izquierda de la página de punto de conexión de ANÁLISIS DE SQL .
- Seleccione Administrar modelo semántico predeterminado.
- Seleccione las tablas de dbo > Tables que desea agregar al modelo semántico para la generación de informes.
Para agregar objetos como tablas o vistas al modelo semántico predeterminado de Power BI, seleccione Actualizar automáticamente el modelo semántico.
Suscripción a los metadatos del catálogo de Microsoft Purview al almacenamiento de AdlsG2
Puede suscribirse a los metadatos de gobernanza de datos de Microsoft Purview para publicar y almacenar en el almacenamiento de AdlsG2 para el análisis y derivar información siguiendo estos pasos:
Seleccione Configuración en el panel izquierdo, seleccione Catálogo unificado y, después, integraciones de soluciones.
Seleccione Editar.
Seleccione Tipo de almacenamiento. y Habilitó la configuración.
Agregar dirección URL de ubicación, debe ser ruta de acceso de AdlsG2 + "/(nombre del contenedor)"
- Vaya a portal.azure.com
- Seleccionar almacenamiento adlsg2 (Inicio > adlsg2)
- Vaya a Puntosde conexiónde configuración> y seleccione Punto de conexión principal del almacenamiento de Data Lake.
Concesión de acceso al colaborador de datos de Storage Blob a Microsoft Purview Manage Service Identity (MSI) en el contenedor de AdlsG2
Probar la conexión.
Seleccione la pestaña Guardar para guardar la configuración para publicar el modelo de dominio en el almacenamiento de adlsg2.
Revisión del modelo y los datos publicados
Abrir portal.azure.com
Selección del almacenamiento de adlsg2
seleccione el contenedor que agregó con el punto de conexión adlsg2 en purview.
Examine la lista de archivos de parquet delta publicados en el contenedor.
Examinar el modelo y los metadatos publicados (consulte las imágenes siguientes).
Creación de un informe de Power BI
Power BI se integra de forma nativa en toda la experiencia de Fabric. Esta integración nativa incluye un modo único, denominado DirectLake, para acceder a los datos desde lakehouse con el fin de proporcionar la experiencia de generación de informes y consultas más eficaz. DirectLake es una nueva funcionalidad innovadora que permite analizar modelos semánticos muy grandes en Power BI. Con DirectLake, se cargan archivos con formato parquet directamente desde un lago de datos sin necesidad de consultar un almacén de datos o un punto de conexión de lakehouse, y sin necesidad de importar o duplicar datos en un modelo semántico de Power BI. DirectLake es una ruta de acceso rápida para cargar los datos del lago de datos directamente en el motor de Power BI, listo para su análisis.
En el modo DirectQuery tradicional, el motor de Power BI consulta directamente los datos del origen para cada ejecución de consulta y el rendimiento de la consulta depende de la velocidad de recuperación de datos. DirectQuery elimina la necesidad de copiar datos, lo que garantiza que los cambios en el origen se reflejen inmediatamente en los resultados de la consulta.
Para obtener más información , siga la guía: cómo crear un informe de Power BI en Microsoft Fabric.
Importante
- El ciclo de actualización predeterminado es cada 24 horas.
- Purview MSI necesita acceso de colaborador al área de trabajo de Fabric si va a suscribir metadatos de Microsoft Purview para publicarlos en el área de trabajo del tejido.
- Purview MSI necesita acceso de colaborador de datos de Storage Blob a la Azure Data Lake Storage Gen2 si va a subscribir metadatos de Purview para publicarlos en el contenedor de adlsg2.
Nota:
- Todavía no se admite la programación del trabajo de actualización de datos.
- Aún no se admite la red virtual.