Compartir a través de


Análisis e información de autoservicio (versión preliminar)

Análisis e información de autoservicio hacen referencia a datos, herramientas y plataformas que permiten a los usuarios empresariales acceder, analizar y generar información a partir de datos de forma independiente. La aplicación de gobernanza de datos de Microsoft Purview publica el modelo de dominio de metadatos en Fabric OneLake y AdlsG2 (Azure Data Lake Storage), lo que permite a los clientes analizar y generar información aportando sus propias herramientas y proceso. El análisis de autoservicio de metadatos de gobernanza de datos es valioso para impulsar la mejora continua de la administración del estado del patrimonio de datos de los clientes y fomentar una cultura basada en datos en toda la organización mediante la democratización del acceso a la información del patrimonio de datos y la administración del estado.

Componentes clave

  • Modelo de datos: modelo 3NF con detalles de dominios y dimensiones
  • Metadatos: Metadatos de gobernanza de datos que incluyen:
    • Dominios de gobernanza
    • productos de datos
    • recursos de datos
    • términos del glosario
    • solicitud de suscripción
    • reglas de calidad de datos
    • Dimensiones
    • datos de calidad de datos (recuentos de pases y errores)

Ventajas

  • Empoderamiento: Permite a los profesionales de datos, propietarios de productos de datos, administradores de datos y analistas explorar metadatos de gobernanza de datos y vincular metadatos de varios orígenes para obtener información.
  • Flexibilidad y eficiencia: El cliente podrá crear informes personalizados además de informes integrados en la administración del estado.
  • Agilidad: Permite a las organizaciones de clientes responder más rápidamente a los problemas de administración de estado y la corrección.
  • Rentable: Reduce la necesidad de configurar plataformas y herramientas de compilación. Todos los datos están disponibles en OneLake y el cliente podrá usar las herramientas disponibles (modelo semántico de Fabric, informes PBI, flujo de datos y cuaderno) en OneLake.

Informes disponibles actualmente (de fábrica)

Estos son los informes integrados disponibles. Estos informes no son personalizables.

Captura de pantalla que muestra la información de metadatos de Purview.

Modelo de datos para metadatos de análisis de autoservicio

El modelo de dominio 3NF forma parte del proceso de normalización en el diseño de la base de datos relacional, que garantiza que la base de datos esté libre de redundancia y de anomalías de actualización. Un esquema de base de datos tiene el tercer formato normal si cumple los requisitos de la Forms Primera y Segunda Normal y todos sus atributos solo dependen funcionalmente de la clave principal. El propósito del modelo de dominio 3NF se usa para estructurar los datos de forma que se minimice la duplicación y se garantice la integridad de los datos. Se centra en dividir los datos en tablas más pequeñas y relacionadas en las que cada parte de la información se almacena solo una vez.

Características:

  • Eliminación de dependencias transitivas: los atributos sin clave no deben depender de otros atributos no clave.
  • Agrupación lógica: los datos se agrupan lógicamente en dominios en función de su función o significado.
  • diagramas de Entity-Relationship (ERD): se usan normalmente para representar modelos de dominio 3NF, que muestran cómo se relacionan las entidades entre sí.
Nombre de la tabla Descripción Claves de relación
Estado de aprovisionamiento de directivas de acceso La información sobre el estado de aprovisionamiento se almacena en esta tabla. ProvisioningStateId
Tipo de recurso de directiva de acceso En esta tabla se almacena información de recursos de acceso porlich. ResourceTypeId
Conjunto de directivas de acceso En esta tabla se almacena información general sobre la directiva de acceso, los detalles del caso de uso de la directiva y dónde se aplicó una directiva, etc. AccessPolicySetId, ResourceTypeId, ProvisioningStateId
Clasificación La información de clasificación de recursos de datos se almacena en esta tabla. ClassificationId
Caso de uso de acceso personalizado La información del caso de uso de acceso se almacena en esta tabla. AccessPolicySetId
Recurso de datos El nombre del recurso de datos, la descripción y la información de origen se almacenan en esta tabla. DataAssetId, AccountId, DataAssetTypeId
Columna de recursos de datos El nombre de la columna del recurso de datos, la descripción de la columna y las referencias se almacenan en esta tabla. DataAssetId, ColumnId, DataAssetTypeId, DataTypeId, AccountId
Asignación de clasificación de columnas de recursos de datos Las claves de referencia relacionadas con la asignación de clasificación de datos se almacenan en esta tabla. DataAssetId, ColumnId, ClassificationId
Asignación de dominio de recursos de datos La información relacionada con la asignación de dominio de gobernanza de recursos de datos está disponible en esta tabla. DataAssetId, BusinessDomainId
Propietario del recurso de datos Información del propietario del recurso de datos almacenada en esta tabla. DataAssetOwnerId
Asignación de propietario de recursos de datos La información de asignación del propietario del recurso de datos se almacena en esta tabla. DataAssetId, DataAssetOwnerId
Tipo de datos de tipo de recurso de datos La información del tipo de recurso de datos se almacena en esta tabla. DataTypeId, DataAssetTypeId
Producto de datos Nombre del producto de datos, descripción, casos de uso, estado y otra información relevante almacenada en esta tabla. DataProductId, DataProductTypeId, AccountId
Asignación de recursos del producto de datos La información de asignación de recursos de datos y productos se almacena en esta tabla. DataProductId, DataAssetId
Asignación de dominio de gobernanza de productos de datos La información de asignación de dominios de gobernanza y producto de datos se almacena en esta tabla. DataProductId, BusinessDomainId
Documentación del producto de datos La información de referencia de la documentación del producto de datos se almacena en esta tabla. DataProductId, DocumentationId
Propietario del producto de datos La información del propietario del producto de datos se almacena en esta tabla. DataProductId, DataProductOwnerId
Estado del producto de datos Información relacionada con el estado del producto de datos (como publicada o borrador) almacenada en esta tabla. DataProductStatusId
Términos de uso del producto de datos La información de los términos de uso del producto de datos se almacena en esta tabla. DataProductId, TermOfUsedId, DataAssetId
Tipo de producto de datos En esta tabla se almacena la información sobre los tipos de producto de datos: Master, Reference, Operational, etc. . DataProductTypeId
Frecuencia de actualización del producto de datos La información sobre la frecuencia con la que se actualizan los datos de este producto de datos se almacena en esta tabla. UpdateFrequencyId
Ejecución de reglas de recursos de calidad de datos Resultados de análisis de calidad de datos almacenados en esta tabla RuleId, DataAssetId, JobExecutionId
Ejecución de trabajos de calidad de datos El estado de ejecución del trabajo de calidad de datos se almacena en esta tabla. JobExecutionId
Regla de calidad de datos En esta tabla se almacena información sobre las reglas de calidad de datos. RuleId, RuleTypeId, BusinessDomainId, DataProductId, DataAssetId
Ejecución de columnas de regla de calidad de datos En esta tabla se almacena información sobre las reglas de calidad de datos y el recuento de errores, la puntuación de calidad de los datos en el nivel de columnas y los detalles de ejecución del trabajo de calidad de datos. RuleId, DataAssetId, ColumnId
Tipo de regla de calidad de datos El tipo de regla de calidad de datos y las dimensiones asociadas se almacenan en esta tabla. RuleTypeId
Solicitud de suscripción de datos Información sobre los suscriptores de datos, las directivas aplicadas, el estado de la solicitud de suscripción y otra información relevante almacenada en esta tabla. SubscriberRequestId
Término del glosario En esta tabla se almacena información sobre el término del glosario, la descripción y el estado general del término del glosario. GlossaryTermId, ParentGlossaryTermId, AccountId
Asignación de dominio de gobernanza de términos del glosario En esta tabla se almacena información sobre los estados y la asignación de dominio de gobernanza de términos del glosario. GlossaryTermId, BusinessDomainId
Asignación de productos de datos de términos de glosario En esta tabla se almacena información sobre la asignación de productos de datos de términos del glosario. GlossaryTermId, DataProductId
Aprobador del conjunto de directivas El conjunto de directivas y la información del aprobador se almacenan en esta tabla. SubscriberRequestId, AccessPolicySetId
Relación En esta tabla se almacena información sobre el tipo de origen y la información de destino. AccountId, SourceId, TargetId

Suscripción a los metadatos del catálogo de Microsoft Purview a Fabric OneLake

Puede suscribirse a los metadatos de gobernanza de datos de Microsoft Purview para el análisis y obtener información siguiendo estos pasos:

  1. Seleccione Configuración en el panel izquierdo, seleccione Catálogo unificado y, después, integraciones de soluciones.

    Captura de pantalla que muestra cómo navegar por la página de suscripción.

  2. Seleccione Editar.

  3. Agregue Tipo de almacenamiento y Habilitado el programa de instalación.

  4. Agregar dirección URL de ubicación (ejemplo: https://onelake.dfs.fabric.microsoft.com/workspace name/lakehouse name/Files/purviewmetadata)

    • Seleccione Propiedades para copiar la dirección URL.

Captura de pantalla que muestra cómo configurar la dirección URL de tejido 1.

  • Copie la dirección URL de la página Propiedades .

Captura de pantalla que muestra cómo configurar la dirección URL de tejido 2.

  1. Agregar nombre de carpeta al final de la dirección URL: ejemplo: /DEH (vea la captura de pantalla)

  2. Conceda acceso de colaborador a Microsoft Purview Manage Service Identity (MSI) al área de trabajo de fabric.

  3. Probar la conexión.

    Captura de pantalla que muestra cómo configurar la conexión de suscripción.

  4. Seleccione Guardar para guardar la configuración para publicar metadatos de Purview en el área de trabajo de OneLake.

Creación de un modelo semántico en OneLake

Un modelo semántico en el contexto de datos y análisis hace referencia a una representación estructurada de datos que define el significado, las relaciones y las reglas dentro de un dominio específico. Proporciona una capa de abstracción que ayuda a los usuarios a comprender e interactuar con datos complejos al hacerlos más intuitivos y accesibles, especialmente en el contexto de la inteligencia empresarial (BI) y las plataformas de análisis. Siempre se requiere un modelo semántico antes de que se puedan compilar los informes. Dentro del almacén, un usuario puede agregar objetos de almacenamiento( tablas o vistas) a su modelo semántico predeterminado de Power BI. También pueden agregar otras propiedades de modelado semántico, como jerarquías y descripciones. A continuación, estas propiedades se usan para crear las tablas del modelo semántico de Power BI. Los usuarios también pueden quitar objetos del modelo semántico predeterminado de Power BI.

Para crear un modelo semántico a partir del modelo de dominio de metadatos de Microsoft Purview Data Governance:

  1. Abra un almacén en el área de trabajo de Fabric.

  2. Publicación de los archivos de modelo de dominios en tablas delta

    1. Seleccione el botón de puntos suspensivos (...)
    2. Seleccione **Cargar en tablas > Nueva tabla
    3. Nuevo nombre de tabla rellenado previamente
    4. Seleccione Parquet de tipo de archivo

    Captura de pantalla que muestra cómo publicar en la tabla delta desde parquet manualmente.

  3. También puede usar el acceso directo para obtener acceso directo al modelo de dominio desde OneLake y dentro de OneLake.

    1. Seleccionar el botón de puntos suspensivos (...) de Tablas
    2. Seleccione Nuevo acceso directo y seleccione Microsoft OneLake en la página Nuevos orígenes de acceso directo.
    3. Selección de la tabla de modelos de dominios para el acceso directo

    Captura de pantalla que muestra cómo publicar en la tabla delta a través de acceso directo.

Después de publicar todos los archivos en tablas delta manualmente o mediante acceso directo, puede agregar las tablas delta al modelo semántico.

  1. Cambie a la página de punto de conexión de análisis de SQL desde la página Lakehouse.
  2. Seleccione Informes en la esquina superior izquierda de la página de punto de conexión de ANÁLISIS DE SQL .
  3. Seleccione Administrar modelo semántico predeterminado.
  4. Seleccione las tablas de dbo > Tables que desea agregar al modelo semántico para la generación de informes.

Captura de pantalla que muestra cómo agregar la tabla al modelo semántico manualmente.

Para agregar objetos como tablas o vistas al modelo semántico predeterminado de Power BI, seleccione Actualizar automáticamente el modelo semántico.

Captura de pantalla que muestra el modelo semántico de análisis de autoservicio.

Suscripción a los metadatos del catálogo de Microsoft Purview al almacenamiento de AdlsG2

Puede suscribirse a los metadatos de gobernanza de datos de Microsoft Purview para publicar y almacenar en el almacenamiento de AdlsG2 para el análisis y derivar información siguiendo estos pasos:

  1. Seleccione Configuración en el panel izquierdo, seleccione Catálogo unificado y, después, integraciones de soluciones.

    Captura de pantalla que muestra cómo navegar por la página de suscripción de adlsg2.

  2. Seleccione Editar.

  3. Seleccione Tipo de almacenamiento. y Habilitó la configuración.

  4. Agregar dirección URL de ubicación, debe ser ruta de acceso de AdlsG2 + "/(nombre del contenedor)"

    1. Vaya a portal.azure.com
    2. Seleccionar almacenamiento adlsg2 (Inicio > adlsg2)
    3. Vaya a Puntosde conexiónde configuración> y seleccione Punto de conexión principal del almacenamiento de Data Lake.
  5. Concesión de acceso al colaborador de datos de Storage Blob a Microsoft Purview Manage Service Identity (MSI) en el contenedor de AdlsG2

  6. Probar la conexión.

    Examinar el modelo

  7. Seleccione la pestaña Guardar para guardar la configuración para publicar el modelo de dominio en el almacenamiento de adlsg2.

Revisión del modelo y los datos publicados

  1. Abrir portal.azure.com

  2. Selección del almacenamiento de adlsg2

  3. seleccione el contenedor que agregó con el punto de conexión adlsg2 en purview.

  4. Examine la lista de archivos de parquet delta publicados en el contenedor.

  5. Examinar el modelo y los metadatos publicados (consulte las imágenes siguientes).

    Captura de pantalla que muestra cómo configurar la conexión de suscripción en un contenedor adlsg2.

    Examinar los archivos de modelo

Creación de un informe de Power BI

Power BI se integra de forma nativa en toda la experiencia de Fabric. Esta integración nativa incluye un modo único, denominado DirectLake, para acceder a los datos desde lakehouse con el fin de proporcionar la experiencia de generación de informes y consultas más eficaz. DirectLake es una nueva funcionalidad innovadora que permite analizar modelos semánticos muy grandes en Power BI. Con DirectLake, se cargan archivos con formato parquet directamente desde un lago de datos sin necesidad de consultar un almacén de datos o un punto de conexión de lakehouse, y sin necesidad de importar o duplicar datos en un modelo semántico de Power BI. DirectLake es una ruta de acceso rápida para cargar los datos del lago de datos directamente en el motor de Power BI, listo para su análisis.

En el modo DirectQuery tradicional, el motor de Power BI consulta directamente los datos del origen para cada ejecución de consulta y el rendimiento de la consulta depende de la velocidad de recuperación de datos. DirectQuery elimina la necesidad de copiar datos, lo que garantiza que los cambios en el origen se reflejen inmediatamente en los resultados de la consulta.

Para obtener más información , siga la guía: cómo crear un informe de Power BI en Microsoft Fabric.

Importante

  • El ciclo de actualización predeterminado es cada 24 horas.
  • Purview MSI necesita acceso de colaborador al área de trabajo de Fabric si va a suscribir metadatos de Microsoft Purview para publicarlos en el área de trabajo del tejido.
  • Purview MSI necesita acceso de colaborador de datos de Storage Blob a la Azure Data Lake Storage Gen2 si va a subscribir metadatos de Purview para publicarlos en el contenedor de adlsg2.

Nota:

  • Todavía no se admite la programación del trabajo de actualización de datos.
  • Aún no se admite la red virtual.