Calidad de los datos del patrimonio de datos de Fabric Lakehouse (versión preliminar)
Fabric OneLake es un lago de datos único, unificado y lógico para toda la organización. Un lago de datos procesa grandes volúmenes de datos de varios orígenes. Al igual que OneDrive, OneLake viene automáticamente con cada inquilino de Microsoft Fabric y está diseñado para ser el único lugar para todos los datos de análisis. OneLake trae clientes:
- Un lago de datos para toda la organización
- Una copia de datos para su uso con varios motores analíticos
OneLake tiene como objetivo proporcionarle el máximo valor posible de una sola copia de datos sin movimiento de datos ni duplicación. Ya no es necesario copiar datos solo para usarlos con otro motor o desglosar silos para poder analizar los datos con datos de otros orígenes. Puede usar Microsoft Purview para catalogar el patrimonio de datos de tejido y medir la calidad de los datos para controlar e impulsar la acción de mejora.
Puede usar el acceso directo para hacer referencia a datos almacenados en otras ubicaciones de archivo. Estas ubicaciones de archivo pueden estar dentro del mismo área de trabajo o en diferentes áreas de trabajo, dentro de OneLake o externas a OneLake en Azure Data Lake Storage (ADLS), AWS S3 o Dataverse con más ubicaciones de destino próximamente. La ubicación del origen de datos no importa tanto, los accesos directos de OneLake hacen que los archivos y las carpetas parezcan que los tiene almacenados localmente. Cuando los equipos trabajan de forma independiente en áreas de trabajo independientes, los accesos directos permiten combinar datos entre diferentes grupos de negocios y dominios en un producto de datos virtual para satisfacer las necesidades específicas de un usuario.
Puede usar la creación de reflejo para reunir datos de varios orígenes en La creación de reflejo de Fabric en Fabric es una solución de bajo costo y baja latencia para unir los datos de varios sistemas en una única plataforma de análisis. Puede replicar continuamente el patrimonio de datos existente directamente en OneLake de Fabric, incluidos los datos de Azure SQL Database, Azure Cosmos DB y Snowflake. Con los datos más actualizados en un formato consultable en OneLake, ahora puede usar todos los servicios diferentes de Fabric. Por ejemplo, la ejecución de análisis con Spark, la ejecución de cuadernos, la ingeniería de datos, la visualización a través de informes de Power BI, etc. Las tablas Delta se pueden usar en cualquier lugar de Fabric, lo que permite a los usuarios acelerar su recorrido hacia Fabric.
Configuración del examen de Mapa de datos
Para configurar el examen de Mapa de datos, debe registrar el origen de datos que desea examinar.
Registro de Fabric OneLake
Para examinar el área de trabajo de Fabric, no hay cambios en la experiencia existente para registrar un inquilino de Fabric como origen de datos. Para registrar un nuevo origen de datos en Catálogo unificado de Microsoft Purview, siga estos pasos:
- Vaya a su cuenta de Microsoft Purview en el portal de gobernanza de Microsoft Purview.
- Seleccione Mapa de datos en el panel de navegación izquierdo.
- Seleccione Registrar.
- En Registrar orígenes, seleccione Tejido.
Consulte el mismo inquilino y entre inquilinos para obtener instrucciones de configuración.
Configuración del examen del mapa de datos
En el caso de los subartifacts de Lakehouse, no hay cambios en la experiencia existente en Purview para configurar un examen. Hay otro paso para conceder la credencial de examen con al menos el rol Colaborador en las áreas de trabajo de Fabric para extraer la información de esquema de los formatos de archivo admitidos.
Actualmente solo se admite la entidad de servicio como método de autenticación. La compatibilidad con MSI sigue en el trabajo pendiente.
Consulte el mismo inquilino y entre inquilinos para obtener instrucciones de configuración.
Configuración de la conexión para el examen de Fabric Lakehouse
Después de registrar Fabric Lakehouse como origen, puede seleccionar Fabric en la lista de orígenes de datos registrados y seleccionar Nuevo examen. Agregue los detalles de conexión como se resalta en las capturas de pantalla siguientes.
- Creación de un grupo de seguridad y una entidad de servicio
- Asegúrese de agregar esta entidad de servicio y la identidad administrada de Purview a este grupo de seguridad y, a continuación, proporcione este grupo de seguridad.
- Asociación del grupo de seguridad con el inquilino de Fabric
- Inicie sesión en el portal de administración de Fabric.
- Seleccione la página Configuración del inquilino. Debe ser un Administración de Fabric para ver la página de configuración del inquilino.
- Seleccione Administración configuración de > API Permitir que las entidades de servicio usen LAS API de administrador de solo lectura.
- Seleccione Grupos de seguridad específicos.
- Seleccione Administración configuración de > API Mejorar las respuestas de las API de administrador con metadatos detallados y Mejorar las respuestas de las API de administrador con expresiones > DAX y mashup Habilite la alternancia para permitir que Mapa de datos de Microsoft Purview detecte automáticamente los metadatos detallados de los conjuntos de datos de Fabric como parte de sus exámenes. Después de actualizar la configuración de Administración API en el inquilino de Fabric, espere unos 15 minutos antes de registrar una conexión de examen y prueba.
- Proporcione Administración permiso de API de solo lectura a este grupo de seguridad.
- Agregue SPN al campo Credencial .
- Agregue el nombre del recurso de Azure.
- Agregue el identificador de inquilino.
- Agregue el identificador de principio de servicio.
- Agregue Key Vault conexión.
- Agregar nombre de secreto.
Después de completar el examen de Mapa de datos, busque una instancia de Lakehouse de Catálogo unificado.
Examine las tablas de lakehouse a través de la categoría de tablas .
Requisitos previos del examen de calidad de datos de Fabric Lakehouse
- Acceso directo, reflejo o carga de los datos en Fabric lakehouse en formato delta.
Importante
Si ha agregado nuevas tablas, archivos o un nuevo conjunto de datos a Fabric lakehouse a través de morroring o acceso directo, debe ejecutar el examen del ámbito del mapa de datos para catalogar ese nuevo conjunto de datos antes de agregar esos recursos de datos al producto de datos para la evaluación de la calidad de los datos.
- Conceder derecho de colaborador al área de trabajo para PURVIEW MSI
- Agregue un recurso de datos escaneado desde lakehouse a los productos de datos del dominio de gobernanza. La generación de perfiles de datos y el examen de DQ solo se pueden realizar para los recursos de datos asociados a los productos de datos en el dominio de gobernanza.
Para la generación de perfiles de datos y el examen de calidad de datos, es necesario crear una conexión de origen de datos, ya que se usa un conector diferente para conectar el origen de datos y para examinar los datos con el fin de capturar hechos y dimensiones de calidad de los datos. Para configurar la conexión:
En Catálogo unificado, seleccione Administración de estado y, después, Calidad de datos.
Seleccione un dominio de gobernanza y, en la lista desplegable Administrar, seleccione Connections.
Seleccione Nuevo para abrir la página de configuración de conexión.
Agregue el nombre para mostrar de la conexión y una descripción.
Agregue el tipo de origen Fabric.
Agregue el identificador de inquilino.
Agregue Credential - Microsoft Purview MSI.
Pruebe la conexión para asegurarse de que la conexión configurada se realiza correctamente.
Importante
- Para el examen de DQ, Purview MSI debe tener acceso de colaborador al área de trabajo de Fabric para conectar el área de trabajo de Fabric. Para conceder acceso de colaborador, abra el área de trabajo de Fabric, seleccione tres puntos (...), seleccione Acceso al área de trabajo, Agregar personas o grupo y, a continuación, agregue MSI de Purview como colaborador.
- Las tablas de tejido deben estar en formato delta o iceberg.
Análisis de generación de perfiles y calidad de datos (DQ) para buscar datos en Fabric Lakehouse
Una vez completada correctamente la configuración de la conexión, puede generar perfiles, crear y aplicar reglas y ejecutar el examen de calidad de datos (DQ) de los datos en Fabric Lakehouse. Siga la guía paso a paso que se describe a continuación:
- Asocie una tabla de Lakehouse a un producto de datos para su conservación, detección y suscripción. Para obtener más información, siga el documento : cómo crear y administrar productos de datos.
- Tabla de lakehouse de Profile Fabric. Para obtener más información, siga el documento :cómo configurar y ejecutar la generación de perfiles de datos de los datos.
- Configure y ejecute el examen de calidad de datos para medir la calidad de los datos de una tabla de Lakehouse de Fabric. Para obtener más información, siga el documento: cómo configurar y ejecutar el examen de calidad de datos.
Importante
- Asegúrese de que los datos están en formato delta o iceberg.
- Asegúrese de que el examen de Mapa de datos se ejecutó correctamente, si no es así, vuelva a ejecutar el examen del mapa de datos.
Limitación
Data Quality for Parquet file está diseñado para admitir:
- Directorio con el archivo de elementos de Parquet. Por ejemplo: ./Sales/{Parquet Part Files}. El nombre completo debe seguir
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Asegúrese de que no tenemos patrones {n} en la estructura de directorios o subdirectorio, sino que debe ser un FQN directo que conduce a {SparkPartitions}. - Directorio con archivos Parquet con particiones, con particiones por columnas dentro del conjunto de datos, como los datos de ventas particionados por año y mes. Por ejemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Se admiten ambos escenarios esenciales que presentan un esquema de conjunto de datos parquet coherente. Limitación: no está diseñado para N jerarquías arbitrarias de directorios con archivos Parquet o no lo admitirá. Recomendamos al cliente que presente datos en (1) o (2) estructura construida. Por lo tanto, recomendamos al cliente que siga el estándar parquet compatible o migre sus datos al formato delta compatible con ACID .
Sugerencia
Para mapa de datos
- Asegúrese de que SPN tiene permisos de área de trabajo.
- Asegúrese de que la conexión de examen usa SPN.
- Le sugeriría ejecutar el examen completo si está configurando lakehouse scan por primera vez.
- Compruebe que los recursos ingeridos se han actualizado o actualizado.
Catálogo unificado
- La conexión de DQ debe usar las credenciales de MSI.
- Idealmente, cree un nuevo producto de datos para probar por primera vez el examen DQ de datos de LakeHouse
- Agregue los recursos de datos ingeridos y compruebe que el recurso de datos está actualizado.
- Pruebe a ejecutar el perfil, si se ejecuta correctamente, pruebe a ejecutar la regla DQ. Si no se realiza correctamente, intente actualizar el esquema de recursos (> esquema de importación de administración de esquemas)
- Algunos usuarios también tenían que crear un nuevo Lakehouse y datos de ejemplo solo para comprobar que todo funciona desde cero. En algunos casos, trabajar con recursos que se han ingerido anteriormente en el mapa de datos no es coherente.
Documentos de referencia
- Configuración y ejecución de la generación de perfiles de datos de los datos
- Configuración y ejecución del examen de calidad de datos
- Preguntas más frecuentes y autoayuda
- Configuración de la conexión de calidad de datos
- ¿Más información sobre la creación de reflejo en Fabric?
- Accesos directos de OneLake
- Data Quality for Fabric mirrored data sources (Calidad de datos para orígenes de datos reflejados en Fabric)
- Calidad de datos para los orígenes de datos de accesos directos de OneLake