Calidad de los datos de las bases de datos del catálogo de Unity de databricks
Para usar el catálogo de Unity, el área de trabajo de Azure Databricks debe estar habilitada para el catálogo de Unity, lo que significa que el área de trabajo está asociada a un metastore del catálogo de Unity. Todas las áreas de trabajo nuevas están habilitadas para el catálogo de Unity automáticamente al crearse, pero es posible que las áreas de trabajo anteriores requieran que un administrador de la cuenta habilite el catálogo de Unity manualmente. Independientemente de si el área de trabajo se ha habilitado para el catálogo de Unity automáticamente, también se requieren los pasos siguientes para empezar a trabajar con el catálogo de Unity:
- Cree catálogos y esquemas para que contengan objetos de base de datos como tablas y volúmenes.
- Cree ubicaciones de almacenamiento administradas para almacenar las tablas y volúmenes administrados en estos catálogos y esquemas.
- Conceda al usuario acceso a catálogos, esquemas y objetos de base de datos.
Las áreas de trabajo que se habilitan automáticamente para el catálogo de Unity aprovisionan un catálogo de áreas de trabajo con amplios privilegios concedidos a todos los usuarios del área de trabajo. Este catálogo es un punto de partida conveniente para probar el catálogo de Unity.
Para obtener instrucciones de configuración detalladas, consulte Configuración y administración del catálogo de Unity.
Al examinar el catálogo de Azure Databricks Unity, Microsoft Purview admite:
- Metastore
- Catálogos
- Schemas
- Tablas que incluyen las columnas
- Vistas que incluyen las columnas
Al configurar el examen, puede elegir examinar todo el catálogo de Unity o limitar el examen a un subconjunto de catálogos.
Configuración del examen de Mapa de datos para catalogar datos del catálogo de Databricks Unity en Microsoft Purview
- Registro de un área de trabajo de Azure Databricks en Microsoft Purview
- Examen del área de trabajo de Azure Databricks registrada
- Escriba el nombre del examen.
- Selección del catálogo de Unity como método de extracción
- Conexión a través de Integration Runtime (Azure Integration Runtime, Managed VNet IR o un entorno de ejecución de integración autohospedado compatible con Kubernetes que ha creado)
- Seleccione Autenticación de token de acceso al crear una credencial. Para obtener más información, consulte Credenciales para la autenticación de origen en Microsoft Purview.
- Especifique la ruta de acceso HTTP de Databricks SQL Warehouse a la que Microsoft Purview se conectará y realizará el examen.
- En la página Ámbito del examen, seleccione los catálogos que desea examinar.
- Seleccione un conjunto de reglas de examen para la clasificación. Puede elegir entre los conjuntos de reglas personalizados predeterminados del sistema existentes o crear un nuevo conjunto de reglas alineado. Consulte el artículo Clasificación para obtener más información.
- En Desencadenador de examen, elija si desea configurar una programación o ejecutar el examen una vez.
- Revise el examen y seleccione Guardar y ejecutar.
- Vea los exámenes y ejecute el examen para completar la catalogación de los datos.
Una vez examinado, el recurso de datos del Catálogo de Unity (UC) estará disponible en Catálogo unificado de Microsoft Purview búsqueda. Para obtener más información sobre cómo conectarse y administrar el catálogo de Azure Databricks Unity en Microsoft Purview, siga este documento.
Importante
- Seleccione Autenticación de token de acceso al crear una credencial.
- Coloque el token de acceso en la Key Vault de Azure hospedada y conecte el almacén de claves al administrador de conexiones.
- Asegúrese de proporcionar acceso de lectura (secreto) msi del producto (servicio) al Key Vault.
Configuración de la conexión a databricks UC para el examen de calidad de datos
En este momento, tenemos el recurso escaneado listo para la catalogación y la gobernanza. Asocie el recurso examinado al producto de datos en una sele de dominio de gobernanza. En la pestaña Calidad de datos, agregue un nuevo Azure SQL Conexión a la base de datos: escriba manualmente el nombre de la base de datos.
Seleccione la pestaña Administración de dominios > de gobernanza de calidad > de datos para crear la conexión.
Configure la conexión en la página de conexión.
- Adición del nombre y la descripción de la conexión
- seleccionar tipo de origen Azure Databricks
- seleccionar la dirección URL del área de trabajo
- seleccionar el catálogo de Unity como método de extracción
- seleccionar ruta de acceso HTTP
- seleccionar el nombre del catálogo de Unity
- seleccionar el nombre del esquema
- seleccionar el nombre de la tabla
- seleccionar método de autenticación: token de acceso
- Incorporación de una suscripción de Azure
- Conexión de Key Vault
- nombre del secreto
- Versión del secreto
Prueba de la conexión
Importante
- Los administradores de calidad de datos necesitan acceso de solo lectura al catálogo de Unity de DataBrics de Azure para configurar la conexión de calidad de datos.
- Aún no se admite la red virtual.
Generación de perfiles y examen de calidad de datos para datos en bases de datos del catálogo de Unity de Azure Databricks.
Una vez completada correctamente la configuración de la conexión, puede generar perfiles, crear y aplicar reglas y ejecutar el examen de DQ de los datos en bases de datos del catálogo de Unity de Azure Databricks. Siga la guía paso a paso que se describe en los documentos siguientes:
- Configuración y ejecución de la generación de perfiles de datos de los datos
- Configuración y ejecución del examen de calidad de datos