Conexión y administración del catálogo de Azure Databricks Unity en Microsoft Purview
En este artículo se describe cómo registrar Azure Databricks y cómo autenticarse e interactuar con el catálogo de Azure Databricks Unity en Microsoft Purview. Para obtener más información sobre Microsoft Purview, lea el artículo introductorio.
Funciones admitidas
Extracción de metadatos | Examen completo | Examen incremental | Examen con ámbito | Clasificación | Etiquetar | Directiva de acceso | Linaje | Compartir datos | Vista en directo |
---|---|---|---|---|---|---|---|---|---|
Sí | Sí | Sí | Sí | Sí | No | No | Sí | No | No |
Al examinar el catálogo de Azure Databricks Unity, Microsoft Purview admite:
- Extracción de metadatos técnicos, entre los que se incluyen:
- Metastore
- Catálogos
- Schemas
- Tablas que incluyen las columnas
- Vistas que incluyen las columnas
- Captura del linaje en las relaciones de recursos entre tablas, vistas y columnas durante las ejecuciones del cuaderno.
Al configurar el examen, puede elegir examinar todo el catálogo de Unity o limitar el examen a un subconjunto de catálogos.
Nota:
Este conector trae metadatos del catálogo de Azure Databricks Unity. Para examinar los metadatos con ámbito de área de trabajo de Azure Databricks, consulte Conector de Metastore de Hive de Azure Databricks.
Limitaciones conocidas
- Cuando se elimina el objeto del origen de datos, actualmente el examen posterior no quitará automáticamente el recurso correspondiente en Microsoft Purview.
- Para más información sobre otras limitaciones relacionadas con el linaje nativo de Azure Databricks, consulte la documentación de Azure Databricks.
Requisitos previos
Debe tener una cuenta de Azure con una suscripción activa. Cree una cuenta de forma gratuita.
Debe tener una cuenta de Microsoft Purview activa.
Necesita una Key Vault de Azure y conceder permisos de Microsoft Purview para acceder a los secretos.
Necesita permisos de administrador de origen de datos y lector de datos para registrar un origen y administrarlo en el portal de gobernanza de Microsoft Purview. Para obtener más información sobre los permisos, consulte Control de acceso en Microsoft Purview.
Para examinar el catálogo de Azure Databricks Unity, Microsoft Purview se conecta a una instancia de SQL Warehouse en el área de trabajo y usa el token de acceso personal para la autenticación. Debe tener un área de trabajo de Azure Databricks habilitada y conectada al metastore que desea examinar. En el área de trabajo de Azure Databricks:
Cree una instancia de SQL Warehouse. También puede usar el almacén de inicio creado automáticamente, si procede.
Anote la ruta de acceso HTTP. Puede encontrarlo en el área de trabajo de Azure Databricks:> SQL Warehouses,> el almacenamiento,> los detalles de conexión y> la ruta de acceso HTTP.
Asegúrese de que el usuario tiene el permiso Can Use para conectarse a Azure Databricks SQL Warehouse. Obtenga más información sobre el control de acceso de SQL Warehouse.
Para capturar el linaje de Azure Databricks mediante Microsoft Purview, deben cumplirse los siguientes requisitos previos:
Habilitar el esquema del sistema: el esquema del sistema system.access debe estar habilitado en el catálogo de Unity. Esto es necesario porque la información de linaje se almacena en tablas del sistema y habilitar este esquema permite el acceso a esas tablas. Obtenga más información sobre la supervisión del uso con tablas del sistema.
Privilegios de usuario: la cuenta de usuario utilizada para el examen debe tener privilegios SELECT en las siguientes tablas del sistema:
system.access.table_lineage
system.access.column_lineage
Estos permisos son necesarios porque los datos de linaje se leen directamente desde las tablas del sistema y, sin el acceso necesario, Microsoft Purview no puede recuperar la información de linaje.
Si el área de trabajo de Azure Databricks no permite el acceso desde la red pública o si la cuenta de Microsoft Purview no habilita el acceso desde todas las redes, puede usar el Virtual Network Integration Runtime administrado o un entorno de ejecución de integración autohospedado compatible con kubernetes para examinar. Puede configurar un punto de conexión privado administrado para Azure Databricks según sea necesario para establecer la conectividad privada.
Autenticación para un examen
Puede usar tokens de acceso personal, identidades administradas o métodos de autenticación de entidad de servicio para examinar el catálogo de Azure Databricks Unity.
- Identidad administrada asignada por el sistema o por el usuario
- Token de acceso personal
- Entidad de servicio
Si se usa una identidad administrada asignada por el sistema o por el usuario
- Seleccione la identidad administrada asignada por el sistema o asignada por el usuario en Credencial.
Para usar una identidad administrada asignada por el usuario, debe configurar la autenticación de identidades administradas de Azure para Azure Databricks.
Para todos los objetos que desea traer a Microsoft Purview, el usuario o la entidad de servicio deben tener al menos el privilegio SELECT en tablas o vistas, USE CATALOG en el catálogo del objeto y USE SCHEMA en el esquema del objeto.
Para examinar todos los objetos de un metastore del catálogo de Unity, use un usuario o una entidad de servicio con el rol de administrador de metastore. Obtenga más información en Administrar privilegios en el catálogo de Unity y los privilegios del catálogo de Unity y objetos protegibles.
Para la clasificación, el usuario también debe tener privilegios SELECT en las tablas o vistas para recuperar datos de ejemplo.
Registrarse
En esta sección se describe cómo registrar un área de trabajo de Azure Databricks en Microsoft Purview mediante el portal de gobernanza de Microsoft Purview.
Vaya a su cuenta de Microsoft Purview.
Seleccione Mapa de datos en el panel izquierdo.
Seleccione Registrar.
En Registrar orígenes, seleccioneContinuar del catálogo > de Unity de Azure Databricks.
En la pantalla Registrar orígenes (catálogo de Azure Databricks Unity), haga lo siguiente:
En Nombre, escriba un nombre que Microsoft Purview mostrará como origen de datos.
En Metastore ID (Id. de metastore), proporcione el identificador de metastore para el metastore del catálogo de Unity de Azure Databricks que desea examinar.
Seleccione una colección de la lista.
- Seleccione Finalizar.
Examinar
Sugerencia
Para solucionar cualquier problema con el examen:
- Confirme que ha seguido todos los requisitos previos.
- Revise nuestra documentación de solución de problemas de examen.
Siga estos pasos para examinar Azure Databricks para identificar automáticamente los recursos. Para obtener más información sobre el examen en general, consulte Exámenes e ingesta en Microsoft Purview.
Vaya a Orígenes.
Seleccione la instancia de Azure Databricks registrada.
Seleccione + Nuevo examen.
Proporcione los detalles siguientes:
Nombre: escriba un nombre para el examen.
Conectar a través del entorno de ejecución de integración: elija el entorno de ejecución de integración de Azure predeterminado, managed VNet IR o un entorno de ejecución de integración autohospedado compatible con Kubernetes que creó.
Credencial: seleccione la credencial para conectarse al origen de datos. Asegúrese de:
- Seleccione Token de acceso, Identidad administrada o Entidad de servicio.
- Puede crear una nueva credencial de token de acceso o entidad de servicio al registrar un examen. Para obtener más información, consulte Credenciales para la autenticación de origen en Microsoft Purview.
Dirección URL del área de trabajo: Proporcione la dirección URL del área de trabajo que desea examinar.
Ruta de acceso HTTP: Especifique la ruta de acceso HTTP de Databricks SQL Warehouse a la que Microsoft Purview se conectará y realizará el examen, por ejemplo,
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx
. Puede encontrarlo en el área de trabajo de Azure Databricks:> SQL Warehouses,> el almacenamiento,> los detalles de conexión y> la ruta de acceso HTTP.Extracción de linaje: Cambie la extracción de linaje a Activado para capturar el linaje de los recursos examinados.
Seleccione Probar conexión para validar la configuración.
Seleccione Continuar.
En Desencadenador de examen, elija si desea configurar una programación o ejecutar el examen una vez.
Revise el examen y seleccione Guardar y ejecutar.
Una vez que el examen se complete correctamente, vea cómo examinar y buscar recursos.
Visualización de los exámenes y las ejecuciones de examen
Para ver los exámenes existentes:
- Vaya al portal de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
- Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
- Seleccione el examen que tiene los resultados que desea ver. En el panel se muestran todas las ejecuciones de examen anteriores, junto con el estado y las métricas de cada ejecución de examen.
- Seleccione el identificador de ejecución para comprobar los detalles de la ejecución del examen.
Administrar los exámenes
Para editar, cancelar o eliminar un examen:
Vaya al portal de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
Seleccione el examen que desea administrar. Después, podrá:
- Edite el examen seleccionando Editar examen.
- Para cancelar un examen en curso, seleccione Cancelar ejecución del examen.
- Para eliminar el examen, seleccione Eliminar examen.
Nota:
- La eliminación del examen no elimina los recursos de catálogo creados a partir de exámenes anteriores.
Examinar y buscar recursos
Después de examinar Azure Databricks, puede examinar Catálogo unificado o buscar Catálogo unificado para ver los detalles del recurso y el linaje.
Al examinar por tipos de origen, verá dos entradas para El catálogo de Azure Databricks Unity y Azure Databricks , respectivamente. El primero contiene los artefactos del catálogo de Unity, incluidos el metastore y sus catálogos, esquemas, tablas o vistas, mientras que el segundo contiene los artefactos del área de trabajo.
En el recurso del área de trabajo de Azure Databricks, puede encontrar el catálogo de Unity asociado en la pestaña Propiedades, también se aplica inverso.
Linaje
Al examinar un recurso de Azure Databricks determinado, puede ver los cuadernos que han capturado el linaje.
Vaya a la pestaña recurso -> linaje; puede ver el linaje en el recurso de Azure Databricks Notebook o en el recurso de tabla/vista cuando corresponda.
Consulte la sección funcionalidades admitidas en los escenarios de linaje del catálogo de Databricks Unity compatibles. Para obtener más información sobre el linaje en general, consulte guía del usuario de linaje y linaje de datos.
Preguntas más frecuentes (P+F)
¿Microsoft Purview captura el linaje de nivel de columna del catálogo de Unity?
Microsoft Purview puede capturar el linaje tanto en el nivel de tabla o vista del catálogo de Unity como en el nivel de columna.
No veo linaje de nivel de columna, ¿qué está pasando?
El linaje de nivel de columna se genera cuando el cuaderno se ejecuta desde un clúster y no se genera a través de un almacén de SQL.
Recibo un error de tiempo de espera, ¿qué hago?
Cuando hay un gran volumen de recursos en el área de trabajo, el examen podría no completarse. En este caso, puede limitar el examen a algunos catálogos a la vez, lo que reducirá el volumen de recursos por examen y permitirá que los exámenes se completen.
Acabo de ejecutar mi cuaderno, pero Microsoft Purview no capturó el linaje. ¿Qué pasa?
Es posible que databricks tarde unos minutos en actualizar la información de linaje en sus tablas del sistema después de la ejecución del cuaderno. Microsoft Purview podrá capturar el linaje una vez que se actualicen las tablas del sistema.
Pasos siguientes
Ahora que el origen está registrado, use las siguientes guías para obtener más información sobre Microsoft Purview y sus datos: