Calidad de los datos de Google BigQuery (versión preliminar)
Funciones admitidas
Al examinar el origen de Google BigQuery, Microsoft Purview admite:
- Extracción de metadatos técnicos, entre los que se incluyen:
- Proyectos y conjuntos de datos
- Tablas que incluyen las columnas
- Vistas que incluyen las columnas
- Captura del linaje estático en las relaciones de recursos entre tablas y vistas.
Al configurar el examen, puede elegir examinar todo un proyecto de Google BigQuery. También puede limitar el examen a un subconjunto de conjuntos de datos que coincidan con los nombres especificados o patrones de nombres.
Limitaciones conocidas
- Actualmente, Microsoft Purview solo admite el examen de conjuntos de datos de Google BigQuery en la ubicación multiregiones de EE. UU. Si el conjunto de datos especificado se encuentra en otra ubicación, por ejemplo, us-east1 o UE, observará que el examen se completa, pero no se muestra ningún recurso en Microsoft Purview.
- Cuando se elimina el objeto del origen de datos, actualmente el examen posterior no quita automáticamente el recurso correspondiente en Microsoft Purview.
Configuración del examen del mapa de datos para catalogar datos de Google BigQuery en Microsoft Purview
Registro de un proyecto de Google BigQuery
- Abra Microsoft Purview y seleccione Mapa de datos en el panel de navegación izquierdo.
- Seleccione Registrar.
- En Registrar orígenes, seleccione Google BigQuery. Seleccione Continuar.
- Escriba un nombre que indique que el origen de datos aparecerá en el catálogo.
- Escriba projectid. Debe ser un identificador de proyecto completo. Por ejemplo, mydomain.com: myProject
- Seleccione una colección de la lista.
- Seleccione Registrar.
Configuración de un examen de mapa de datos para un proyecto de Google BigQuery
- Asegúrese de que está configurado un entorno de ejecución de integración autohospedado. Si no está configurado, use los pasos mencionados en los requisitos previos.
- Vaya a Orígenes.
- Seleccione el proyecto de BigQuery registrado.
- Seleccione + Nuevo examen.
- Proporcione los detalles siguientes:
- Nombre: nombre del examen
- Conectar a través de Integration Runtime: seleccione el entorno de ejecución de integración autohospedado configurado.
- Credencial: al configurar las credenciales de BigQuery, asegúrese de:
- Seleccione Autenticación básica como método de autenticación.
- Proporcione el identificador de correo electrónico de la cuenta de servicio en el campo Nombre de usuario. Por ejemplo: xyz@developer.gserviceaccount.com
- Siga estos pasos para generar la clave privada. Copie todo el archivo de clave JSON y almacénelo como el valor de un secreto de Key Vault.
- Para crear una nueva clave privada desde la plataforma en la nube de Google:
- En el menú de navegación, seleccione IAM (Identity Access Management) y seleccione Administración --> Cuentas de servicio --> Seleccionar un proyecto -->
- Seleccione la dirección de correo electrónico de la cuenta de servicio para la que desea crear una clave.
- Seleccione la pestaña Claves.
- Seleccione el menú desplegable Agregar clave y, a continuación, seleccione Crear nueva clave.
- Elija formato JSON.
- Especifique la ruta de acceso a la ubicación del controlador JDBC (Java Database Connectivity) en la máquina donde se ejecuta el entorno de ejecución de integración de autohospedado. Por ejemplo: D:\Drivers\GoogleBigQuery.
- Especifique una lista de conjuntos de datos de BigQuery que se van a importar. Por ejemplo, dataset1; dataset2. Cuando la lista está vacía, se importan todos los conjuntos de datos disponibles.
- Memoria máxima (en GB) disponible en la máquina virtual (máquina virtual) que van a usar los procesos de examen. Esto depende del tamaño del proyecto de Google BigQuery que se va a examinar.
- Seleccione Probar conexión.
- Seleccione Continuar.
- Elija el desencadenador de examen. Puede configurar una programación o ejecutar el examen una vez.
- Revise el examen y seleccione Guardar y ejecutar.
Una vez examinados, los recursos de datos del proyecto Google BigQuery estarán disponibles en la búsqueda de Catálogo unificado. Para obtener más información sobre cómo conectarse y administrar Google BigQuery en Microsoft Purview, siga este documento.
Importante
La eliminación del examen no elimina los recursos de catálogo creados a partir de exámenes anteriores.
Configuración de la conexión al proyecto de Google BigQuery para el examen de calidad de datos
En este momento, tenemos el recurso escaneado listo para la catalogación y la gobernanza. Asocie los recursos examinados a los productos de datos de un dominio de gobernanza para configurar el examen de calidad de datos.
Seleccione la pestaña Administración de dominios > de gobernanza de calidad > de datos para crear la conexión.
Configuración de la conexión
- Adición del nombre y la descripción de la conexión
- Seleccionar tipo de origen Google BigQuery
- Agregar id. de proyecto, nombre del conjunto de datos y nombre de tabla
- Seleccione Clave privada de cuenta de servicio
- Incorporación de una suscripción de Azure
- Conexión de Key Vault
- nombre del secreto
- Versión del secreto
Pruebe la conexión para que la conexión del origen de datos se haya configurado correctamente.
Importante
Los administradores de calidad de datos necesitan acceso de solo lectura a Google BigQuery para configurar la conexión de calidad de datos. La red virtual y el punto de conexión privado no se admiten todavía para el origen de datos de Google BigQuery para el servicio de análisis de calidad de datos.
Generación de perfiles y examen de calidad de datos para datos en Google BigQuery
Una vez completada correctamente la configuración de la conexión, puede generar perfiles, crear y aplicar reglas y ejecutar el examen de calidad de datos de los datos en Google BigQuery. Siga la guía paso a paso que se describe en los documentos siguientes:
- Configuración y ejecución de la generación de perfiles de datos de los datos
- Configuración y ejecución del examen de calidad de datos