Google BigQuery (Preview) 的数据质量

支持的功能

扫描 Google BigQuery 源时,Purview 支持Microsoft:

  • 提取技术元数据,包括:
    • 项目和数据集
    • 包含列的表
    • 包含列的视图
  • 提取表和视图之间的资产关系的静态世系。

设置扫描时,可以选择扫描整个 Google BigQuery 项目。 还可以将扫描范围限定为与给定名称或名称模式匹配的数据集子集。

已知限制

  • 目前,Microsoft Purview 仅支持扫描美国多区域位置的 Google BigQuery 数据集。 如果指定的数据集位于其他位置(例如 us-east1 或 EU),则会看到扫描完成,但 Microsoft Purview 中未显示任何资产。
  • 从数据源中删除对象时,后续扫描当前不会自动删除 Microsoft Purview 中的相应资产。

配置数据映射扫描以编录 Microsoft Purview 中的 Google BigQuery 数据

注册 Google BigQuery 项目

  • 打开Microsoft Purview,然后在左侧导航栏中选择“数据映射”。
  • 选择“注册”。
  • 在“注册源”上,选择“Google BigQuery”。 选择 继续。
    • 输入数据源将在目录中列出的名称。
    • 输入 ProjectID。 这应该是完全限定的项目 ID。 例如,mydomain.com:myProject
    • 从列表中选择集合。
    • 选择“注册”。

为 Google BigQuery 项目设置数据映射扫描

  • 确保已设置自承载集成运行时。 如果未设置,请使用先决条件中提到的步骤
  • 导航到“源”。
  • 选择已注册的 BigQuery 项目。
  • 选择“+ 新建扫描”。
  • 提供以下详细信息:
    • 名称:扫描的名称
    • 通过集成运行时进行连接:选择配置的自承载集成运行时
    • 凭据:配置 BigQuery 凭据时,请确保:
      • 选择“基本身份验证”作为“身份验证”方法
      • 在“用户名”字段中提供服务帐户的电子邮件 ID。 例如,xyz@developer.gserviceaccount.com
      • 按照以下步骤生成私钥。 复制整个 JSON 密钥文件,并将其存储为密钥保管库机密的值。
      • 若要从 Google 的云平台创建新的私钥,请执行以下操作:
        • 在导航菜单中,选择“IAM (标识访问管理) ”,然后选择“管理员”->“服务帐户”->-“选择项目”-”>
        • 选择要为其创建密钥的服务帐户的电子邮件地址。
        • 选择“密钥”选项卡。
        • 选择“添加密钥”下拉菜单,然后选择“创建新密钥”。
        • 选择 JSON 格式。
    • 指定 JDBC (Java 数据库连接的路径,) 运行自主机集成运行时的计算机中的驱动程序位置。 例如:D:\Drivers\GoogleBigQuery。
    • 指定要导入的 BigQuery 数据集的列表。 例如,dataset1;dataset2。 当列表为空时,将导入所有可用的数据集。
    • VM) (虚拟机上可用的最大内存 ((以 GB 为单位),) 扫描进程。 这取决于要扫描的 Google BigQuery 项目的大小。
  • 选择“测试连接”。
  • 选择 继续。
  • 选择扫描触发器。 可以设置计划或运行扫描一次。
  • 查看扫描并选择“ 保存并运行”。

扫描后,Google BigQuery 项目中的数据资产将在统一目录搜索中提供。 有关如何在 Microsoft Purview 中连接和管理 Google BigQuery 的更多详细信息, 请遵循此文档。

重要

删除扫描不会删除从以前的扫描创建的目录资产。

为数据质量扫描设置与 Google BigQuery 项目的连接

此时,我们已准备好扫描的资产进行编目和治理。 将扫描的资产关联到治理域中的数据产品,以设置数据质量扫描。

  1. 选择“数据质量 > 治理域 >管理 ”选项卡以创建连接。

    显示连接页导航的屏幕截图。

  2. 配置连接

    • 添加连接名称和说明
    • 选择源类型 Google BigQuery
    • 添加项目 ID、数据集名称和表名称
    • 选择“服务帐户私钥”
      • 添加 Azure 订阅
      • Key Vault 连接
      • 机密名称
      • 机密版本
  3. 测试连接以成功配置数据源连接。

    显示如何设置 google BigQuery 连接的屏幕截图。

    显示如何为 google BigQuery 配置连接的屏幕截图。

重要

数据质量专员需要对 Google BigQuery 具有 只读 访问权限才能设置数据质量连接。 数据质量扫描服务尚不支持 Google BigQuery 数据源的 vNet 和专用终结点。

Google BigQuery 中数据的分析和数据质量扫描

成功完成连接设置后,可以在 Google BigQuery 中分析、创建和应用规则,并运行数据质量扫描。 遵循以下文档中所述的分步指南:

参考文档