在 Microsoft Purview 中连接和管理 Google BigQuery 项目
本文概述了如何注册 Google BigQuery 项目,以及如何在 Microsoft Purview 中对 Google BigQuery 进行身份验证和交互。 有关 Microsoft Purview 的详细信息,请阅读 介绍性文章。
支持的功能
元数据提取 | 完整扫描 | 增量扫描 | 作用域扫描 | 分类 | 标记 | 访问策略 | 世系沿袭 | 数据共享 | 实时视图 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 否 | 是 | 否 | 否 | 否 | 是 | 否 | 否 |
扫描 Google BigQuery 源时,Purview 支持Microsoft:
提取技术元数据,包括:
- 项目
- 数据集
- 包含列的表
- 包含列的视图
提取表和视图之间的资产关系的静态世系。
设置扫描时,可以选择扫描整个 Google BigQuery 项目,或将扫描范围限定为与给定名称 () 或名称模式 () 匹配的数据集子集。
已知限制
- 目前,Microsoft Purview 仅支持扫描美国多区域位置的 Google BigQuery 数据集。 如果指定的数据集位于其他位置(例如 us-east1 或 EU),则会看到扫描完成,但不会在 Microsoft Purview 中显示任何资产。
- 从数据源中删除对象时,当前后续扫描不会自动删除 Microsoft Purview 中的相应资产。
先决条件
具有活动订阅的 Azure 帐户。 免费创建帐户。
需要数据源管理员和数据读取者权限才能在 Microsoft Purview 治理门户中注册和管理源。 有关权限的详细信息,请参阅 Microsoft Purview 中的访问控制。
-
-
使用自承载集成运行时:
- 按照文章创建和配置自承载集成运行时。
- 确保在安装了自承载集成运行时的计算机上安装 了 JDK 11 。 在新安装 JDK 后重启计算机,使其生效。
- 确保在运行自承载集成运行时的计算机上安装Visual C++ 可再发行程序包 (版本 Visual Studio 2012 Update 4 或更高版本) 。 如果未安装此更新, 请立即下载。
- 在运行自承载集成运行时的计算机上下载并解压缩 BigQuery JDBC 驱动程序 。 记下用于设置扫描的文件夹路径。
-
若要使用 kubernetes 支持的自承载集成运行时,
- 按照文章创建和配置 Kubernetes 支持的集成运行时。
- 在运行自承载集成运行时的计算机上下载并解压缩 BigQuery JDBC 驱动程序 。 记下用于设置扫描的文件夹路径。
注意
自承载集成运行时应可以访问驱动程序。 默认情况下,自承载集成运行时使用本地服务帐户“NT SERVICE\DIAHostService”。 确保它具有驱动程序文件夹的“读取和执行”和“列出文件夹内容”权限。
-
使用自承载集成运行时:
扫描所需的权限
用于扫描的 Google BigQuery 服务帐户需要在要扫描) 的项目上同时具有 BigQuery 元数据查看器和 BigQuery 作业用户 IAM 角色 (。 这些权限是必需的,因为 Microsoft Purview 通过读取 Google BigQuery 数据库系统表(例如INFORMATION_SCHEMA) ) (提取元数据。 当基础 Google BigQuery JDBC 驱动程序需要从这些系统表中读取时,它会创建一个 BigQuery 作业。
Microsoft Purview 使用 Oauth 2.0 协议访问 Google BigQuery 服务。 按照 创建并运行扫描 部分中的说明设置凭据。
注册
本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Google BigQuery 项目。
注册步骤
通过以下方式打开 Microsoft Purview 治理门户:
- 直接浏览并选择 https://web.purview.azure.com Microsoft Purview 帐户。
- 打开Azure 门户,搜索并选择Microsoft Purview 帐户。 选择 “Microsoft Purview 治理门户 ”按钮。
在左侧导航中选择“ 数据映射 ”。
选择“ 注册”。
在“注册源”上,选择“ Google BigQuery ”。 选择“ 继续”。
在“注册源 (Google BigQuery) ”屏幕上,执行以下操作:
输入数据源将在目录中列出的 名称 。
输入 ProjectID。 这应该是完全限定的项目 ID。 例如,mydomain.com:myProject
从列表中选择集合。
选择“注册”。
扫描
按照以下步骤扫描 Google BigQuery 项目以自动识别资产。 有关一般扫描的详细信息,请参阅 扫描和引入简介。
创建并运行扫描
在“管理中心”中,选择“集成运行时”。 确保已设置自承载集成运行时。 如果未设置,请使用 先决条件中提到的步骤。
导航到 “源”。
选择已注册的 BigQuery 项目。
选择“ + 新建扫描”。
提供以下详细信息:
名称:扫描的名称
通过集成运行时进行连接:选择配置的自承载集成运行时
凭据:配置 BigQuery 凭据时,请确保:
- 选择“ 基本身份验证” 作为“身份验证”方法
- 在“用户名”字段中提供服务帐户的电子邮件 ID。 例如,
xyz\@developer.gserviceaccount.com
- 按照以下步骤生成私钥,复制整个 JSON 密钥文件,然后将其存储为密钥保管库机密的值。
若要从 Google 的云平台创建新的私钥,请执行以下操作:
- 在导航菜单中,选择“IAM & 管理员” -> “服务帐户” -> 选择项目 ->
- 选择要为其创建密钥的服务帐户的电子邮件地址。
- 选择“ 密钥 ”选项卡。
- 选择 “添加密钥 ”下拉菜单,然后选择“创建新密钥”。
- 选择 JSON 格式。
注意
运行扫描进程时,私钥的内容保存在 VM 上的临时文件中。 扫描成功完成后,将删除此临时文件。 如果扫描失败,系统将继续重试,直到成功。 请确保在运行 SHIR 的 VM 上适当限制访问。
若要详细了解凭据,请参阅 此处的链接。
驱动程序位置:指定计算机中运行自主机集成运行时的 JDBC 驱动程序位置的路径。 例如:
D:\Drivers\GoogleBigQuery
。- 对于本地计算机上的自承载集成运行时:
D:\Drivers\GoogleBigQuery
。 它是有效 JAR 文件夹位置的路径。 该值必须是有效的绝对文件路径,并且不包含空格。 确保自承载集成运行时可以访问驱动程序;;有关详细信息,请参阅 先决条件部分。 - 对于 Kubernetes 支持的自承载集成运行时:
./drivers/GoogleBigQuery
。 它是有效 JAR 文件夹位置的路径。 该值必须是有效的相对文件路径。 请参阅文档,使用 外部驱动程序设置扫描 ,以便提前上传驱动程序。
- 对于本地计算机上的自承载集成运行时:
数据集:指定要导入的 BigQuery 数据集的列表。 例如,
dataset1;dataset2
。 当列表为空时,将导入所有可用的数据集。 可接受的数据集名称模式可以是静态名称,也可以包含通配符 %。例如:
A%;%B;%C%;D
- 从 A 或 开始
- 以 B 结尾或
- 包含 C 或
- 等于 D
不能接受使用 NOT 和特殊字符。
最大可用内存:VM 上可供扫描进程使用的最大内存 () GB。 这取决于要扫描的 Google BigQuery 项目的大小。
选择“ 测试连接”。
选择 继续。
选择 扫描触发器。 可以设置计划或运行扫描一次。
查看扫描并选择“ 保存并运行”。
查看扫描和扫描运行
查看现有扫描:
- 转到 Microsoft Purview 门户。 在左窗格中,选择“ 数据映射”。
- 选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描 。
- 选择要查看的结果的扫描。 窗格显示之前的所有扫描运行,以及每个扫描运行的状态和指标。
- 选择运行 ID 以检查扫描运行详细信息。
管理扫描
若要编辑、取消或删除扫描,请执行以下操作:
转到 Microsoft Purview 门户。 在左窗格中,选择“ 数据映射”。
选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描 。
选择要管理的扫描。 然后,可以:
- 通过选择“编辑扫描 ”来编辑扫描。
- 选择“取消扫描运行”, 取消正在进行的扫描。
- 通过选择“删除扫描” 来删除扫描。
注意
- 删除扫描不会删除从以前的扫描创建的目录资产。
世系沿袭
扫描 Google BigQuery 源后,可以 浏览数据目录 或 搜索数据目录 以查看资产详细信息。
转到“资产 -> 世系”选项卡,可以看到资产关系(如果适用)。 有关支持的 Google BigQuery 世系方案,请参阅支持 的功能 部分。 有关世系的一般信息,请参阅 数据世系 和 世系用户指南。
后续步骤
注册源后,请按照以下指南详细了解Microsoft Purview 和数据。