在 Microsoft Purview 中连接和管理 Hive 元存储数据库
本文概述了如何注册 Hive 元存储数据库,以及如何在 Microsoft Purview 中对 Hive 元存储数据库进行身份验证和交互。 有关 Microsoft Purview 的详细信息,请阅读 介绍性文章。
支持的功能
元数据提取 | 完整扫描 | 增量扫描 | 作用域扫描 | 分类 | 标记 | 访问策略 | 世系沿袭 | 数据共享 | 实时视图 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 否 | 是 | 否 | 否 | 否 | 是的* | 否 | 否 |
* 除了数据源中资产的世系之外,如果数据集用作 数据工厂 或 Synapse 管道中的源/接收器,也支持沿袭。
支持的 Hive 版本为 2.x 到 3.x。 支持的平台是 Apache Hadoop、Cloudera 和 Hortonworks。 如果要扫描 Azure Databricks,建议使用 Azure Databricks 连接器,该连接器更兼容且用户更友好。
扫描 Hive 元存储源时,Purview Microsoft 支持:
提取技术元数据,包括:
- 服务器
- Databases
- 表,包括列、外键、唯一约束和存储说明
- 视图,包括列和存储说明
提取表和视图之间的资产关系的静态世系。
设置扫描时,可以选择扫描整个 Hive 元存储数据库,或将扫描范围限定为与给定名称 () 或名称模式 () 匹配的架构子集。
已知限制
从数据源中删除对象时,当前后续扫描不会自动删除 Microsoft Purview 中的相应资产。
先决条件
必须具有具有活动订阅的 Azure 帐户。 免费创建帐户。
必须具有有效的 Microsoft Purview 帐户。
需要数据源管理员和数据读取者权限才能在 Microsoft Purview 治理门户中注册和管理源。 有关权限的详细信息,请参阅 Microsoft Purview 中的访问控制。
如果数据源不可公开访问,请设置最新的自承载集成运行时。
-
为方案选择适当的集成运行时:
-
使用自承载集成运行时:
- 按照文章创建和配置自承载集成运行时。
- 确保在安装了自承载集成运行时的计算机上安装 了 JDK 11 。 在新安装 JDK 后重启计算机,使其生效。
- 确保在运行自承载集成运行时的计算机上安装Visual C++ 可再发行程序包 (版本 Visual Studio 2012 Update 4 或更高版本) 。 如果未安装此更新, 请立即下载。
- 在运行自承载集成运行时的计算机上下载 Hive 元存储数据库的 JDBC 驱动程序。 例如,如果数据库为 mssql,请下载Microsoft的 JDBC 驱动程序进行SQL Server。 记下用于设置扫描的文件夹路径。
-
若要使用 kubernetes 支持的自承载集成运行时,
- 按照文章创建和配置 Kubernetes 支持的集成运行时。
- 在运行自承载集成运行时的计算机上下载 Hive 元存储数据库的 JDBC 驱动程序。 例如,如果数据库为 mssql,请下载Microsoft的 JDBC 驱动程序进行SQL Server。 记下用于设置扫描的文件夹路径。
-
使用自承载集成运行时:
注意
自承载集成运行时应可以访问 JDBC 驱动程序。 默认情况下,自承载集成运行时使用本地服务帐户“NT SERVICE\DIAHostService”。 确保它具有驱动程序文件夹的“读取和执行”和“列出文件夹内容”权限。
-
为方案选择适当的集成运行时:
注册
本部分介绍如何使用 Microsoft Purview 治理门户在 Microsoft Purview 中注册 Hive 元存储数据库。
Hive 元存储数据库唯一支持的身份验证是基本身份验证。
通过以下方式打开 Microsoft Purview 治理门户:
- 直接浏览并选择 https://web.purview.azure.com Microsoft Purview 帐户。
- 打开Azure 门户,搜索并选择Microsoft Purview 帐户。 选择 “Microsoft Purview 治理门户 ”按钮。
在左窗格中选择“ 数据映射 ”。
选择“注册”。
在 “注册源”中,选择“ Hive 元存储>继续”。
在 “注册源 (Hive 元存储) ”屏幕上,执行以下操作:
对于 “名称”,请输入Microsoft Purview 将列为数据源的名称。
对于 Hive 群集 URL,请输入从 Ambari URL 获取的值。 例如,输入 hive.azurehdinsight.net。
对于 Hive 元存储服务器 URL,请输入服务器的 URL。 例如,输入 sqlserver://hive.database.windows.net。
从列表中选择集合。
选择“完成”。
扫描
使用以下步骤扫描 Hive 元存储数据库以自动标识资产。 有关一般扫描的详细信息,请参阅 Microsoft Purview 中的扫描和引入。
在“管理中心”中,选择“集成运行时”。 确保已设置自承载集成运行时。 如果未设置,请使用 先决条件中的步骤。
转到 “源”。
选择已注册的 Hive 元存储数据库。
选择“ + 新建扫描”。
提供以下详细信息:
名称:输入扫描的名称。
通过集成运行时进行连接:选择配置的自承载集成运行时。
凭据:选择要连接到数据源的凭据。 请确保:
- 创建凭据时选择“基本身份验证”。
- 在相应的框中提供元存储用户名。
- 将元存储密码存储在密钥中。
有关详细信息,请参阅 Microsoft Purview 中的源身份验证凭据。
元存储 JDBC 驱动程序位置:指定计算机中运行自主机集成运行时的 JDBC 驱动程序位置的路径。 例如,
D:\Drivers\HiveMetastore
。- 对于本地计算机上的自承载集成运行时:
D:\Drivers\HiveMetastore
。 它是有效 JAR 文件夹位置的路径。 该值必须是有效的绝对文件路径,并且不包含空格。 确保自承载集成运行时可以访问驱动程序;;有关详细信息,请参阅 先决条件部分。 - 对于 Kubernetes 支持的自承载集成运行时:
./drivers/HiveMetastore
。 它是有效 JAR 文件夹位置的路径。 该值必须是有效的相对文件路径。 请参阅文档,使用 外部驱动程序设置扫描 ,以便提前上传驱动程序。
- 对于本地计算机上的自承载集成运行时:
元存储 JDBC 驱动程序类:提供连接驱动程序的类名称。 例如,输入 \com.microsoft.sqlserver.jdbc.SQLServerDriver。
元存储 JDBC URL:提供连接 URL 值并定义与元存储数据库服务器 URL 的连接。 例如:
jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300
。注意
从 hive-site.xml复制 URL 时,从字符串中删除
amp;
,否则扫描将失败。将 SSL 证书下载 到自承载集成运行时计算机,然后在 URL 中更新 SSL 证书在计算机上位置的路径。
在扫描配置中输入本地文件路径时,请将 Windows 路径分隔符字符从反斜杠 ()
\
更改为正斜杠 (/
) 。 例如,如果将 SSL 证书放置在本地文件路径 D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem,请将serverSslCert
参数值更改为 D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem。元存储 JDBC URL 值将类似于以下示例:
jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem
元存储数据库名称:提供 Hive 元存储数据库的名称。
架构:指定要导入的 Hive 架构的列表。 例如: schema1;schema2。
如果该列表为空,则导入所有用户架构。 所有系统架构 (例如,默认情况下,SysAdmin) 和 对象将被忽略。
使用 SQL
LIKE
表达式语法的可接受架构名称模式包括百分号 (%) 。 例如,A%; %B; %C%; D
表示:- 从 A 或 开始
- 以 B 或 结尾
- 包含 C 或
- 等于 D
NOT
不接受使用 和 特殊字符。最大可用内存:客户计算机上可供扫描进程使用的最大内存 () GB。 此值取决于要扫描的 Hive 元存储数据库的大小。
注意
作为经验法则,请为每 1000 个表提供 1GB 内存。
选择 继续。
对于 “扫描触发器”,选择是设置计划还是运行扫描一次。
查看扫描并选择“ 保存并运行”。
查看扫描和扫描运行
查看现有扫描:
- 转到 Microsoft Purview 门户。 在左窗格中,选择“ 数据映射”。
- 选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描 。
- 选择要查看的结果的扫描。 窗格显示之前的所有扫描运行,以及每个扫描运行的状态和指标。
- 选择运行 ID 以检查扫描运行详细信息。
管理扫描
若要编辑、取消或删除扫描,请执行以下操作:
转到 Microsoft Purview 门户。 在左窗格中,选择“ 数据映射”。
选择数据源。 可以在“最近扫描”下查看该数据源上的现有 扫描列表,也可以在“扫描”选项卡上查看所有 扫描 。
选择要管理的扫描。 然后,可以:
- 通过选择“编辑扫描 ”来编辑扫描。
- 选择“取消扫描运行”, 取消正在进行的扫描。
- 通过选择“删除扫描” 来删除扫描。
注意
- 删除扫描不会删除从以前的扫描创建的目录资产。
世系沿袭
扫描 Hive 元存储源后,可以 浏览数据目录 或 搜索数据目录 以查看资产详细信息。
转到“资产 -> 世系”选项卡,可以看到资产关系(如果适用)。 有关支持的 Hive 元存储世系方案,请参阅支持 的功能 部分。 有关世系的一般信息,请参阅 数据世系 和 世系用户指南。
后续步骤
注册源后,请使用以下指南详细了解Microsoft Purview 和数据: