通过运行 Azure HDInsight 活动转换数据
Microsoft Fabric 数据工厂中的 Azure HDInsight 活动使你能编排以下 Azure HDInsight 作业类型:
- 执行 Hive 查询
- 调用 MapReduce 程序
- 执行 Pig 查询
- 执行 Spark 程序
- 执行 Hadoop Stream 程序
本文提供分步演练,介绍如何使用数据工厂界面创建 Azure HDInsight 活动。
先决条件
如果要开始,必须满足以下先决条件:
- 具有有效订阅的租户帐户。 免费创建帐户。
- 创建了工作区。
使用 UI 将 Azure HDInsight (HDI) 活动添加到管道
在工作区中创建新数据管道。
从主屏幕卡搜索 Azure HDInsight 并选中,或者从“活动”栏选择活动以将其添加到管道画布。
在管道编辑器画布上选择新的 Azure HDInsight 活动(如果尚未选择)。
请参阅常规设置指导来配置在“常规”设置选项卡中找到的选项。
配置 HDI 群集
选择“HDI 群集”选项卡。然后,可以选择现有 HDInsight 连接或创建新的 HDInsight 连接。
对于资源连接,请选择引用 Azure HDInsight 群集的 Azure Blob 存储。 可以选择现有 Blob 存储或创建一个新的 Blob 存储。
配置设置
选择“设置”选项卡以查看活动的高级设置。
Azure 数据工厂和 Synapse Analytics HDInsight 链接服务中受支持的所有高级群集属性和动态表达式目前在 Microsoft Fabric 中数据工厂的 Azure HDInsight 活动中也受支持(位于 UI 中的“高级”部分下)。 这些属性都支持具有动态内容的自定义参数化表达式,这些表达式非常易于使用。
群集类型
若要配置 HDInsight 群集的设置,请首先从可用选项中选择其类型,Hive、Map Reduce、Pig、Spark 和 Streaming。
配置单元
如果选择 Hive 作为类型,则活动将执行 Hive 查询。 可以选择指定脚本连接,它引用包含 Hive 类型的存储帐户。 默认情况下,将使用在“HDI 群集”选项卡中指定的存储连接。 需要指定要在 Azure HDInsight 上执行的文件路径。 (可选)可以在“高级”部分中指定更多配置,例如调试信息、查询超时、自变量、参数和变量。
Map Reduce
如果选择 Map Reduce 作为类型,活动将调用 Map Reduce 程序。 可以选择指定 Jar 连接,它引用包含 Map Reduce 类型的存储帐户。 默认情况下,将使用在“HDI 群集”选项卡中指定的存储连接。 需要指定要在 Azure HDInsight 上执行的类名和文件路径。 (可选)可以在“高级”部分下指定更多配置详细信息,例如导入 Jar 库、调试信息、自变量和参数。
Pig
如果选择 Pig 作为类型,活动将调用 Pig 查询。 可以选择指定脚本连接设置,它引用包含 Pig 类型的存储帐户。 默认情况下,将使用在“HDI 群集”选项卡中指定的存储连接。 需要指定要在 Azure HDInsight 上执行的文件路径。 (可选)可以在“高级”部分下指定更多配置,例如调试信息、自变量、参数和变量。
Spark
如果选择 Spark 作为类型,活动将调用 Spark 程序。 选择 Script 或 Jar 作为 Spark 类型。 可以选择指定作业连接,它引用包含 Spark 类型的存储帐户。 默认情况下,将使用在“HDI 群集”选项卡中指定的存储连接。 需要指定要在 Azure HDInsight 上执行的文件路径。 (可选)可以在“高级”部分下指定更多配置,例如类名、代理用户、调试信息、自变量和 Spark 配置。
流式处理
如果选择 Streaming 作为类型,则活动将调用流式处理程序。 指定 Mapper 和 Reducer 名称,还可以选择指定文件连接,它引用包含 Streaming 类型的存储帐户。 默认情况下,将使用在“HDI 群集”选项卡中指定的存储连接。 需要指定要在 Azure HDInsight 上执行的 Mapper 文件路径和 Reducer 文件路径和。 同时包括 WASB 路径的输入和输出选项。 (可选)可以在“高级”部分下指定更多配置,例如调试信息、自变量和参数。
属性参考
属性 | 描述 | 必需 |
---|---|---|
type | 对于 Hadoop 流式处理活动,活动类型是 HDInsightStreaming | 是 |
mapper | 指定映射器可执行文件的名称 | 是 |
reducer | 指定化简器可执行文件的名称 | 是 |
combiner | 指定合并器可执行文件的名称 | 否 |
文件连接 | 对 Azure 存储链接服务的引用,该服务用于存储要执行的映射器、合并器和化简器程序。 | 否 |
此处仅支持 Azure Blob 存储和 ADLS Gen2 连接。 如果不指定此连接,将使用 HDInsight 连接中定义的存储连接。 | ||
filePath | 提供由文件连接引用的 Azure 存储中存储的 Mapper、Combiner 和 Reducer 程序的路径数组。 | 是 |
input | 指定映射器输入文件的 WASB 路径。 | 是 |
output | 指定化简器输出文件的 WASB 路径。 | 是 |
getDebugInfo | 指定何时将日志文件复制到 HDInsight 群集使用的(或者)scriptLinkedService 指定的 Azure 存储。 | 否 |
允许的值:None、Always 或 Failure。 默认值:无。 | ||
参数 | 指定 Hadoop 作业的参数数组。 参数以命令行参数的形式传递到每个任务。 | 否 |
定义 | 在 Hive 脚本中指定参数作为键/值对,以供引用。 | 否 |
进行保存,并运行或计划管道
配置管道所需的任何其他活动后,切换到管道编辑器顶部的“主页”选项卡,然后选择“保存”按钮以保存管道。 选择“运行”来直接运行它,或者选择“计划”进行计划。 还可以在此处查看运行历史记录,或者配置其他设置。