通过运行 Azure HDInsight 活动转换数据

Microsoft Fabric 数据工厂中的 Azure HDInsight 活动使你能编排以下 Azure HDInsight 作业类型:

  • 执行 Hive 查询
  • 调用 MapReduce 程序
  • 执行 Pig 查询
  • 执行 Spark 程序
  • 执行 Hadoop Stream 程序

本文提供分步演练,介绍如何使用数据工厂界面创建 Azure HDInsight 活动。

先决条件

如果要开始,必须满足以下先决条件:

使用 UI 将 Azure HDInsight (HDI) 活动添加到管道

  1. 在工作区中创建新数据管道。

  2. 从主屏幕卡搜索 Azure HDInsight 并选中,或者从“活动”栏选择活动以将其添加到管道画布。

    • 从主屏幕卡创建活动:

      该屏幕截图显示了创建新 Azure HDInsight 活动的位置。

    • 从“活动”栏创建活动:

      该屏幕截图显示了从管道编辑器窗口中的活动栏创建新的 Azure HDInsight 活动的位置。

  3. 在管道编辑器画布上选择新的 Azure HDInsight 活动(如果尚未选择)。

    该屏幕截图显示了管道编辑器画布上的 Azure HDInsight 活动。

    请参阅常规设置指导来配置在“常规”设置选项卡中找到的选项。

配置 HDI 群集

  1. 选择“HDI 群集”选项卡。然后,可以选择现有 HDInsight 连接或创建新的 HDInsight 连接

  2. 对于资源连接,请选择引用 Azure HDInsight 群集的 Azure Blob 存储。 可以选择现有 Blob 存储或创建一个新的 Blob 存储。

    该屏幕截图显示了 Azure HDInsight 活动的 HDI 群集属性。

配置设置

选择“设置”选项卡以查看活动的高级设置。

显示管道编辑器窗口中 Azure HDInsight 活动属性的“设置”选项卡的屏幕截图。

Azure 数据工厂和 Synapse Analytics HDInsight 链接服务中受支持的所有高级群集属性和动态表达式目前在 Microsoft Fabric 中数据工厂的 Azure HDInsight 活动中也受支持(位于 UI 中的“高级”部分下)。 这些属性都支持具有动态内容的自定义参数化表达式,这些表达式非常易于使用。

群集类型

若要配置 HDInsight 群集的设置,请首先从可用选项中选择其类型HiveMap ReducePigSparkStreaming

配置单元

如果选择 Hive 作为类型,则活动将执行 Hive 查询。 可以选择指定脚本连接,它引用包含 Hive 类型的存储帐户。 默认情况下,将使用在“HDI 群集”选项卡中指定的存储连接。 需要指定要在 Azure HDInsight 上执行的文件路径。 (可选)可以在“高级”部分中指定更多配置,例如调试信息查询超时自变量参数变量

该屏幕截图显示了 Hive 群集类型。

Map Reduce

如果选择 Map Reduce 作为类型,活动将调用 Map Reduce 程序。 可以选择指定 Jar 连接,它引用包含 Map Reduce 类型的存储帐户。 默认情况下,将使用在“HDI 群集”选项卡中指定的存储连接。 需要指定要在 Azure HDInsight 上执行的类名文件路径。 (可选)可以在“高级”部分下指定更多配置详细信息,例如导入 Jar 库、调试信息、自变量和参数。

该屏幕截图显示了已选择 Map Reduce 作为 HDInsight 群集类型。

Pig

如果选择 Pig 作为类型,活动将调用 Pig 查询。 可以选择指定脚本连接设置,它引用包含 Pig 类型的存储帐户。 默认情况下,将使用在“HDI 群集”选项卡中指定的存储连接。 需要指定要在 Azure HDInsight 上执行的文件路径。 (可选)可以在“高级”部分下指定更多配置,例如调试信息、自变量、参数和变量。

该屏幕截图显示了已选择 Pig 作为 HDInsight 群集类型。

Spark

如果选择 Spark 作为类型,活动将调用 Spark 程序。 选择 ScriptJar 作为 Spark 类型。 可以选择指定作业连接,它引用包含 Spark 类型的存储帐户。 默认情况下,将使用在“HDI 群集”选项卡中指定的存储连接。 需要指定要在 Azure HDInsight 上执行的文件路径。 (可选)可以在“高级”部分下指定更多配置,例如类名、代理用户、调试信息、自变量和 Spark 配置。

该屏幕截图显示了已选择 Spark 作为 HDInsight 群集类型。

流式处理

如果选择 Streaming 作为类型,则活动将调用流式处理程序。 指定 MapperReducer 名称,还可以选择指定文件连接,它引用包含 Streaming 类型的存储帐户。 默认情况下,将使用在“HDI 群集”选项卡中指定的存储连接。 需要指定要在 Azure HDInsight 上执行的 Mapper 文件路径Reducer 文件路径和。 同时包括 WASB 路径的输入输出选项。 (可选)可以在“高级”部分下指定更多配置,例如调试信息、自变量和参数。

该屏幕截图显示了已选择 Streaming 作为 HDInsight 群集类型。

属性参考

属性 描述 必需
type 对于 Hadoop 流式处理活动,活动类型是 HDInsightStreaming
mapper 指定映射器可执行文件的名称
reducer 指定化简器可执行文件的名称
combiner 指定合并器可执行文件的名称
文件连接 对 Azure 存储链接服务的引用,该服务用于存储要执行的映射器、合并器和化简器程序。
此处仅支持 Azure Blob 存储和 ADLS Gen2 连接。 如果不指定此连接,将使用 HDInsight 连接中定义的存储连接。
filePath 提供由文件连接引用的 Azure 存储中存储的 Mapper、Combiner 和 Reducer 程序的路径数组。
input 指定映射器输入文件的 WASB 路径。
output 指定化简器输出文件的 WASB 路径。
getDebugInfo 指定何时将日志文件复制到 HDInsight 群集使用的(或者)scriptLinkedService 指定的 Azure 存储。
允许的值:None、Always 或 Failure。 默认值:无。
参数 指定 Hadoop 作业的参数数组。 参数以命令行参数的形式传递到每个任务。
定义 在 Hive 脚本中指定参数作为键/值对,以供引用。

进行保存,并运行或计划管道

配置管道所需的任何其他活动后,切换到管道编辑器顶部的“主页”选项卡,然后选择“保存”按钮以保存管道。 选择“运行”来直接运行它,或者选择“计划”进行计划。 还可以在此处查看运行历史记录,或者配置其他设置。

显示管道编辑器的“主页”选项卡的屏幕截图,突出显示了“保存”、“运行”和“计划”按钮。

如何监视管道运行