你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure 数据工厂中的 Power Query 活动
Power Query 活动可让你生成和执行 Power Query 混合活动,以便在数据工厂管道中大规模执行数据整理操作。 可以通过“新建资源”菜单选项创建新的 Power Query 混合活动,也可以通过将 Power 活动添加到管道来这样做。
可以直接在 Power Query 混合活动编辑器中进行操作,以执行交互式数据浏览操作并保存工作。 完成后,可以获取 Power Query 活动并将其添加到管道。 Azure 数据工厂会使用 Azure 数据工厂的数据流 Spark 环境自动将其横向扩展并使数据整理可以操作。
使用 UI 创建 Power Query 活动
若要在管道中使用 Power Query 活动,请完成以下步骤:
在管道“活动”窗格中搜索 Power Query,然后将 Power Query 活动拖动到管道画布上。
如果尚未选择画布上的新 Power Query 活动,请选择它及其“设置”选项卡,以编辑详细信息。
选择现有的 Power Query 并选择“打开”,或者选择“新建”按钮以创建新的 Power Query,从而打开 Power Query 编辑器。
选择现有数据集或“新建”以定义新数据集。 直接在管道编辑体验中使用 Power Query 的丰富功能以按需转换数据集。 可以在编辑器中从多个数据集添加多个查询,并随后使用它们。
在上一步中定义一个或多个 Power Query 后,也可在 Power Query 活动的“接收器”选项卡上为其中的任何/全部/无接收器指定接收器位置。
也可以将 Power Query 活动的输出用作其他活动的输入。 以下示例是一个 For Each 活动,该活动引用了之前为其 Items 属性定义的 Power Query 的输出。 其 Items 属性支持动态内容,可在其中引用 Power Query 中用作其输入的任何输出。
定义动态内容时,可以通过在“管道表达式生成器”窗格中选择任何活动输出来显示和使用它们。
转换为数据流脚本
为了通过 Power Query 活动实现缩放,Azure 数据工厂会将 M
脚本转换为数据流脚本,以便你可以使用 Azure 数据工厂数据流 Spark 环境大规模执行 Power Query。 请通过无代码数据准备创作整理数据流。 有关可用函数的列表,请参阅转换函数。
设置
- Power Query:选择要执行的现有 Power Query 或新建一个。
- 在 Azure IR 上运行:选择现有 Azure Integration Runtime 来为 Power Query 定义计算环境,或者新建一个。
- 计算类型:如果选择默认自动解析集成运行时,则可以选择要应用于 Power Query 执行的 Spark 群集计算的计算类型。
- 内核计数:如果选择默认自动解析集成运行时,则可以选择要应用于 Power Query 执行的 Spark 群集计算的内核数。
接收器
选择在 Spark 上执行 Power Query M 脚本后,要用于登陆已转换数据的数据集。 有关配置接收器的详细信息,请访问数据流接收器文档。
可以选择将输出接收到多个目标。 单击加号 (+) 按钮为查询添加更多接收器。 也可将整理的 Power Query 活动中的每个单独的查询输出定向到不同的目标。
映射
在“映射”选项卡中,可以配置从 Power Query 活动输出到所选接收器的目标架构的列映射。 在数据流接收器映射文档中了解有关列映射的详细信息。
相关内容
通过 Azure 数据工厂中的 Power Query 详细了解数据整理概念