快速入门:使用数据流和数据管道移动和转换数据

在本教程中,你将了解数据流和数据管道体验如何创建强大而全面的数据工厂解决方案。

先决条件

若要开始,必须满足以下先决条件:

与管道相比的数据流

借助数据流 Gen2,可使用低代码接口和超过 300 个基于数据和 AI 的转换,使你能够比使用任何其他工具更灵活地轻松清理、准备和转换数据。 数据管道提供丰富的开箱即用的数据编排功能,用于设计满足企业需求的灵活数据工作流。 在管道中,可以创建执行任务的活动的逻辑分组,其中包括调用数据流来清理和准备数据。 虽然两者之间存在一些功能重叠,但选择用于特定方案取决于你是否需要管道的完整丰富性,或者可以使用更简单但更有限的数据流功能。 有关详细信息,请参阅 Fabric 决策指南

使用数据流转换数据

按照以下步骤设置数据流。

步骤 1:创建数据流

  1. 选择已启用 Fabric 的工作区,然后选择“新建”。 然后选择“数据流 Gen2”

    屏幕截图,显示开始创建数据流 gen2 的位置。

  2. 此时会显示数据流编辑器窗口。 选择“从 SQL Server 导入”卡

    显示数据流编辑器窗口的屏幕截图。

步骤 2:获取数据

  1. 在接下来显示的 连接到数据源 对话框中,输入连接到 Azure SQL 数据库的详细信息,然后选择 下一步。 对于此示例,将使用在先决条件中设置 Azure SQL 数据库时配置的 AdventureWorksLT 示例数据库。

    显示如何连接到 Azure SQL 数据库的屏幕截图。

  2. 选择要转换的数据,然后选择 创建。 对于本快速入门,请从为 Azure SQL DB 提供的 AdventureWorksLT 示例数据中选择“SalesLT.Customer”,然后选择“选择相关表”按钮以自动包含其他两个相关表。

    显示从可用数据中选择位置的屏幕截图。

步骤 3:转换数据

  1. 如果未选中,请选择页面底部状态栏上的 图表视图 按钮,或在 Power Query 编辑器顶部的 视图 菜单下选择 图表视图。 这些选项中的任何一个都可以切换图表视图。

    显示选择关系图视图的位置的屏幕截图。

  2. 右键单击 SalesLT Customer 查询,或选择查询右侧的垂直省略号,然后选择“合并查询”。

    显示“合并查询”选项的位置的屏幕截图。

  3. 通过选择 SalesLTOrderHeader 表作为合并的右表、每个表中的 CustomerID 列作为联接列和“左外部联接”作为联接类型来配置合并。 然后选择“确定”以添加合并查询

    合并配置屏幕的屏幕截图。

  4. 从创建的新合并查询中选择“添加数据目标”按钮,该按钮类似于数据库符号,上面带有箭头。 然后选择 Azure SQL 数据库 作为目标类型。

    屏幕截图,突出显示新创建的合并查询上的“添加数据目标”按钮。

  5. 提供要在其中发布合并查询的 Azure SQL 数据库连接的详细信息。 在此示例中,也可以使用我们已用作目标的数据源的 AdventureWorksLT 数据库

    显示“连接到数据目标”对话框的屏幕截图,其中填充了示例值。

  6. 选择要存储数据的数据库,并提供表名,然后选择“下一步”

    显示“选择目标”窗口的屏幕截图。

  7. 可以在 选择目标设置 对话框中保留默认设置,只需选择 保存设置 而不在此处进行任何更改。

    显示“选择目标设置”对话框的屏幕截图。

  8. 选择 在数据流编辑器页上重新发布,以发布数据流。

    屏幕截图,其中突出显示了数据流第 2 代编辑器上的“发布”按钮。

使用数据管道移动数据

创建数据流 Gen2 后,可以在管道中对其进行操作。 在此示例中,将从数据流生成的数据复制到 Azure Blob 存储帐户中的文本格式。

步骤 1:创建新的数据管道

  1. 在工作区中,选择“新建”,然后选择“数据管道”

    显示启动新数据管道的位置的屏幕截图。

  2. 命名管道,然后选择“创建”

    屏幕截图,其中显示了包含示例管道名称的新管道创建提示。

步骤 2:配置数据流

  1. 通过在“活动”选项卡中选择 数据流,向数据管道添加新的数据流活动。

    屏幕截图,其中显示了选择数据流选项的位置。

  2. 选择管道画布上的数据流,然后选择“设置” 选项卡。从下拉列表中选择之前创建的数据流。

    屏幕截图,显示如何选择创建的数据流。

  3. 选择 保存,然后 运行 运行数据流,以最初填充在上一步中设计的合并查询表。

    屏幕截图,显示选择“运行”的位置。

步骤 3:使用复制助手添加复制活动

  1. 选择画布上的“复制数据”,打开“复制助手”工具以开始使用。 或者从功能区上“活动”选项卡下的“数据复制”下拉列表中选择“使用复制助手”

    屏幕截图,其中显示了访问复制助手的两种方法。

  2. 通过选择数据源类型来选择数据源。 在本教程中,将使用之前在创建数据流时使用的 Azure SQL 数据库来生成新的合并查询。 向下滚动至示例数据产品/服务的下方,选择Azure选项卡,然后选择Azure SQL 数据库。 然后选择“下一步”继续。

    显示数据源选择位置的屏幕截图。

  3. 通过选择“创建新连接”,创建与数据源的连接。 在面板上填写所需的连接信息,然后输入数据库的 AdventureWorksLT,我们在这里的数据流中生成了合并查询。 然后选择 下一步

    显示创建新连接的位置的屏幕截图。

  4. 选择之前在数据流步骤中生成的表格,然后选择 下一步

    显示如何从可用表中进行选择的屏幕截图。

  5. 对于目标,选择“Azure Blob 存储”,然后选择“下一步”

    显示 Azure Blob 存储数据目标的屏幕截图。

  6. 选择“创建新连接”以创建与目标的连接。 提供连接的详细信息,然后选择下一步

    显示如何创建连接的屏幕截图。

  7. 选择 文件夹路径 并提供 文件名,然后选择 下一步

    显示如何选择文件夹路径和文件名的屏幕截图。

  8. 再次选择“下一步”以接受默认文件格式、列分隔符、行分隔符和压缩类型(可选包括标头)

    显示 Azure Blob 存储中文件的配置选项的屏幕截图。

  9. 完成设置。 然后,检查并选择保存 + 运行来完成该过程。

    显示如何查看复制数据设置的屏幕截图。

步骤 5:设计数据管道并保存以运行和加载数据

  1. 若要在“数据流”活动之后运行“复制”活动,请从“数据流”活动中的“成功”拖到“复制”活动。 “复制”活动仅在“数据流”活动成功后运行

    显示如何在复制活动之后运行数据流的屏幕截图。

  2. 选择“保存”以保存数据管道。 然后选择 运行 来运行数据管道并加载数据。

    选择“保存和运行”位置的屏幕截图。

计划管道执行

完成管道开发和测试后,可以计划它自动执行。

  1. 在管道编辑器窗口的“主页”选项卡上,选择“日程安排”

    管道编辑器中“主页”选项卡菜单上的“计划”按钮的屏幕截图。

  2. 根据需要配置日程。 此处的示例计划管道在每天晚上 8:00 执行,直到年底。

    显示每天晚上 8:00 运行,直至年底的管道计划配置的屏幕截图。

此示例演示如何创建和配置数据流 Gen2 以创建合并查询并将其存储在 Azure SQL 数据库中,然后将数据库中的数据复制到 Azure Blob 存储中的文本文件中。 你已了解如何执行以下操作:

  • 创建数据流。
  • 使用数据流转换数据。
  • 使用数据流创建数据管道。
  • 对管道中的步骤执行进行排序。
  • 使用复制助手复制数据。
  • 运行并调度你的数据管道。

接下来,请继续学习,详细了解如何监视管道运行。