你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

快速入门:使用 Azure Synapse Pipelines 引入数据(预览版)

本快速入门介绍如何将数据从数据源加载到 Azure Synapse 数据资源管理器池。

先决条件

  • Azure 订阅。 创建免费 Azure 帐户

  • 使用 Synapse StudioAzure 门户创建数据资源管理器池

  • 创建数据资源管理器数据库。

    1. 在 Synapse Studio 的左窗格中,选择“数据”。

    2. 选择“+”(添加新资源)>“数据资源管理器池”,并使用以下信息:

      设置 建议值 说明
      池名称 contosodataexplorer 要使用的数据资源管理器池的名称
      名称 TestDatabase 该数据库名称在群集中必须是唯一的。
      默认保留期 365 保证数据可供查询的时间跨度(以天为单位)。 时间跨度从引入数据时算起。
      默认缓存期 31 使频繁查询的数据在 SSD 存储或 RAM(而不是更长期的存储)中保持可用的时间跨度(以天为单位)。
    3. 选择“创建”以创建数据库。 创建过程通常需要不到一分钟的时间。

  • 创建表

    1. 在 Synapse Studio 的左侧窗格中,选择“开发”。
    2. 在“KQL 脚本”下,选择“+”(添加新资源)>“KQL 脚本”。 可在右侧窗格中命名脚本。
    3. 在“连接到”菜单中,选择“contosodataexplorer”。
    4. 在“使用数据库”菜单中,选择“TestDatabase”。
    5. 粘贴以下命令,然后选择“运行”以创建表。
    .create table StormEvents (StartTime: datetime, EndTime: datetime, EpisodeId: int, EventId: int, State: string, EventType: string, InjuriesDirect: int, InjuriesIndirect: int, DeathsDirect: int, DeathsIndirect: int, DamageProperty: int, DamageCrops: int, Source: string, BeginLocation: string, EndLocation: string, BeginLat: real, BeginLon: real, EndLat: real, EndLon: real, EpisodeNarrative: string, EventNarrative: string, StormSummary: dynamic)
    

    提示

    确认是否已成功创建表。 在左侧窗格中,依次选择“数据”、“contosodataexplorer”更多菜单和“刷新”。 在“contosodataexplorer”下,展开“表”,并确保“StormEvents”表已显示在列表中。

  • 获取查询和数据引入终结点。 需要查询终结点来配置链接服务。

    1. 在 Synapse Studio 的左侧窗格中,选择“管理”>“数据资源管理器池” 。

    2. 选择要用于查看其详细信息的数据资源管理器池。

      Screenshot of the Data Explorer pools screen, showing the list of existing pools.

    3. 记录查询和数据引入终结点。 在配置到数据资源管理器池的连接时,请使用查询终结点作为群集。 为数据引入配置 SDK 时,请使用数据引入终结点。

      Screenshot of the Data Explorer pools properties pane, showing the Query and Data Ingestion URI addresses.

创建链接服务

在 Azure Synapse Analytics 中,链接服务是定义到其他服务的连接信息的一个位置。 在本部分,你将为 Azure 数据资源管理器创建一个链接服务。

  1. 在 Synapse Studio 的左侧窗格中,选择“管理”>“链接服务” 。

  2. 选择“+ 新建” 。

    Screenshot of the Linked services screen, showing the list of existing services and highlighting the add new button.

  3. 从库中选择“Azure 数据资源管理器”服务,然后选择“继续” 。

    Screenshot of the new Linked services pane, showing the list of available services and highlighting the add new Azure Data Explorer service.

  4. 在“新建链接服务”页中,使用以下信息:

    设置 建议值 说明
    名称 contosodataexplorerlinkedservice 新的 Azure 数据资源管理器链接服务的名称。
    身份验证方法 托管标识 新服务的身份验证方法。
    帐户选择方法 手动输入 用于指定查询终结点的方法。
    终结点 https://contosodataexplorer.contosoanalytics.dev.kusto.windows.net 之前记下的查询终结点。
    数据库 TestDatabase 要用于引入数据的数据库。

    Screenshot of the new Linked services details pane, showing the fields that need to be completed for the new service.

  5. 选择“测试连接”以验证设置,然后选择“创建” 。

创建管道以引入数据

管道包含用于执行一组活动的逻辑流。 在本部分,你将创建一个包含复制活动的管道,该复制活动将数据从首选源中引入数据资源管理器池。

  1. 在 Synapse Studio 的左侧窗格中,选择“集成”。

  2. 选择“+”>“管道”。 在右侧窗格中可命名管道。

    Screenshot showing the selection for creating a new pipeline.

  3. 在“活动”>“移动和转换”下,将“复制数据”拖到管道画布上

  4. 选择复制活动并转到“源”选项卡。选择或创建新的源数据集作为要从中复制数据的源。

  5. 转到“接收器”选项卡。选择“新建”以创建新的接收器数据集。

    Screenshot of the pipeline copy activity, showing the selection for creating a new sink.

  6. 从库中选择“Azure 数据资源管理器”数据集,然后选择“继续” 。

  7. 在“设置属性”窗格中使用以下信息,然后选择“确定” 。

    设置 建议值 说明
    名称 AzureDataExplorerTable 新管道的名称。
    链接服务 contosodataexplorerlinkedservice 之前创建的链接服务。
    StormEvents 之前创建的表。

    Screenshot of the pipeline copy activity set properties pane, showing the fields that need to be completed for the new sink.

  8. 若要验证管道,请选择工具栏中的“验证”。 你可以在页面右侧看到管道验证输出的结果。

调试和发布管道

完成管道配置后,在发布项目之前你可以执行调试运行,以验证是否所有事项都正确。

  1. 在工具栏上选择“调试”。 可以在窗口底部的“输出”选项卡中看到管道运行的状态。

  2. 管道运行成功后,在顶部工具栏中选择“全部发布”。 此操作将你创建的实体(数据集和管道)发布到 Synapse Analytics 服务。

  3. 等待“已成功发布”消息出现。 若要查看通知消息,请选择右上角的铃铛按钮。

触发和监视管道

在本部分中,手动触发在上一步骤中发布的管道。

  1. 选择工具栏中的“添加触发器”,然后选择“立即触发”。 在“管道运行”页上,选择“确定”。

  2. 转到左侧边栏中的“监视器”选项卡。 此时会看到由手动触发器触发的管道运行。

  3. 管道运行成功完成后,选择“管道名称”列下的链接以查看活动运行详细信息或重新运行管道。 此示例中只有一个活动,因此列表中只看到一个条目。

  4. 有关复制操作的详细信息,请选择“活动名称”列下的“详细信息”链接(眼镜图标) 。 可以监视详细信息,例如,从源复制到接收器的数据量、吞吐量、执行步骤以及相应的持续时间和使用的配置。

  5. 若要切换回到管道运行视图,请选择顶部的“所有管道运行”链接。 选择“刷新”可刷新列表。

  6. 验证数据是否已正确写入到数据资源管理器池中。

后续步骤