你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
快速入门:使用 Azure Synapse Pipelines 引入数据(预览版)
本快速入门介绍如何将数据从数据源加载到 Azure Synapse 数据资源管理器池。
先决条件
Azure 订阅。 创建免费 Azure 帐户。
使用 Synapse Studio 或 Azure 门户创建数据资源管理器池
创建数据资源管理器数据库。
在 Synapse Studio 的左窗格中,选择“数据”。
选择“+”(添加新资源)>“数据资源管理器池”,并使用以下信息:
设置 建议值 说明 池名称 contosodataexplorer 要使用的数据资源管理器池的名称 名称 TestDatabase 该数据库名称在群集中必须是唯一的。 默认保留期 365 保证数据可供查询的时间跨度(以天为单位)。 时间跨度从引入数据时算起。 默认缓存期 31 使频繁查询的数据在 SSD 存储或 RAM(而不是更长期的存储)中保持可用的时间跨度(以天为单位)。 选择“创建”以创建数据库。 创建过程通常需要不到一分钟的时间。
创建表
- 在 Synapse Studio 的左侧窗格中,选择“开发”。
- 在“KQL 脚本”下,选择“+”(添加新资源)>“KQL 脚本”。 可在右侧窗格中命名脚本。
- 在“连接到”菜单中,选择“contosodataexplorer”。
- 在“使用数据库”菜单中,选择“TestDatabase”。
- 粘贴以下命令,然后选择“运行”以创建表。
.create table StormEvents (StartTime: datetime, EndTime: datetime, EpisodeId: int, EventId: int, State: string, EventType: string, InjuriesDirect: int, InjuriesIndirect: int, DeathsDirect: int, DeathsIndirect: int, DamageProperty: int, DamageCrops: int, Source: string, BeginLocation: string, EndLocation: string, BeginLat: real, BeginLon: real, EndLat: real, EndLon: real, EpisodeNarrative: string, EventNarrative: string, StormSummary: dynamic)
提示
确认是否已成功创建表。 在左侧窗格中,依次选择“数据”、“contosodataexplorer”更多菜单和“刷新”。 在“contosodataexplorer”下,展开“表”,并确保“StormEvents”表已显示在列表中。
获取查询和数据引入终结点。 需要查询终结点来配置链接服务。
在 Synapse Studio 的左侧窗格中,选择“管理”>“数据资源管理器池” 。
选择要用于查看其详细信息的数据资源管理器池。
记录查询和数据引入终结点。 在配置到数据资源管理器池的连接时,请使用查询终结点作为群集。 为数据引入配置 SDK 时,请使用数据引入终结点。
创建链接服务
在 Azure Synapse Analytics 中,链接服务是定义到其他服务的连接信息的一个位置。 在本部分,你将为 Azure 数据资源管理器创建一个链接服务。
在 Synapse Studio 的左侧窗格中,选择“管理”>“链接服务” 。
选择“+ 新建” 。
从库中选择“Azure 数据资源管理器”服务,然后选择“继续” 。
在“新建链接服务”页中,使用以下信息:
设置 建议值 说明 名称 contosodataexplorerlinkedservice 新的 Azure 数据资源管理器链接服务的名称。 身份验证方法 托管标识 新服务的身份验证方法。 帐户选择方法 手动输入 用于指定查询终结点的方法。 终结点 https://contosodataexplorer.contosoanalytics.dev.kusto.windows.net 你之前记下的查询终结点。 数据库 TestDatabase 要用于引入数据的数据库。 选择“测试连接”以验证设置,然后选择“创建” 。
创建管道以引入数据
管道包含用于执行一组活动的逻辑流。 在本部分,你将创建一个包含复制活动的管道,该复制活动将数据从首选源中引入数据资源管理器池。
在 Synapse Studio 的左侧窗格中,选择“集成”。
选择“+”>“管道”。 在右侧窗格中可命名管道。
在“活动”>“移动和转换”下,将“复制数据”拖到管道画布上。
选择复制活动并转到“源”选项卡。选择或创建新的源数据集作为要从中复制数据的源。
转到“接收器”选项卡。选择“新建”以创建新的接收器数据集。
从库中选择“Azure 数据资源管理器”数据集,然后选择“继续” 。
在“设置属性”窗格中使用以下信息,然后选择“确定” 。
设置 建议值 说明 名称 AzureDataExplorerTable 新管道的名称。 链接服务 contosodataexplorerlinkedservice 之前创建的链接服务。 表 StormEvents 之前创建的表。 若要验证管道,请选择工具栏中的“验证”。 你可以在页面右侧看到管道验证输出的结果。
调试和发布管道
完成管道配置后,在发布项目之前你可以执行调试运行,以验证是否所有事项都正确。
在工具栏上选择“调试”。 可以在窗口底部的“输出”选项卡中看到管道运行的状态。
管道运行成功后,在顶部工具栏中选择“全部发布”。 此操作将你创建的实体(数据集和管道)发布到 Synapse Analytics 服务。
等待“已成功发布”消息出现。 若要查看通知消息,请选择右上角的铃铛按钮。
触发和监视管道
在本部分中,手动触发在上一步骤中发布的管道。
选择工具栏中的“添加触发器”,然后选择“立即触发”。 在“管道运行”页上,选择“确定”。
转到左侧边栏中的“监视器”选项卡。 此时会看到由手动触发器触发的管道运行。
管道运行成功完成后,选择“管道名称”列下的链接以查看活动运行详细信息或重新运行管道。 此示例中只有一个活动,因此列表中只看到一个条目。
有关复制操作的详细信息,请选择“活动名称”列下的“详细信息”链接(眼镜图标) 。 可以监视详细信息,例如,从源复制到接收器的数据量、吞吐量、执行步骤以及相应的持续时间和使用的配置。
若要切换回到管道运行视图,请选择顶部的“所有管道运行”链接。 选择“刷新”可刷新列表。
验证数据是否已正确写入到数据资源管理器池中。