湖屋教程:将数据引入湖屋
本教程介绍如何将 Wide World Importers (WWI) 中的更多维度和事实数据表引入到湖屋。
先决条件
- 如果没有湖屋,则必须创建湖屋。
引入数据
在本部分,使用 Azure 数据工厂管道的“复制数据活动”将 Azure 存储帐户中的示例数据引入先前创建的湖屋的“文件”部分。
在左侧导航窗格中选择“工作区”,然后从“工作区”菜单中选择新的工作区。 将会显示工作区的项视图。
在工作区功能区中的“新建项”菜单中,选择“数据管道”。
在“新建管道”对话框中,将名称指定为“IngestDataFromSourceToLakehouse”,然后选择“创建”。 将会创建并打开新的数据工厂管道。
接下来,设置 HTTP 连接以将示例 World Wide Importers 数据导入到湖屋中。 从“新源”列表中,选择“查看更多”,搜索“Http”并选择它。
在“连接到数据源”窗口中,输入下表中的详细信息,然后选择“下一步”。
属性 Value URL https://assetsprod.microsoft.com/en-us/wwi-sample-dataset.zip
Connection 创建新连接 连接名称 wwisampledata 数据网关 无 身份验证种类 匿名 在下一步中,启用“二进制副本”并选择“ZipDeflate (.zip)”作为“压缩类型”,因为源是 .zip 文件。 将其他字段保留为其默认值,然后单击“下一步”。
在“连接到数据目标”窗口中,将“根文件夹”指定为“文件”,然后单击“下一步”。 这会将数据写入湖屋的“文件”部分。
选择“二进制”作为目标的“文件格式”。 依次单击“下一步”、“保存 + 运行”。 可以将管道安排为定期刷新数据。 在本教程中,我们仅运行管道一次。 数据复制过程大约需要 10-15 分钟才能完成。
可以在“输出”选项卡中监视管道执行和活动。还可以通过选择管道名称旁边的眼镜图标(将鼠标悬停在名称上时出现)来查看详细的数据传输信息。
成功执行管道后,转到你的湖屋 (wwilakehouse),然后打开资源管理器以查看导入的数据。
验证文件夹 WideWorldImportersDW 是否存在于“资源管理器”视图中且包含所有表的数据。
数据已在湖屋资源管理器的“文件”部分下创建。 一个带有 GUID 的新文件夹包含所需的所有数据。 将 GUID 重命名为 wwi-raw-data
要将增量数据加载到湖屋,请参阅将数据从数据仓库增量加载到湖屋。