湖屋教程:将数据引入湖屋

本教程介绍如何将 Wide World Importers (WWI) 中的更多维度和事实数据表引入到湖屋。

先决条件

引入数据

在本部分,使用 Azure 数据工厂管道的“复制数据活动”将 Azure 存储帐户中的示例数据引入先前创建的湖屋的“文件”部分。

  1. 在左侧导航窗格中选择“工作区”,然后从“工作区”菜单中选择新的工作区。 将会显示工作区的项视图。

  2. 在工作区功能区中的“新建项”菜单中,选择“数据管道”。

    显示如何创建新的数据管道的屏幕截图。

  3. 在“新建管道”对话框中,将名称指定为“IngestDataFromSourceToLakehouse”,然后选择“创建”。 将会创建并打开新的数据工厂管道。

  4. 接下来,设置 HTTP 连接以将示例 World Wide Importers 数据导入到湖屋中。 从“新源”列表中,选择“查看更多”,搜索“Http”并选择它。

    屏幕截图显示了在何处选择 HTTP 源。

  5. 在“连接到数据源”窗口中,输入下表中的详细信息,然后选择“下一步”

    属性 Value
    URL https://assetsprod.microsoft.com/en-us/wwi-sample-dataset.zip
    Connection 创建新连接
    连接名称 wwisampledata
    数据网关
    身份验证种类 匿名

    屏幕截图显示了用于配置 Http 连接的参数。

  6. 在下一步中,启用“二进制副本”并选择“ZipDeflate (.zip)”作为“压缩类型”,因为源是 .zip 文件。 将其他字段保留为其默认值,然后单击“下一步”

    屏幕截图显示了如何选择压缩类型。

  7. 在“连接到数据目标”窗口中,将“根文件夹”指定为“文件”,然后单击“下一步”。 这会将数据写入湖屋的“文件”部分。

    屏幕截图显示了湖屋的目标连接设置。

  8. 选择“二进制”作为目标的“文件格式”。 依次单击“下一步”、“保存 + 运行”。 可以将管道安排为定期刷新数据。 在本教程中,我们仅运行管道一次。 数据复制过程大约需要 10-15 分钟才能完成。

    屏幕截图显示了目标文件格式。

  9. 可以在“输出”选项卡中监视管道执行和活动。还可以通过选择管道名称旁边的眼镜图标(将鼠标悬停在名称上时出现)来查看详细的数据传输信息。

    屏幕截图显示了复制管道活动的状态。

  10. 成功执行管道后,转到你的湖屋 (wwilakehouse),然后打开资源管理器以查看导入的数据。

    屏幕截图显示了如何导航到湖屋。

  11. 验证文件夹 WideWorldImportersDW 是否存在于“资源管理器”视图中且包含所有表的数据。

    显示源数据复制到湖屋资源管理器中的屏幕截图。

  12. 数据已在湖屋资源管理器的“文件”部分下创建。 一个带有 GUID 的新文件夹包含所需的所有数据。 将 GUID 重命名为 wwi-raw-data

要将增量数据加载到湖屋,请参阅将数据从数据仓库增量加载到湖屋

下一步