你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

以 Delta Lake 格式从事件中心捕获数据

本文介绍如何使用无代码编辑器在事件中心中以 Delta Lake 格式自动捕获 Azure Data Lake Storage Gen2 帐户中的流式数据。

先决条件

  • Azure 事件中心和 Azure Data Lake Storage Gen2 资源必须可公开访问,并且不能位于防火墙后面或在 Azure 虚拟网络中受到保护。
  • 事件中心中的数据必须以 JSON、CSV 或 Avro 格式进行序列化。

配置用于捕获数据的作业

使用以下步骤配置用于捕获 Azure Data Lake Storage Gen2 中的数据的流分析作业。

  1. 在 Azure 门户中,导航到你的事件中心。

  2. 选择“功能”>“处理数据”,然后在“以 Delta Lake 格式将数据捕获到 ADLS Gen2”卡上选择“开始”。
    显示处理事件中心数据起始卡的屏幕截图。

    或者,选择“功能”>“捕获”,在“输出事件序列化格式”下选择“Delta Lake”选项,然后选择“启动数据捕获配置”。 显示捕获数据创建入口点的屏幕截图。

  3. 输入用于标识流分析作业的名称。 选择“创建”。
    显示“新建流分析作业”窗口的屏幕截图,可在该窗口中输入作业名称。

  4. 指定事件中心中数据的“序列化”类型和作业将用于连接到事件中心的“身份验证方法”。 然后选择“连接” 。 显示事件中心连接配置的屏幕截图。

  5. 成功建立连接后,你将看到:

    • 输入数据中存在的字段。 可以选择“添加字段”,也可以选择字段旁边的三个点符号来选择性地删除、重命名或更改其名称。
    • 图表视图下的“数据预览”表中的传入数据的实时示例。 它会定期刷新。 可以选择“暂停流式预览”以查看示例输入的静态视图。
      显示“数据预览”下的示例数据的屏幕截图。
  6. 选择“Azure Data Lake Storage Gen2”磁贴以编辑配置。

  7. 在“Azure Data Lake Storage Gen2 ”配置页中,按以下步骤执行操作:

    1. 从下拉菜单中选择订阅、存储帐户名称和容器。

    2. 选择订阅后,应会自动填充身份验证方法和存储帐户密钥。

    3. 对于 Delta 表路径,它用于指定存储在 Azure Data Lake Storage Gen2 中的 Delta Lake 表的位置和名称。 可以选择使用一个或多个路径段来定义 Delta 表的路径和 Delta 表名称。 若要了解详细信息,请参阅写入 Delta Lake 表

    4. 选择“连接”。

      第一个屏幕截图显示“Blob”窗口,可在其中编辑 Blob 的连接配置。

  8. 建立连接后,你将看到输出数据中存在的字段。

  9. 选择命令栏上的“保存”以保存你的配置。

  10. 选择命令栏上的“开始”启动流式处理流,以捕获数据。 然后在“启动流分析作业”窗口中:

    1. 选择输出开始时间。
    2. 选择作业运行时使用的流单元 (SU) 数量。 SU 表示分配用于执行流分析作业的计算资源。 有关详细信息,请参阅 Azure 流分析中的流单元
      显示“启动流分析作业”窗口的屏幕截图,可在该窗口中设置输出开始时间、流式处理单位和错误处理。
  11. 选择“启动”后,作业将在两分钟内开始运行,并且指标将在选项卡部分打开,如下图所示。 显示指标图表的屏幕截图。

  12. 可以在“流分析作业”选项卡上看到新作业。屏幕截图显示已选中“打开指标”链接。

验证输出

验证 Delta lake 格式的 Parquet 文件是否在 Azure Data Lake Storage 容器中生成。

显示 Azure Data Lake Storage (ADLS) 容器中生成的 Parquet 文件的屏幕截图。

使用事件中心的异地复制功能时的注意事项

Azure 事件中心最近在公共预览版中推出了异地复制功能。 此功能与 Azure 事件中心的异地灾难恢复功能不同。

当故障转移类型为“强制”且复制一致性为“异步”时,流分析作业无法保证只将数据输出到 Azure 事件中心一次

Azure 流分析作为使用事件中心作为输出的生产者,可能会在故障转移期间以及当主服务器和辅助服务器之间的复制延迟达到配置的最大延迟时在事件中心进行限制期间观察到作业上的水印延迟

Azure 流分析作为使用事件中心作为输入的使用者,可能会在故障转移期间观察到作业上的水印延迟,并且可能会在故障转移完成后跳过数据或找到重复的数据

考虑到这些注意事项,我们建议你在事件中心故障转移完成后立即在适当的开始时间重启流分析作业。 此外,由于事件中心异地复制功能为公共预览版,因此我们目前不建议将此模式用于生产性流分析作业。 在事件中心异地复制功能正式发布并可用于流分析生产作业之前,当前的流分析行为会得到改进。

后续步骤

现在你知道如何使用流分析无代码编辑器来创建以 Delta lake 格式将事件中心数据捕获到 Azure Data Lake Storage Gen2 的作业。 接下来,可以详细了解 Azure 流分析以及如何监视已创建的作业。