你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
使用流分析无代码编辑器在 Azure Cosmos DB 中具体化数据
本文介绍如何使用无代码编辑器轻松创建流分析作业。 该作业不断从事件中心读取数据,并执行计数、求和以及平均值等聚合。 在一个时间范围内选择要作为分组依据的字段,然后该作业不断将结果写入 Azure Cosmos DB。
先决条件
- Azure 事件中心和 Azure Cosmos DB 资源必须可公开访问,并且不能位于防火墙之后或在 Azure 虚拟网络安全保护之中。
- 事件中心中的数据必须以 JSON、CSV 或 Avro 格式进行序列化。
开发流分析作业
使用以下步骤开发流分析作业以具体化 Azure Cosmos DB 中的数据。
- 在 Azure 门户中,找到并选择你的 Azure 事件中心实例。
- 在“功能”下,选择“处理数据”。 然后,在标题为“在 Azure Cosmos DB 中具体化数据”的卡片中选择“开始”。
- 为作业输入名称,然后选择“创建”。
- 指定事件中心中数据的“序列化”类型和作业将用于连接到事件中心的“身份验证方法”。 然后选择“连接” 。
- 连接成功并且数据流流入事件中心实例后,你将立即看到两项内容:
- 在下一步骤中,指定要计算的字段和聚合(例如平均值和计数)。 你也可以指定要作为分组依据的字段以及时间范围。 然后,可以在“数据预览”部分中验证步骤的结果。
- 选择要将结果写入其中的 Cosmos DB 数据库和容器。
- 通过选择“开始”来启动流分析作业。
若要启动作业,必须指定:- 作业运行时使用的流单元 (SU) 数量。 SU 表示分配给作业的计算和内存量。 建议先选用 3,再根据需要进行调整。
- 输出数据错误处理 - 允许指定当作业到目标的输出因数据错误而失败时所需的行为。 默认情况下,作业会重试,直到写入操作成功。 你也可以选择删除输出事件。
- 选择“开始”后,作业将在两分钟内开始运行。 在“流分析作业”选项卡中的“处理数据”部分下查看该作业。可以浏览作业指标并根据需要停止和重启该作业。
使用事件中心的异地复制功能时的注意事项
Azure 事件中心最近在公共预览版中推出了异地复制功能。 此功能与 Azure 事件中心的异地灾难恢复功能不同。
当故障转移类型为“强制”且复制一致性为“异步”时,流分析作业无法保证只将数据输出到 Azure 事件中心一次。
Azure 流分析作为使用事件中心作为输出的生产者,可能会在故障转移期间以及当主服务器和辅助服务器之间的复制延迟达到配置的最大延迟时在事件中心进行限制期间观察到作业上的水印延迟。
Azure 流分析作为使用事件中心作为输入的使用者,可能会在故障转移期间观察到作业上的水印延迟,并且可能会在故障转移完成后跳过数据或找到重复的数据。
考虑到这些注意事项,我们建议你在事件中心故障转移完成后立即在适当的开始时间重启流分析作业。 此外,由于事件中心异地复制功能为公共预览版,因此我们目前不建议将此模式用于生产性流分析作业。 在事件中心异地复制功能正式发布并可用于流分析生产作业之前,当前的流分析行为会得到改进。
后续步骤
现在,你已了解如何使用流分析无代码编辑器开发从事件中心读取数据,计算聚合(例如计数、平均值),然后将结果写入 Azure Cosmos DB 资源的作业。