解决方案构想
本文介绍了一种解决方案构想。 云架构师可以通过本指南来帮助可视化此体系结构的典型实现的主要组件。 以本文为起点,设计一个符合工作负荷特定要求的架构合理的解决方案。
此解决方案思路演示了对来自各种源的大量高速数据执行的大数据分析。
Apache® 和 Apache Kafka® 是 Apache Software Foundation 在美国和/或其他国家/地区的商标或注册商标。 使用这些标记并不暗示获得 Apache Software Foundation 的认可。
体系结构
下载此体系结构的 Visio 文件。
数据流
- 可将来自各种源的原始结构化、半结构化和非结构化(自由文本)数据(例如任何类型的日志、业务事件和用户活动)引入 Azure 数据资源管理器。
- 使用适用于 Azure 数据工厂、Azure 事件中心、Azure IoT 中心、Kafka 等的连接器以较低延迟和较高吞吐量将数据引入 Azure 数据资源管理器。 或者,可以通过 Azure 存储(Blob 或 ADLS Gen2)引入数据,Azure 存储使用 Azure 事件网格并触发到 Azure 数据资源管理器的引入管道。 还可以以压缩的分区 parquet 格式将数据连续导出到 Azure 存储,并无缝查询该数据,如连续数据导出概述中所述。
- 将预先聚合的数据从 Azure 数据资源管理器导出到 Azure 存储,然后将数据引入 Synapse Analytics 以生成数据模型和报表。
- 使用 Azure 数据资源管理器的本机功能来处理、聚合和分析数据。 若要以极快的速度获得见解,请使用 Azure 数据资源管理器仪表板、Power BI、Grafana 或其他工具生成准实时分析仪表板。 使用 Azure Synapse Analytics 生成新式数据仓库,并将其与 Azure 数据资源管理器数据相结合,以生成有关特选和聚合数据模型的 BI 报表。
- Azure 数据资源管理器为时序分析、模式识别以及异常情况检测和预测提供本机高级分析功能。 Azure 数据资源管理器还能与 Databricks 和 Azure 机器学习等 ML 服务很好地集成。 通过此集成,可使用其他工具和服务生成模型,并将 ML 模型导出到 Azure 数据资源管理器以对数据进行评分。
组件
- Azure 事件中心:完全托管的实时数据引入服务,简单、可信任且可缩放。
- Azure IoT 中心:可在 IoT 设备与 Azure 之间实现双向通信的托管服务。
- Kafka on HDInsight:简单易用、经济高效的企业级服务,使用 Apache Kafka 进行开源分析。
- Azure 数据资源管理器:快速、完全托管且高度可缩放的数据分析服务,用于实时分析从应用程序、网站和 IoT 设备等资源流式传输的大量数据。
- Azure 数据资源管理器仪表板:以本机方式将在 Web UI 中浏览的 Kusto 查询导出到经过优化的仪表板。
- Azure Synapse Analytics:将企业数据仓库和大数据分析结合在一起的分析服务。
方案详细信息
可能的用例
此解决方案演示 Azure 数据资源管理器和 Azure Synapse Analytics 如何在准实时分析和新式数据仓库用例中相辅相成。
此解决方案已由 Microsoft 客户使用。 例如,总部位于新加坡的拼车公司 Grab 针对从其出租车、食品配送服务以及商家合作伙伴应用收集的大量数据执行实时分析。 在 MS Ignite 大会上,Grab 团队在此视频中演示了其解决方案(从 20:30 开始)。 Grab 每日使用此模式处理了超过一万亿事件。
此解决方案针对零售行业进行了优化。
作者
本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。
主要作者:
- Ornat Spodek | 高级内容管理员
若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。