探索分析数据处理

已完成

分析数据处理通常使用存储大量历史数据或业务指标的只读(或以只读为主)系统。 分析可以基于给定时间点的数据快照或一系列快照。

分析处理系统的具体细节可能因解决方案而异,但企业级分析的通用体系结构如下所示:

显示分析数据库体系结构的示意图,其中包含下面所述的编号元素。

  1. 操作数据提取、转换和加载 (ETL) 到数据湖中进行分析。
  2. 数据加载到表的架构中 - 通常位于对数据湖中的文件进行表格抽象的基于 Spark 的数据湖屋中,或者位于使用完全关系 SQL 引擎的数据仓库。
  3. 数据仓库中的数据可以聚合并加载到联机分析处理 (OLAP) 模型或多维数据集中。 针对维度表中维度的交集计算来自事实数据表的聚合数值(度量值)。 例如,销售额可以按日期、客户和产品合计。
  4. 可查询 Data Lake、数据仓库和分析模型中的数据,以生成报表、可视化效果和仪表板。

数据湖在大规模数据分析处理场景中很常见,在该场景中,必须收集和分析大量基于文件的数据。

数据仓库是一种将数据存储在针对读取操作进行了优化的关系架构中的既定方式 - 主要是对支持报表和数据可视化的查询。 数据湖屋是一项最新创新,可将数据湖的灵活且可缩放的存储与数据仓库的关系查询语义相结合。 表架构可能需要对 OLTP 数据源中的数据进行一些非规范化(引入一些重复以更快地执行查询)。

OLAP 模型是一种聚合类型的数据存储,它针对分析工作负载进行了优化。 数据聚合跨不同级别的维度,这样你就可以向上/向下钻取以查看多个层次结构级别的聚合;例如,按区域、城市或单个地址查找总销售额。 由于 OLAP 数据是预先聚合的,因此可以快速运行返回其包含的摘要的查询。

不同类型的用户可以在整个体系结构的不同阶段执行数据分析工作。 例如:

  • 数据科学家可以直接使用 Data Lake 中的数据文件来探索和建模数据。
  • 数据分析师可以直接在数据仓库中查询表,以生成复杂的报表和可视化效果。
  • 业务用户可能会以报表或仪表板的形式使用分析模型中的预先聚合的数据。