介绍奖牌体系结构
Fabric 中的数据湖屋基于 Delta Lake 格式构建,该格式原生支持 ACID(原子性、一致性、隔离性、持续性)事务。 在此框架中,奖牌体系结构是一种建议的数据设计模式,用于以逻辑方式组织湖屋中的数据。 它旨在提高在不同层中移动的数据质量。 该体系结构通常有三个层:青铜(原始)、白银(验证)和黄金(扩充),每层都代表更高的数据质量级别。 有些人还将其称为“多跃点”体系结构,这意味着数据可以根据需要在层之间移动。
此体系结构可确保数据在经过各种检查和更改时是可靠和一致的。 它还保证以一种更容易、更快分析的方式安全地存储数据。
奖牌体系结构补充了其他数据组织方法,而不是取代它们。 你可以将奖牌体系结构视为数据清理的框架,而不是数据体系结构或模型。 它可确保企业在采用其优势和现有数据模型方面兼具兼容性和灵活性,使你能够自定义数据解决方案并保留专业知识,同时在不断变化的数据环境中保持适应性。
了解奖牌体系结构格式
铜牌服务层
奖牌体系结构的青铜或原始层是湖屋的第一层。 它是所有数据的登陆区域,无论是结构化的、半结构化的还是非结构化的。 数据以其原始格式存储,不会对其进行任何更改。
银牌服务层
白银层或验证层是湖屋的第二层。 你将在其中验证和优化数据。 白银层中的典型活动包括组合和合并数据,以及强制实施数据验证规则,例如删除 null 和删除重复数据。 白银层可以被视为整个组织或团队的中央存储库,数据以一致的格式存储,并且可以由多个团队访问。 在白银层中,你将充分清理数据,以便所有内容都位于一个位置,并准备好在黄金层进行优化和建模。
金牌服务层
黄金或扩充层是湖屋的第三层。 在黄金层,数据经过进一步优化,可满足特定的业务和分析需求。 这可能涉及将数据聚合到特定粒度(例如每日或每小时),或使用外部信息对其进行扩充。 数据到达黄金阶段后,即可供下游团队使用,包括分析、数据科学或机器学习运营。
自定义奖牌体系结构
根据组织的特定用例,你可能需要更多层。 例如,在将数据转换为青铜层之前,你可能有一个额外“原始”层,用于以特定格式登陆数据。 或者,对于已针对特定用例进一步优化和扩充的数据,你可能具有一个“白金”层。 无论层的名称和数量如何,奖牌体系结构都非常灵活,可以根据组织的特定要求进行定制。
在 Fabric 中跨层移动数据
跨奖牌层移动数据可优化、组织数据,并为下游数据活动准备数据。 在 Fabric 的湖屋中,可通过多种方式在层之间移动数据,确保你可以选择适合团队的方法。
在决定如何跨层移动和转换数据时,需要考虑一些事项。
- 你正在处理多少数据?
- 你需要进行的转换有多复杂?
- 你多久需要在层之间移动一次数据?
- 你最熟悉哪些工具?
了解数据转换和数据业务流程之间的差异有助于在 Fabric 中为作业选择合适的工具。
数据转换涉及更改数据的结构或内容来满足特定要求。 Fabric 中的数据转换工具包括 Dataflows (Gen2) 和笔记本。 对于较小的语义模型和简单转换,数据流是一个很好的选择。 对于更大的语义模型和更复杂的转换,笔记本是更好的选择。 借助笔记本,还可以将转换后的数据保存为湖屋中的托管 Delta 表,以便进行报告。
数据业务流程是指协调和管理多个数据相关过程,确保它们协同工作以实现所需的结果。 Fabric 中数据业务流程的主要工具是管道。 管道是一系列步骤,用于将数据从一个位置移动到另一个位置,在本例中,将数据从奖牌体系结构的一个层移动到下一层。 管道可以自动按计划运行或由事件触发。