Data Lakehouse 的互操作性和可用性

本文介绍了 互操作性和可用性 支柱的体系结构原则,指的是 Lakehouse 与用户和其他系统的交互。 Lakehouse 的基本理念之一是为所有使用湖屋的人提供出色的用户体验,并能够与广泛的外部系统生态系统进行交互。

  • 互操作性 是指系统能够与其他系统一起工作并集成的能力。 这意味着不同组件和产品之间的交互,可能来自多个供应商,以及同一产品的过去和将来版本之间的交互。
  • 可用性 是衡量系统如何使用户能够安全地、有效地、高效地执行任务。

Databricks 的互操作性和可用性湖屋体系结构示意图。

遵循此支柱的原则有助于:

  • 实现一致的协作用户体验。
  • 利用跨云的协同效应。
  • 简化与湖屋的相互集成。
  • 降低培训和启用成本。

最终缩短价值实现时间。

互操作性和可用性原则

  1. 定义集成 的标准

    集成具有不同的方面,可以通过许多不同的方式完成。 为了避免工具和方法激增,必须定义最佳做法,并应提供支持良好且首选的工具和连接器列表。

    关键体系结构原则之一是模块化和松散耦合,而不是紧密集成。 这减少了组件和工作负荷之间的依赖关系,有助于消除副作用,并在不同的时间刻度上实现独立开发。 使用数据集及其架构作为协定。 将数据整理作业(例如将数据加载和转换为数据湖)与增值作业(例如报告、仪表板和数据科学特征工程)分开。 使用数据格式、数据质量和数据生命周期指南定义中心数据目录。

  2. 使用开放接口和开放数据格式

    通常,解决方案是在只能通过特定系统访问数据的情况下开发的。 如果通过该系统进行数据访问需支付许可费用,这可能会成为巨大的成本因素,也可能会导致供应商锁定。 使用开放数据格式和接口有助于避免这种情况。 他们还简化了与现有系统的集成,并开辟了已经将其工具与 Lakehouse 集成的合作伙伴生态系统。

    如果使用 Python 或 R 等开源生态系统进行数据访问和访问控制,或者将 Spark 或 ANSI SQL 用于数据访问和访问控制,则可以更轻松地为项目查找人员。 它还能简化与平台之间的来回迁移。

  3. 简化新的用例实现

    若要充分利用 Data Lake 中的数据,用户必须能够轻松地在平台上部署其用例。 这从围绕平台访问和数据管理的精简流程开始。 例如,对平台的自助服务访问有助于防止中心团队成为瓶颈。 用于部署新环境的共享环境和预定义蓝图可确保平台可供任何业务用户快速使用。

  4. 确保数据一致性和可用性

    数据平台上的两个重要活动是 数据发布数据消耗。 从发布的角度来看,数据应作为产品提供。 出版商需要遵循一个以消费者为中心的定义生命周期,并且数据需要通过托管架构、说明等清晰地进行定义。

    还必须提供语义一致的数据,以便使用者可以轻松理解和正确组合不同的数据集。 此外,所有数据都必须通过包含适当策划的元数据和数据沿袭的中央目录,用户能够轻松发现和访问。

下一步:互操作性和可用性的最佳做法

请参阅 互操作性和可用性最佳做法。