探索 Microsoft Fabric 湖屋

已完成

湖屋表示为数据库,并使用 Delta 格式表构建在数据湖之上。 湖屋结合了关系数据仓库基于 SQL 的分析功能和数据湖的灵活性和可伸缩性。 湖屋存储所有数据格式,可与各种分析工具和编程语言一起使用。 作为基于云的解决方案,湖屋可自动缩放并提供高可用性和灾难恢复。

湖屋的示意图,其中显示了数据湖的文件夹结构以及数据仓库的关系功能。

湖屋的一些优点包括:

  • 湖屋使用 Spark 和 SQL 引擎来处理大规模数据并支持机器学习或预测建模分析。
  • 湖屋数据以读时架构格式进行组织,这意味着可以根据需要定义架构,而不是拥有预定义的架构。
  • 湖屋通过 Delta Lake 格式的表支持 ACID(原子性、一致性、隔离性、持续性)事务,以实现数据一致性和完整性。
  • 湖屋是供数据工程师、数据科学家和数据分析师访问和使用数据的单个位置。

如果你想要一个可缩放的分析解决方案来保持数据一致性,湖屋是一个绝佳选择。 请务必评估你的特定要求,确定哪种解决方案最适合。

将数据加载到湖屋

Fabric 湖屋是分析解决方案的核心元素。 在加载到湖屋之前,可以按照 ETL(提取、转换和加载)过程引入和转换数据。

可从各种源引入许多通用格式的数据;包括本地文件、数据库或 API。 你还可以为外部源(如 Azure Data Lake Store Gen2 或 OneLake)中的数据创建 Fabric 快捷方式。 可使用湖屋资源管理器浏览文件、文件夹、快捷方式和表,并在 Fabric 平台中查看其内容。

可以使用带笔记本的 Apache Spark 或数据流 Gen2 来转换引入的数据,然后进行加载。 使用数据工厂管道协调不同的 ETL 活动,并将准备好的数据放入湖屋中。

注意

数据流 Gen2 基于 Power Query(这是使用 Excel 或 Power BI 的数据分析师熟悉的工具,可以提供转换的可视化表示形式,作为传统编程的替代方案)。

可以出于多种原因使用湖屋,包括:

  • 使用 SQL 进行分析。
  • 训练机器学习模型。
  • 对实时数据执行分析。
  • 在 Power BI 中开发报表。

保护湖屋安全

湖屋访问权限是通过工作区或项目级共享进行管理的。 协作者应使用工作区角色,因为这些角色授予对工作区中所有项目的访问权限。 项目级共享最适合用于为只读需求(例如分析或 Power BI 报表开发)授予访问权限。

Fabric 湖屋还支持数据管理功能(包括敏感度标签),并且可通过将 Microsoft Purview 与 Fabric 租户一起使用来进行扩展。

注意

有关详细信息,请参阅 Microsoft Fabric 中的安全性文档。