什么是 Microsoft Fabric 中的数据仓库?

适用于:✅SQL 分析终结点和 Microsoft Fabric 中的仓库

Fabric 数据仓库是 Microsoft Fabric 中的下一代数据仓库解决方案。

以湖为中心的仓库基于企业级分布式处理引擎构建,可大规模实现业界领先的性能,同时最大限度地减少对配置和管理的需求。 Fabric 数据仓库位于数据湖中,旨在原生支持开放数据格式,可在数据工程师和业务用户之间实现无缝协作,而不会影响安全性或治理。

易于使用的 SaaS 体验还与 Power BI 紧密集成以便进行分析和报告,从而将数据湖和仓库融合在一起,并显著简化组织对其分析资产的投资。 

数据仓库客户受益于:

  • 以 Delta-parquet 格式存储的数据可实现 ACID 事务以及与其他 Fabric 工作负载的互操作性,这意味着不需要多个数据副本。
  • 跨数据库查询可以使用多个数据源来快速获得见解,而不会重复数据。
  • 通过管道、数据流、跨数据库查询或 COPY INTO 命令轻松地大规模引入、加载和转换数据
  • 使用行业领先的分布式查询处理引擎进行自治工作负载管理意味着无需转向即可获得最佳性能。
  • 几乎可以即时缩放以满足业务需求。 存储和计算是分开的。
  • 使用在 Direct Lake 模式下与 Power BI 集成的易耗型始终连接的语义模型缩短了见解的时间。 报表始终具有最新数据以供分析和报告。
  • 专为任何技能级别构建,从平民开发者到 DBA 或数据工程师。

数据仓库项目

Fabric 数据仓库不是传统的企业数据仓库,它是一个湖仓库,支持两个不同的仓储项目:Fabric 数据仓库和 SQL 分析终结点。 两者都是专为满足客户的业务需求而构建的,同时提供一流的性能、最大限度降低成本和减少管理开销。

Fabric Data Warehouse

在 Microsoft Fabric 工作区中,Fabric 仓库在“类型”列下标记为“仓库”。 当你需要数据仓库的完整功能和事务功能(DDL 和 DML 查询支持)时,这个快速而简单的解决方案适合你。

显示工作区中的仓库类型的屏幕截图。

仓库可以由受支持的数据引入方法(例如 COPY INTOPipelinesDataflows)或跨数据库引入选项(例如 CREATE TABLE AS SELECT (CTAS)INSERT..SELECTSELECT INTO)之一进行填充。

要开始使用仓库,请参阅:

Lakehouse 的 SQL 分析端点

在 Microsoft Fabric 工作区中,每个湖屋都有自动生成的“SQL 分析端点”,可用于从湖屋的“Lake”视图(它支持数据工程和 Apache Spark)过渡到同一湖屋的“SQL”视图,以创建视图、函数、存储过程并应用 SQL 安全性。

显示工作区中的 SQL 分析端点类型的屏幕截图。

通过 Lakehouse 的 SQL 分析端点,T-SQL 命令可以定义和查询数据对象,但不能操作或修改数据。 可以在 SQL 分析端点中执行以下操作:

  • 查询引用湖中 Delta Lake 文件夹中的数据的表。
  • 创建视图、内联 TVF 和过程,以在 T-SQL 中封装语义和业务逻辑。
  • 管理对象的权限。

要开始使用 SQL 分析端点,请参阅:

仓库或湖屋

在决定使用仓库还是湖屋时,请务必考虑数据管理和分析要求的特定需求和上下文。 同样重要的是,这不是一个单向决定

如果业务需求发生更改,并且无论从何处开始,仓库和湖屋都对所有 T-SQL 查询使用相同的强大 SQL 引擎,则你始终有机会在以后添加一个或另一个。

下面是可以提供帮助你作出决定的一些常规指导:

  • 如果需要具有开放标准格式、无旋钮性能且设置最少的企业规模解决方案,请选择数据仓库。  数据仓库最适合半结构化和结构化数据格式,适用于初学者和经验丰富的数据专业人员,可提供简单直观的体验。

  • 如果你需要来自异构源的高度非结构化数据的大型存储库,以利用低成本对象存储并希望使用 SPARK 作为主要开发工具,请选择湖屋。 作为“轻型”数据仓库,你始终可以选择使用 SQL 终结点和 T-SQL 工具在湖屋中提供报告和数据智能应用场景。

有关更详细的决策指南,请参阅 Microsoft Fabric 决策指南:在仓库和湖屋之间选择