Fabric 中的镜像是什么?
Fabric 中的镜像是一种低成本、低延迟的解决方案,用于将数据从各种系统组合到单个分析平台中。 可以从各种 Azure 数据库和外部数据源将现有数据直接连续复制到 Fabric 的 OneLake 中。
借助 OneLake 以可查询格式提供的最新数据,现在可以使用 Fabric 中的各种服务,例如使用 Spark 运行分析、执行笔记本、数据工程、通过 Power BI 报表进行可视化等。
Fabric 中的镜像允许用户享受高度集成、端到端且易于使用的产品,旨在简化分析需求。 镜像是一种低成本、低延迟的统包解决方案,为在 Microsoft 与可读取开源 Delta Lake 表格式的技术解决方案之间建立开放性和协作而构建,可在 OneLake 中创建数据副本,可用于满足所有分析需求。
这样,增量表就可以在 Fabric 中的任何位置使用,使用户能够更快开始使用 Fabric。
为什么要使用 Fabric 中的镜像功能?
如今,许多组织的任务关键型运营数据或分析数据都处于孤岛状态。
目前,访问和使用这些数据需要复杂的 ETL(提取转换加载)管道、业务流程和决策孤岛,导致了:
- 访问重要、不断变化的数据受到限制和制约
- 人员、流程和技术之间发生摩擦
- 需要等待很长时间,才能创建数据管道和流程,以获取至关重要的数据
- 无法自由地使用所需的工具来轻松分析和分享见解
- 缺乏让人们共享和协作使用数据的适当基础
- 没有适用于所有分析应用场景(BI、AI、集成、工程甚至应用)的通用开放数据格式
Fabric 中的镜像提供了一种轻松的体验,可以缩短见解和决策的价值实现时间,并打破技术解决方案之间的数据孤岛:
- 近乎实时地将数据和元数据复制到 SaaS 数据湖中,并为 BI 和 AI 内置内置分析功能
Microsoft Fabric 平台构建在服务型软件 (SaaS) 的基础之上,将简单性和集成度提升到了一个全新的水平。 若要了解有关 Microsoft Fabric 的详细信息,请参阅什么是 Microsoft Fabric?
镜像在 Fabric 工作区中创建三个项:
除了 SQL 查询编辑器外,还有一个广泛的工具生态系统,其中包括 SQL Server Management Studio (SSMS)、包含 Visual Studio Code 的 mssql 扩展,甚至 GitHub Copilot。
共享可简化访问控制和管理,确保你可以控制对敏感信息的访问。 共享还能在整个组织内实现安全且民主化的决策。
镜像类型
Fabric 提供三种不同的方法通过镜像将数据引入 OneLake。
- 数据库镜像 – Microsoft Fabric 中的数据库镜像支持复制整个数据库和表,使你可以将来自不同系统的数据整合到单个分析平台中。
- 元数据镜像 – Fabric 中的元数据镜像可以同步元数据(例如目录名称、架构和表),而不同步物理移动数据。 这种方法利用快捷方式,确保数据保留在其源中,同时仍可在 Fabric 中轻松访问。
- 开放镜像 – Fabric 中的开放镜像旨在扩展基于开放 Delta Lake 表格式的镜像。 借助此功能,任何开发人员都可以基于开放镜像方法和公共 API 将其应用程序的更改数据直接写入 Microsoft Fabric 中的镜像数据库项。
目前有以下外部数据库可用:
平台 | 准实时复制 | 镜像类型 | 端到端教程 |
---|---|---|---|
Azure Cosmos DB 中的 Microsoft Fabric 镜像数据库(预览版) | 是 | 数据库镜像 | 教程:Azure Cosmos DB |
Azure Databricks 中的 Microsoft Fabric 镜像数据库(预览版) | 是 | 元数据镜像 | 教程:Azure Databricks |
来自 Azure SQL 数据库的 Microsoft Fabric 镜像数据库 | 是 | 数据库镜像 | 教程:Azure SQL 数据库 |
来自 Azure SQL 托管实例的 Microsoft Fabric 镜像数据库(预览版) | 是 | 数据库镜像 | 教程:Azure SQL 托管实例 |
来自 Snowflake 的 Microsoft Fabric 镜像数据库 | 是 | 数据库镜像 | 教程:Snowflake |
打开镜像数据库(预览) | 是 | 开放镜像 | 教程:开放镜像 |
Fabric SQL 数据库的 Microsoft Fabric 镜像数据库(预览) | 是 | 数据库镜像 | 自动配置 |
数据库镜像的近实时复制如何工作?
镜像的启用方式是创建与操作数据源的安全连接。 你可以选择复制整个数据库或是单独的表,镜像将自动保持数据的同步。设置完成后,数据将持续复制到 OneLake,供分析使用。
以下是镜像的核心原则:
在 Fabric 中启用镜像非常简单和直观,无需创建复杂的 ETL 管道、分配其他计算资源或管理数据移动。
Fabric 中的镜像是一项完全托管的服务,因此对于镜像连接的托管、维护、或复制管理,你完全不必操心。
元数据镜像如何工作?
镜像不仅可以启用数据复制,还可以通过快捷方式或元数据镜像(而不是完整数据复制)来实现,从而使数据在不进行物理移动或复制的情况下可用。 在这种情况下,镜像是指仅复制元数据(例如目录名称、架构和表),而不是实际数据本身。 通过这种方法,Fabric 能够使来自不同来源的数据无需复制即可访问,从而简化数据管理并最大限度地减少存储需求。
例如,在访问 Unity Catalog 中注册的数据时,Fabric 仅镜像 Azure Databricks 中的目录结构,从而允许通过快捷方式访问基础数据。 此方法可确保源数据中的任何更改都会立即反映在 Fabric 中,而无需移动数据,从而保持实时同步并提高访问最新信息的效率。
开放镜像如何工作?
除了通过创建与数据源的安全连接来启用数据复制的镜像之外,还可以选择现有的数据提供程序或编写自己的应用程序,以将数据放入镜像数据库中。 通过公共 API 或 Fabric 门户创建开放镜像数据库后,你将能够在 OneLake 中获取登陆区域 URL,可以在其中根据开放镜像规范登陆更改数据。
一旦数据以正确的格式进入登陆区域,复制将开始运行并管理将更改与更新、插入和删除合并以反映到增量表中的复杂性。 此方法可确保任何写入登录区域的数据都将立即写入,并使 Fabric 中的数据保持最新状态。
共享
共享可简化访问控制和管理,而行级安全性 (RLS) 和对象级安全性 (OLS) 等安全控制措施将确保你可以控制对敏感信息的访问。 共享还能在整个组织内实现安全且民主化的决策。
通过共享,用户可向其他用户或一组用户授予访问镜像数据库的权限,而无需授予对工作区及工作区其余项的访问权限。 当某人共享镜像数据库时,他们还会授予对 SQL 分析终结点和关联的默认语义模型的访问权限。
有关详细信息,请参阅共享镜像数据库和管理权限。
跨数据库查询
利用存储在 OneLake 中的镜像数据库数据,可以编写跨数据库查询,在单个 T-SQL 查询中将镜像数据库、仓库和湖屋的 SQL 分析终结点的数据连接起来。 有关详细信息,请参阅编写跨数据库查询。
例如,可以使用三部分命名从镜像数据库和仓库中引用表。 以下示例使用三部分名称引用仓库 ContosoWarehouse
中的 ContosoSalesTable
。 在其他数据库或仓库中,标准 SQL 三部分命名约定的第一部分是镜像数据库的名称。
SELECT *
FROM ContosoWarehouse.dbo.ContosoSalesTable AS Contoso
INNER JOIN Affiliation
ON Affiliation.AffiliationId = Contoso.RecordTypeID;
使用镜像数据库数据的数据工程
Microsoft Fabric 提供各种数据工程功能,以确保数据易于访问、组织有序且质量优秀。 通过 Fabric 数据工程,可以:
- 使用湖屋像 Spark 一样创建和管理数据
- 设计将数据复制到湖屋的管道
- 使用 Spark 作业定义将批处理/流式处理作业提交到 Spark 群集
- 使用笔记本编写用于数据引入、准备和转换的代码
使用镜像数据库数据的数据科学
Microsoft Fabric 提供 Fabric 数据科学,支持用户完成端到端数据科学工作流,以实现数据扩充和获取业务见解。 你可以完成整个数据科学过程中的各种活动,从数据浏览、准备和清理到试验、建模、模型评分和向 BI 报表提供预测性见解。
Microsoft Fabric 用户可以访问数据科学工作负载。 用户可以在主页中发现和访问各种相关资源。 例如,他们可以创建机器学习试验、模型和笔记本。 还可以在数据科学主页上导入现有笔记本。
Fabric SQL 数据库
还可以在 Fabric 门户中直接创建和管理 Microsoft Fabric 中的 SQL 数据库(预览)。 Fabric SQL 数据库会基于 Azure SQL 数据库 自动镜像以用于分析,并使你能够在 Fabric 中轻松创建操作数据库。 SQL 数据库是 Fabric 中用于 OLTP 工作负载的主数据库,可以通过 Fabric 的源代码管理集成功能集成。