使用 Microsoft Fabric 湖屋
现在,你已了解 Microsoft Fabric 数据湖屋的核心功能,接下来我们来探索如何使用其中一个功能。
创建和探索湖屋
创建新的数据湖屋时,工作区中会自动创建三个不同的数据项。
- 数据湖屋包含快捷方式、文件夹、文件和表。
- 语义模型(默认)为 Power BI 报表开发人员提供了简单的数据源。
- SQL 分析终结点允许通过 SQL 以只读访问权限查询数据。
可以在两种模式下处理湖屋中的数据:
- 有了数据湖屋,你就可以在数据湖屋中添加表、文件和文件夹并与之交互。
- 通过 SQL 分析终结点,可以使用 SQL 查询湖屋中的表并管理其关系语义模型。
将数据引入湖屋
将数据引入数据湖屋是 ETL 过程的第一步。 使用以下任一方法将数据引入到数据湖屋中。
- 上传:上传本地文件。
- 数据流 Gen2:使用 Power Query 导入和转换数据。
- Notebooks:使用 Apache Spark 引入、转换和加载数据。
- 数据工厂管道:使用“复制数据”活动。
然后,可以直接将此数据加载到文件或表中。 在引入数据时考虑数据加载模式,以确定在处理或使用暂存表之前,是否应将所有原始数据作为文件加载。
此外,还可以使用 Spark 作业定义将批处理/流式处理作业提交到 Spark 群集。 通过上传来自不同语言的编译输出(例如 Java 中的 .jar)的二进制文件,可以将不同的转换逻辑应用于湖屋上托管的数据。 除了二进制文件外,还可以通过上传更多库和命令行参数来进一步自定义作业的行为。
注意
有关详细信息,请参阅创建 Apache Spark 作业定义文档。
使用快捷方式访问数据
另一种访问和使用 Fabric 中数据的方法是使用快捷方式。 通过快捷方式,你可以将数据集成到湖屋中,同时将其存储在外部存储中。
需要获取不同存储帐户甚至不同云提供商中的数据时,快捷方式非常有用。 在数据湖屋中,你可以创建指向不同存储帐户和其他 Fabric 项(如数据仓库、KQL 数据库和其他数据湖屋)的快捷方式。
源数据权限和凭据均由 OneLake 管理。 通过快捷方式访问另一个 OneLake 位置的数据时,调用用户的身份将用于授权访问快捷方式目标路径中的数据。 该用户必须拥有目标位置的权限才能读取数据。
可以在湖屋和 KQL 数据库中创建快捷方式,快捷方式在湖中显示为文件夹。 这允许 Spark、SQL、实时智能和 Analysis Services 在查询数据时都使用快捷方式。
注意
如需更多关于使用快捷方式的信息,请参阅 Microsoft Fabric 文档中的OneLake 快捷方式文档。