将数据和管道从 Azure Synapse Analytics 迁移到 Microsoft Fabric
数据和管道迁移的第一步是确定要在 OneLake 中提供的数据,以及要移动的管道。
有两个选项可用于数据迁移:
- 选项 1:Azure Data Lake Storage (ADLS) Gen2 作为默认存储。 如果当前使用的是 ADLS Gen2 并想要避免数据复制,请考虑使用 OneLake 快捷方式。
- 选项 2:OneLake 作为默认存储。 如果要从 ADLS Gen2 移动到作为存储层的 OneLake,请考虑在笔记本和 Spark 作业定义中读写 OneLake。
数据迁移
选项 1:ADLS Gen2 作为存储(快捷方式)
如果要与 ADLS Gen2 交互并想要避免重复数据,则可以在 OneLake 中创建 ADLS Gen2 源路径的快捷方式。 可以在 Fabric 中的湖屋的“文件”和“表”部分中创建快捷方式,但需要注意以下事项:
- “文件”部分是湖的非托管区域。 如果你的数据是 CSV、JSON 或 Parquet 格式,我们建议你创建此区域的快捷方式。
- “表”部分是湖的托管区域。 此处注册了 Spark 托管表和非托管表的所有表。 如果你的数据是 Delta 格式,则可以在此区域中创建一个快捷方式,自动发现过程会自动在湖屋的 MetaStore 中注册这些 Delta 表。
详细了解如何创建 ADLS Gen2 快捷方式。
选项 2:OneLake 作为存储
若要将 OneLake 用作存储层并从 ADLS Gen2 移动数据,应首先将 Azure Synapse Spark 相关项指向 OneLake,然后将现有数据传输到 OneLake。 有关前者,请参阅将 OneLake 与 Azure Synapse Spark 集成。
若要将现有数据移动到 OneLake,可以选择以下几个选项:
- mssparkutils fastcp:mssparkutils 库提供了一个 fastcp API,可用于将数据从 ADLS Gen2 复制到 OneLake。
- AzCopy:可以使用 AzCopy 命令行实用工具将数据从 ADLS Gen2 复制到 OneLake。
- Azure 数据工厂、Azure Synapse Analytics 和 Fabric 中的数据工厂:使用复制活动将数据复制到湖屋。
- 使用快捷方式:可以使用快捷方式在 OneLake中启用 ADLS Gen2 历史数据。 无需数据复制。
- Azure 存储资源管理器:可以使用 Azure 存储资源管理器将文件从 ADLS Gen2 位置移动到 OneLake。 请参阅将 OneLake 与 Azure 存储资源管理器集成。
管道迁移(Spark 相关活动)
如果 Azure Synapse 数据管道包含笔记本和/或 Spark 作业定义活动,则需要将这些管道从 Azure Synapse 移动到 Fabric 中的数据工厂数据管道,并引用目标笔记本。 数据工厂数据管道中提供了笔记本活动。 在此处查看 Fabric 中所有受支持的数据管道活动。
- 有关 Spark 相关的数据管道活动注意事项,请参阅 Azure Synapse Spark 和 Fabric 之间的差异。
- 有关笔记本迁移,请参阅将笔记本从 Azure Synapse 迁移到 Fabric。
- 有关数据管道迁移,请参阅迁移到 Fabric 中的数据工厂。