你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
快速入门:使用 Synapse Studio 进行大容量加载
使用 Synapse Studio 中的“大容量加载”向导可轻松加载数据。 Synapse Studio 是 Azure Synapse Analytics 的一项功能。 “大容量加载”向导将引导你使用 COPY 语句创建 T-SQL 脚本以将数据大容量加载到专用 SQL 池中。
“大容量加载”向导的入口点
可右键单击 Synapse Studio 中的以下区域来大容量加载数据:Azure 存储帐户中附加到工作区的文件或文件夹。
先决条件
向导会生成一个 COPY 语句,该语句使用 Microsoft Entra 直通进行身份验证。 Microsoft Entra 用户必须至少具有 Azure Data Lake Storage Gen2 帐户的存储 Blob 数据参与者 Azure 角色才能访问工作区。
若要创建一个新表来将数据加载到其中,必须具有 COPY 语句的使用权限和“创建表”权限。
与 Data Lake Storage Gen2 帐户关联的链接服务必须能够访问要加载的文件或文件夹。 例如,如果链接服务的身份验证机制为“托管标识”,则工作区托管标识必须至少对存储帐户拥有存储 Blob 数据读取者权限。
如果在工作区上启用了虚拟网络,请确保与源数据和错误文件位置的 Data Lake Storage Gen2 帐户链接服务关联的集成运行时已启用交互式创作。 在向导中自动检测架构、预览源文件内容和浏览 Data Lake Storage Gen2 存储帐户需要交互式创作。
步骤
在“源存储位置”面板上,选择要从中加载数据的存储帐户以及文件或文件夹。 向导将自动尝试检测 Parquet 文件以及带分隔符的文本 (CSV) 文件,包括将源字段从文件映射到相应的目标 SQL 数据类型。
当大容量加载过程中存在拒绝的行时,请选择文件格式设置(包括错误设置)。 也可选择“预览数据”来了解 COPY 语句如何分析文件,以便帮助你配置文件格式设置。 每次更改文件格式设置时选择“预览数据”,以了解 COPY 语句将如何使用更新的设置来分析文件。
注意
- 大容量加载向导不支持预览带有多字符字段终止符的数据。 指定多字符字段终止符时,向导将预览单个列中的数据。
- 选择“推断列名”时,大容量加载向导将分析“第一行”字段指定的第一行中的列名 。 大容量加载向导会自动将 COPY 语句中的
FIRSTROW
值加 1,以忽略此标头行。 - COPY 语句支持指定多字符行终止符。 但是,大容量加载向导不支持该操作,并将引发错误。
选择要用于加载的专用 SQL 池,包括选择该加载是针对现有表还是针对新表。
选择“配置列映射”,以确保具有适当的列映射。 请注意,如果启用了“推断列名”,将自动检测列名称。 就新表来说,配置列映射对于更新目标列数据类型至关重要。
选择“打开脚本”。 会生成一个 T-SQL 脚本,其中包含用于从数据湖加载数据的 COPY 语句。