你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

快速入门:使用 Synapse Studio 进行大容量加载

使用 Synapse Studio 中的“大容量加载”向导可轻松加载数据。 Synapse Studio 是 Azure Synapse Analytics 的一项功能。 “大容量加载”向导将引导你使用 COPY 语句创建 T-SQL 脚本以将数据大容量加载到专用 SQL 池中。

“大容量加载”向导的入口点

可右键单击 Synapse Studio 中的以下区域来大容量加载数据:Azure 存储帐户中附加到工作区的文件或文件夹。

Screenshot that shows right-clicking a file or folder from a storage account.

先决条件

  • 向导会生成一个 COPY 语句,该语句使用 Microsoft Entra 直通进行身份验证。 Microsoft Entra 用户必须至少具有 Azure Data Lake Storage Gen2 帐户的存储 Blob 数据参与者 Azure 角色才能访问工作区。

  • 若要创建一个新表来将数据加载到其中,必须具有 COPY 语句的使用权限和“创建表”权限。

  • 与 Data Lake Storage Gen2 帐户关联的链接服务必须能够访问要加载的文件或文件夹。 例如,如果链接服务的身份验证机制为“托管标识”,则工作区托管标识必须至少对存储帐户拥有存储 Blob 数据读取者权限。

  • 如果在工作区上启用了虚拟网络,请确保与源数据和错误文件位置的 Data Lake Storage Gen2 帐户链接服务关联的集成运行时已启用交互式创作。 在向导中自动检测架构、预览源文件内容和浏览 Data Lake Storage Gen2 存储帐户需要交互式创作。

步骤

  1. 在“源存储位置”面板上,选择要从中加载数据的存储帐户以及文件或文件夹。 向导将自动尝试检测 Parquet 文件以及带分隔符的文本 (CSV) 文件,包括将源字段从文件映射到相应的目标 SQL 数据类型。

    Screenshot that shows selecting a source location.

  2. 当大容量加载过程中存在拒绝的行时,请选择文件格式设置(包括错误设置)。 也可选择“预览数据”来了解 COPY 语句如何分析文件,以便帮助你配置文件格式设置。 每次更改文件格式设置时选择“预览数据”,以了解 COPY 语句将如何使用更新的设置来分析文件。

    Screenshot that shows previewing data.

    注意

    • 大容量加载向导不支持预览带有多字符字段终止符的数据。 指定多字符字段终止符时,向导将预览单个列中的数据。
    • 选择“推断列名”时,大容量加载向导将分析“第一行”字段指定的第一行中的列名 。 大容量加载向导会自动将 COPY 语句中的 FIRSTROW 值加 1,以忽略此标头行。
    • COPY 语句支持指定多字符行终止符。 但是,大容量加载向导不支持该操作,并将引发错误。
  3. 选择要用于加载的专用 SQL 池,包括选择该加载是针对现有表还是针对新表。 Screenshot that shows selecting a target location.

  4. 选择“配置列映射”,以确保具有适当的列映射。 请注意,如果启用了“推断列名”,将自动检测列名称。 就新表来说,配置列映射对于更新目标列数据类型至关重要。

    Screenshot that shows configuring column mapping.

  5. 选择“打开脚本”。 会生成一个 T-SQL 脚本,其中包含用于从数据湖加载数据的 COPY 语句。 Screenshot that shows opening the SQL script.

后续步骤

  • 有关 COPY 功能的详细信息,请查看 COPY 语句一文。
  • 有关使用提取、转换和加载 (ETL) 过程的信息,请查看数据加载概述一文。