你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
从 Azure 存储获取数据
数据引入是用于将数据从一个或多个源加载到 Azure 数据资源管理器表中的过程。 引入后,数据即可用于查询。 本文介绍如何从 Azure 存储获取数据, (ADLS Gen2 容器、blob 容器或单个 blob) 到新的或现有表中。
引入可以作为一次性操作或连续方法完成。 只能通过门户配置连续引入。
有关数据引入的一般信息,请参阅 Azure 数据资源管理器数据引入概述。
先决条件
- Microsoft 帐户或Microsoft Entra用户标识。 无需 Azure 订阅。
- 登录到 Azure 数据资源管理器 Web UI。
- Azure 数据资源管理器群集和数据库。 创建群集和数据库。
- 一个存储帐户。
获取数据
源
在 “获取数据” 窗口中,已选择“ 源 ”选项卡。
从可用列表中选择数据源。 在此示例中,你将从 Azure 存储引入数据。
配置
选择目标数据库和表。 如果要将数据引入新表,请选择“ + 新建表 ”并输入表名称。
注意
表名称最多可包含 1024 个字符,包括空格、字母数字、连字符和下划线。 不支持特殊字符。
若要添加源,请选择 “选择容器” 或“ 添加 URI”。
选择“下一步”
检查
此时会打开“ 检查 ”选项卡并预览数据。
若要完成引入过程,请选择“ 完成”。
可选:
- 选择 “命令查看器 ”,查看和复制从输入生成的自动命令。
- 使用 “架构定义文件 ”下拉列表更改从中推断架构的文件。
- 通过从下拉列表中选择所需格式来更改自动推断的数据格式。 请参阅用于引入的 Azure 数据资源管理器支持的数据格式。
- 编辑列。
- 浏览基于数据类型的高级选项。
编辑列
注意
- 对于 CSV、TSV、PSV) (表格格式,不能映射列两次。 若要映射到现有列,请先删除新列。
- 不能更改已有列类型。 如果尝试映射到其他格式的列,结果可能出现空列。
以下参数决定了你可在表中进行的更改:
- 表类型为“新”或“现有”
- 映射类型为“新”或“现有”
表类型 | 映射类型 | 可用调整 |
---|---|---|
新建表 | 新映射 | 重命名列,更改数据类型,更改数据源, 映射转换,添加列,删除列 |
现有表 | 新映射 | 添加列 (,然后可以更改数据类型、重命名和更新) |
现有表 | 现有映射 | 无 |
映射转换
某些数据格式映射(Parquet、JSON 和 Avro)支持简单的引入时间转换。 若要应用映射转换,请在 “编辑列” 窗口中创建或更新列。
映射转换可以在数据类型为 int 或 long 的字符串或日期时间类型的列上执行。 支持的映射转换为:
- DateTimeFromUnixSeconds
- DateTimeFromUnixMilliseconds
- DateTimeFromUnixMicroseconds
- DateTimeFromUnixNanoseconds
基于数据类型的高级选项
表格 (CSV、TSV、PSV) :
如果要在 现有表中引入表格格式,可以选择“ 高级>保留当前表架构”。 表格数据不一定要包括用于将源数据映射到现有列的列名称。 选中此选项后,映射将按顺序完成,并且表架构保持不变。 如果未选中此选项,则无论数据结构如何,都会为传入数据创建新列。
若要将第一行用作列名称,请选择“ 高级>第一行是列标题”。
JSON:
若要确定 JSON 数据的列划分,请选择“ 高级>嵌套级别”(从 1 到 100)。
如果选择“ 高级>忽略数据格式错误”,则会以 JSON 格式引入数据。 如果未选中此复选框,则以 multijson 格式引入数据。
总结
在“数据准备”窗口中,当数据引入成功完成时,所有三个步骤都标有绿色检查标记。 可以查看用于每个步骤的命令,或选择卡来查询、可视化或删除引入的数据。