LOAD DATA

项目
11/15/2024

适用于：勾选“是” Databricks Runtime

从用户指定的目录或文件将数据加载到 Hive SerDe 表中。如果指定了某个目录，则会加载该目录中的所有文件。如果指定了某个文件，则仅加载这一个文件。此外，LOAD DATA 语句采用可选的分区规范。指定分区后，数据文件（输入源为目录时）或单个文件（输入源为文件时）都将加载到目标表的分区中。

如果已缓存表，则该命令将清除该表及其引用的所有依赖项的缓存数据。在下次访问该表或这些依赖项时，将会延迟填充缓存。

语法

LOAD DATA [ LOCAL ] INPATH path [ OVERWRITE ] INTO TABLE table_name [ PARTITION clause ]

参数

路径

文件系统的路径。可以是绝对路径，也可以是相对路径。
table_name

标识要插入到的表。名称不得包含时态规范或选项规范。如果找不到表，Azure Databricks 会引发 TABLE_OR_VIEW_NOT_FOUND 错误。
PARTITION 子句

一个可选参数，可指定插入的目标分区。也可仅部分指定分区。
LOCAL

如果指定此值，则会导致针对本地文件系统而不是默认文件系统（通常是分布式存储）解析 INPATH。
OVERWRITE

默认情况下，新数据将追加到该表中。如果使用了 OVERWRITE，则该表将由新数据覆盖。

示例

-- Example without partition specification.
-- Assuming the students table has already been created and populated.
> SELECT * FROM students;
      name                address student_id
 --------- ---------------------- ----------
 Amy Smith 123 Park Ave, San Jose     111111

> CREATE TABLE test_load (name VARCHAR(64), address VARCHAR(64), student_id INT) USING HIVE;

-- Assuming the students table is in '/user/hive/warehouse/'
> LOAD DATA LOCAL INPATH '/user/hive/warehouse/students' OVERWRITE INTO TABLE test_load;

> SELECT * FROM test_load;
      name                address student_id
 --------- ---------------------- ----------
 Amy Smith 123 Park Ave, San Jose     111111

-- Example with partition specification.
> CREATE TABLE test_partition (c1 INT, c2 INT, c3 INT) PARTITIONED BY (c2, c3);

> INSERT INTO test_partition PARTITION (c2 = 2, c3 = 3) VALUES (1);

> INSERT INTO test_partition PARTITION (c2 = 5, c3 = 6) VALUES (4);

> INSERT INTO test_partition PARTITION (c2 = 8, c3 = 9) VALUES (7);

> SELECT * FROM test_partition;
  c1  c2  c3
 --- --- ---
   1   2   3
   4   5   6
   7   8   9

> CREATE TABLE test_load_partition (c1 INT, c2 INT, c3 INT) USING HIVE PARTITIONED BY (c2, c3);

-- Assuming the test_partition table is in '/user/hive/warehouse/'
> LOAD DATA LOCAL INPATH '/user/hive/warehouse/test_partition/c2=2/c3=3'
      OVERWRITE INTO TABLE test_load_partition PARTITION (c2=2, c3=3);

> SELECT * FROM test_load_partition;
  c1  c2  c3
 --- --- ---
   1   2   3

通过

LOAD DATA

语法

参数

示例

反馈

其他资源

通过

LOAD DATA

语法

参数

示例

相关文章

反馈

其他资源