Преобразование сложных типов данных

Статья
12/27/2024

При работе с вложенными типами данных Azure Databricks оптимизирует определенные преобразования в стандартном виде. В следующих примерах кода показаны шаблоны для работы с сложными и вложенными типами данных в Azure Databricks.

Нотация точек для доступа к вложенным данным

Для доступа к вложенного поля можно использовать нотацию точек (.).

Python

df.select("column_name.nested_field")

SQL

SELECT column_name.nested_field FROM table_name

Select все вложенные поля

Используйте оператор звездочки (*) для select всех полей в заданном поле.

Примечание.

Это только распаковка вложенных полей на указанной глубине.

Python

df.select("column_name.*")

SQL

SELECT column_name.* FROM table_name

Создание вложенного поля

Используйте функцию struct() для создания нового вложенного поля.

Python

from pyspark.sql.functions import struct, col

df.select(struct(col("field_to_nest").alias("nested_field")).alias("column_name"))

SQL

SELECT struct(field_to_nest AS nested_field) AS column_name FROM table_name

Вложите все поля в column

Используйте оператор звездочки (*) для вложения всех полей из источника данных в виде одной column.

Python

from pyspark.sql.functions import struct

df.select(struct("*").alias("column_name"))

SQL

SELECT struct(*) AS column_name FROM table_name

Select именованное поле из вложенного column

Используйте квадратные скобки [] для select вложенных полей из column.

Python

from pyspark.sql.functions import col

df.select(col("column_name")["field_name"])

SQL

SELECT column_name["field_name"] FROM table_name

Взрыв вложенных элементов из карты или массива

Используйте функцию explode() для распаковки values из ARRAY и MAP, типа columns.

ARRAY columns хранить values в качестве list. При распаковке explode()с каждым значением становится строка в выходных данных.

Python

from pyspark.sql.functions import explode

df.select(explode("array_name").alias("column_name"))

SQL

SELECT explode(array_name) AS column_name FROM table_name

MAP columns хранят values как упорядоченные пары ключ-значение. При распаковке с explode()каждый ключ становится column и values становится строками.

Python

from pyspark.sql.functions import explode

df.select(explode("map_name").alias("column1_name", "column2_name"))

SQL

SELECT explode(map_name) AS (column1_name, column2_name) FROM table_name

Создание массива из list или set

Используйте функции collect_list() или collect_set() для преобразования values из column в массив. collect_list() собирает все values в column, тогда как collect_set() собирает только уникальные values.

Примечание.

Spark не гарантирует порядок элементов в массиве в результате любой операции.

Python

from pyspark.sql.functions import collect_list, collect_set

df.select(collect_list("column_name").alias("array_name"))
df.select(collect_set("column_name").alias("set_name"))

SQL

SELECT collect_list(column_name) AS array_name FROM table_name;
SELECT collect_set(column_name) AS set_name FROM table_name;

Select column из карты в массиве

Вы также можете использовать нотацию точек (.) для доступа к полям в картах, содержащихся в массиве. Возвращает массив всех values для указанного поля.

Рассмотрим следующую структуру данных:

{
  "column_name": [
    {"field1": 1, "field2":"a"},
    {"field1": 2, "field2":"b"}
  ]
}

Вы можете вернуть values из field1 в виде массива со следующим запросом:

Python

df.select("column_name.field1")

SQL

SELECT column_name.field1 FROM table_name

Преобразование вложенных данных в JSON

Используйте функцию to_json для преобразования сложного типа данных в JSON.

Python

from pyspark.sql.functions import to_json

df.select(to_json("column_name").alias("json_name"))

SQL

SELECT to_json(column_name) AS json_name FROM table_name

Чтобы закодировать все содержимое запроса или кадра данных, объедините его с struct(*).

Python

from pyspark.sql.functions import to_json, struct

df.select(to_json(struct("*")).alias("json_name"))

SQL

SELECT to_json(struct(*)) AS json_name FROM table_name

Примечание.

Azure Databricks также поддерживает to_avro и to_protobuf преобразует сложные типы данных для взаимодействия с интегрированными системами.

Преобразование данных JSON в сложные данные

Используйте функцию для преобразования данных JSON в собственные сложные from_json типы данных.

Примечание.

Необходимо указать schema для данных JSON.

Python

from pyspark.sql.functions import from_json

schema = "column1 STRING, column2 DOUBLE"

df.select(from_json("json_name", schema).alias("column_name"))

SQL

SELECT from_json(json_name, "column1 STRING, column2 DOUBLE") AS column_name FROM table_name

Записная книжка: преобразование сложных типов данных

В следующих записных книжках приведены примеры работы с сложными типами данных для Python, Scala и SQL.

Поделиться через

Преобразование сложных типов данных

Нотация точек для доступа к вложенным данным

Python

SQL

Select все вложенные поля

Python

SQL

Создание вложенного поля

Python

SQL

Вложите все поля в column

Python

SQL

Select именованное поле из вложенного column

Python

SQL

Взрыв вложенных элементов из карты или массива

Python

SQL

Python

SQL

Создание массива из list или set

Python

SQL

Select column из карты в массиве

Python

SQL

Преобразование вложенных данных в JSON

Python

SQL

Python

SQL

Преобразование данных JSON в сложные данные

Python

SQL

Записная книжка: преобразование сложных типов данных

Записная книжка преобразования сложных типов данных Python

Записная книжка преобразования сложных типов данных Scala

Записная книжка преобразования сложных типов данных SQL

Обратная связь

Дополнительные ресурсы