Transformar tipos de dados complexos

Artigo
06/14/2024

Ao trabalhar com tipos de dados aninhados, o Azure Databricks otimiza determinadas transformações prontas para uso. Os exemplos de código a seguir demonstram padrões para trabalhar com tipos de dados complexos e aninhados no Azure Databricks.

Notação de pontos para acessar dados aninhados

Você pode usar a notação de pontos (.) para acessar um campo aninhado.

Python

df.select("column_name.nested_field")

SQL

SELECT column_name.nested_field FROM table_name

Selecionar todos os campos aninhados

Use o operador de estrela (*) para selecionar todos os campos dentro de um determinado campo.

Nota

Isso apenas descompacta campos aninhados na profundidade especificada.

Python

df.select("column_name.*")

SQL

SELECT column_name.* FROM table_name

Criar um novo campo aninhado

Use a struct() função para criar um novo campo aninhado.

Python

from pyspark.sql.functions import struct, col

df.select(struct(col("field_to_nest").alias("nested_field")).alias("column_name"))

SQL

SELECT struct(field_to_nest AS nested_field) AS column_name FROM table_name

Aninhar todos os campos em uma coluna

Use o operador de estrela (*) para aninhar todos os campos de uma fonte de dados como uma única coluna.

Python

from pyspark.sql.functions import struct

df.select(struct("*").alias("column_name"))

SQL

SELECT struct(*) AS column_name FROM table_name

Selecionar um campo nomeado a partir de uma coluna aninhada

Use colchetes [] para selecionar campos aninhados de uma coluna.

Python

from pyspark.sql.functions import col

df.select(col("column_name")["field_name"])

SQL

SELECT column_name["field_name"] FROM table_name

Explodir elementos aninhados de um mapa ou matriz

Use a explode() função para descompactar valores e ARRAYMAP digitar colunas.

ARRAY As colunas armazenam valores como uma lista. Quando descompactado com explode(), cada valor se torna uma linha na saída.

Python

from pyspark.sql.functions import explode

df.select(explode("array_name").alias("column_name"))

SQL

SELECT explode(array_name) AS column_name FROM table_name

MAP As colunas armazenam valores como pares chave-valor ordenados. Quando descompactada com explode(), cada tecla se torna uma coluna e os valores se tornam linhas.

Python

from pyspark.sql.functions import explode

df.select(explode("map_name").alias("column1_name", "column2_name"))

SQL

SELECT explode(map_name) AS (column1_name, column2_name) FROM table_name

Criar uma matriz a partir de uma lista ou conjunto

Use as funções collect_list() ou collect_set() para transformar os valores de uma coluna em uma matriz. collect_list() Coleta todos os valores na coluna, enquanto collect_set() coleta apenas valores exclusivos.

Nota

O Spark não garante a ordem dos itens no array resultantes de qualquer operação.

Python

from pyspark.sql.functions import collect_list, collect_set

df.select(collect_list("column_name").alias("array_name"))
df.select(collect_set("column_name").alias("set_name"))

SQL

SELECT collect_list(column_name) AS array_name FROM table_name;
SELECT collect_set(column_name) AS set_name FROM table_name;

Selecionar uma coluna de um mapa em uma matriz

Você também pode usar a notação de pontos (.) para acessar campos em mapas contidos em uma matriz. Isso retorna uma matriz de todos os valores para o campo especificado.

Considere a seguinte estrutura de dados:

{
  "column_name": [
    { "field1": 1, "field2": "a" },
    { "field1": 2, "field2": "b" }
  ]
}

Você pode retornar os valores de field1 como uma matriz com a seguinte consulta:

Python

df.select("column_name.field1")

SQL

SELECT column_name.field1 FROM table_name

Transformar dados aninhados em JSON

Use a to_json função para converter um tipo de dados complexo em JSON.

Python

from pyspark.sql.functions import to_json

df.select(to_json("column_name").alias("json_name"))

SQL

SELECT to_json(column_name) AS json_name FROM table_name

Para codificar todo o conteúdo de uma consulta ou DataFrame, combine isso com struct(*).

Python

from pyspark.sql.functions import to_json, struct

df.select(to_json(struct("*")).alias("json_name"))

SQL

SELECT to_json(struct(*)) AS json_name FROM table_name

Nota

O Azure Databricks também suporta to_avro e to_protobuf para transformar tipos de dados complexos para interoperabilidade com sistemas integrados.

Transforme dados JSON em dados complexos

Use a from_json função para converter dados JSON em tipos de dados complexos nativos.

Nota

Você deve especificar o esquema para os dados JSON.

Python

from pyspark.sql.functions import from_json

schema = "column1 STRING, column2 DOUBLE"

df.select(from_json("json_name", schema).alias("column_name"))

SQL

SELECT from_json(json_name, "column1 STRING, column2 DOUBLE") AS column_name FROM table_name

Notebook: transforme tipos de dados complexos

Os blocos de anotações a seguir fornecem exemplos de como trabalhar com tipos de dados complexos para Python, Scala e SQL.

Partilhar via

Transformar tipos de dados complexos

Notação de pontos para acessar dados aninhados

Python

SQL

Selecionar todos os campos aninhados

Python

SQL

Criar um novo campo aninhado

Python

SQL

Aninhar todos os campos em uma coluna

Python

SQL

Selecionar um campo nomeado a partir de uma coluna aninhada

Python

SQL

Explodir elementos aninhados de um mapa ou matriz

Python

SQL

Python

SQL

Criar uma matriz a partir de uma lista ou conjunto

Python

SQL

Selecionar uma coluna de um mapa em uma matriz

Python

SQL

Transformar dados aninhados em JSON

Python

SQL

Python

SQL

Transforme dados JSON em dados complexos

Python

SQL

Notebook: transforme tipos de dados complexos

Transformando tipos de dados complexos Python notebook

Transformando tipos de dados complexos Bloco de anotações Scala

Transformando tipos de dados complexos Bloco de anotações SQL

Comentários

Recursos adicionais