Partilhar via


Transformar tipos de dados complexos

Ao trabalhar com tipos de dados aninhados, o Azure Databricks otimiza determinadas transformações prontas para uso. Os exemplos de código a seguir demonstram padrões para trabalhar com tipos de dados complexos e aninhados no Azure Databricks.

Notação de pontos para acessar dados aninhados

Você pode usar a notação de pontos (.) para acessar um campo aninhado.

Python

df.select("column_name.nested_field")

SQL

SELECT column_name.nested_field FROM table_name

Selecionar todos os campos aninhados

Use o operador de estrela (*) para selecionar todos os campos dentro de um determinado campo.

Nota

Isso apenas descompacta campos aninhados na profundidade especificada.

Python

df.select("column_name.*")

SQL

SELECT column_name.* FROM table_name

Criar um novo campo aninhado

Use a struct() função para criar um novo campo aninhado.

Python

from pyspark.sql.functions import struct, col

df.select(struct(col("field_to_nest").alias("nested_field")).alias("column_name"))

SQL

SELECT struct(field_to_nest AS nested_field) AS column_name FROM table_name

Aninhar todos os campos em uma coluna

Use o operador de estrela (*) para aninhar todos os campos de uma fonte de dados como uma única coluna.

Python

from pyspark.sql.functions import struct

df.select(struct("*").alias("column_name"))

SQL

SELECT struct(*) AS column_name FROM table_name

Selecionar um campo nomeado a partir de uma coluna aninhada

Use colchetes [] para selecionar campos aninhados de uma coluna.

Python

from pyspark.sql.functions import col

df.select(col("column_name")["field_name"])

SQL

SELECT column_name["field_name"] FROM table_name

Explodir elementos aninhados de um mapa ou matriz

Use a explode() função para descompactar valores e MAP ARRAY digitar colunas.

ARRAY As colunas armazenam valores como uma lista. Quando descompactado com explode(), cada valor se torna uma linha na saída.

Python

from pyspark.sql.functions import explode

df.select(explode("array_name").alias("column_name"))

SQL

SELECT explode(array_name) AS column_name FROM table_name

MAP As colunas armazenam valores como pares chave-valor ordenados. Quando descompactada com explode(), cada tecla se torna uma coluna e os valores se tornam linhas.

Python

from pyspark.sql.functions import explode

df.select(explode("map_name").alias("column1_name", "column2_name"))

SQL

SELECT explode(map_name) AS (column1_name, column2_name) FROM table_name

Criar uma matriz a partir de uma lista ou conjunto

Use as funções collect_list() ou collect_set() para transformar os valores de uma coluna em uma matriz. collect_list() Coleta todos os valores na coluna, enquanto collect_set() coleta apenas valores exclusivos.

Nota

O Spark não garante a ordem dos itens no array resultantes de qualquer operação.

Python

from pyspark.sql.functions import collect_list, collect_set

df.select(collect_list("column_name").alias("array_name"))
df.select(collect_set("column_name").alias("set_name"))

SQL

SELECT collect_list(column_name) AS array_name FROM table_name;
SELECT collect_set(column_name) AS set_name FROM table_name;

Selecionar uma coluna de um mapa em uma matriz

Você também pode usar a notação de pontos (.) para acessar campos em mapas contidos em uma matriz. Isso retorna uma matriz de todos os valores para o campo especificado.

Considere a seguinte estrutura de dados:

{
  "column_name": [
    {"field1": 1, "field2":"a"},
    {"field1": 2, "field2":"b"}
  ]
}

Você pode retornar os valores de field1 como uma matriz com a seguinte consulta:

Python

df.select("column_name.field1")

SQL

SELECT column_name.field1 FROM table_name

Transformar dados aninhados em JSON

Use a to_json função para converter um tipo de dados complexo em JSON.

Python

from pyspark.sql.functions import to_json

df.select(to_json("column_name").alias("json_name"))

SQL

SELECT to_json(column_name) AS json_name FROM table_name

Para codificar todo o conteúdo de uma consulta ou DataFrame, combine isso com struct(*).

Python

from pyspark.sql.functions import to_json, struct

df.select(to_json(struct("*")).alias("json_name"))

SQL

SELECT to_json(struct(*)) AS json_name FROM table_name

Nota

O Azure Databricks também suporta to_avro e to_protobuf para transformar tipos de dados complexos para interoperabilidade com sistemas integrados.

Transforme dados JSON em dados complexos

Use a from_json função para converter dados JSON em tipos de dados complexos nativos.

Nota

Você deve especificar o esquema para os dados JSON.

Python

from pyspark.sql.functions import from_json

schema = "column1 STRING, column2 DOUBLE"

df.select(from_json("json_name", schema).alias("column_name"))

SQL

SELECT from_json(json_name, "column1 STRING, column2 DOUBLE") AS column_name FROM table_name

Notebook: transforme tipos de dados complexos

Os blocos de anotações a seguir fornecem exemplos de como trabalhar com tipos de dados complexos para Python, Scala e SQL.

Transformando tipos de dados complexos Python notebook

Obter o bloco de notas

Transformando tipos de dados complexos Bloco de anotações Scala

Obter o bloco de notas

Transformando tipos de dados complexos Bloco de anotações SQL

Obter o bloco de notas