Coluna de metadados de arquivo

Artigo
08/09/2024

Você pode obter informações de metadados para arquivos de entrada com a coluna _metadata. A coluna _metadata é uma coluna oculta e está disponível para todos os formatos de arquivo de entrada. Para incluir a coluna _metadata no DataFrame retornado, você deve referenciá-la explicitamente na consulta.

Se a fonte de dados contiver uma coluna nomeada _metadata, as consultas retornarão a coluna da fonte de dados e não os metadados do arquivo.

Aviso

Novos campos poderão ser adicionados à coluna _metadata em versões futuras. Para evitar erros de evolução do esquema se a coluna _metadata for atualizada, o Databricks recomenda selecionar campos específicos da coluna em suas consultas. Consulte os exemplos.

Metadados com suporte

A coluna _metadata é um STRUCT que contém os seguintes campos:

Nome	Tipo	Descrição	Exemplo	Versão Mínima do Databricks Runtime
file_path	`STRING`	O caminho do arquivo do arquivo de entrada.	`file:/tmp/f0.csv`	10.5
file_name	`STRING`	Nome do arquivo de entrada junto com sua extensão.	`f0.csv`	10.5
file_size	`LONG`	Tamanho do arquivo de entrada em bytes.	628	10.5
file_modification_time	`TIMESTAMP`	Carimbo de data/hora da última modificação do arquivo de entrada.	`2021-12-20 20:05:21`	10.5
file_block_start	`LONG`	Deslocamento inicial do bloco que está sendo lido, em bytes.	0	13.0
file_block_length	`LONG`	Comprimento do bloco que está sendo lido, em bytes.	628	13.0

Exemplos

Usar em um leitor de fonte de dados baseado em arquivo básico

Python

df = spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*", "_metadata")

display(df)

'''
Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
'''

Scala

val df = spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*", "_metadata")

display(df_population)

/* Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 10,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
*/

Selecionar campos específicos

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("_metadata.file_name", "_metadata.file_size")

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("_metadata.file_name", "_metadata.file_size")

Usar em filtros

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*") \
  .filter(col("_metadata.file_name") == lit("test.csv"))

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*")
  .filter(col("_metadata.file_name") === lit("test.csv"))

Usar em COPY INTO

COPY INTO my_delta_table
FROM (
  SELECT *, _metadata FROM 'abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData'
)
FILEFORMAT = CSV

Usar no Carregador Automático

Observação

Ao gravar a coluna _metadata, renomeamos para source_metadata. Escrevê-la como _metadata impossibilitaria o acesso à coluna de metadados na tabela de destino, porque se a fonte de dados contiver uma coluna nomeada _metadata, as consultas retornarão a coluna da fonte de dados e não os metadados do arquivo.

Python

spark.readStream \
  .format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .schema(schema) \
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData") \
  .selectExpr("*", "_metadata as source_metadata") \
  .writeStream \
  .option("checkpointLocation", checkpointLocation) \
  .start(targetTable)

Scala

spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "csv")
  .schema(schema)
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData")
  .selectExpr("*", "_metadata as source_metadata")
  .writeStream
  .option("checkpointLocation", checkpointLocation)
  .start(targetTable)

Compartilhar via

Coluna de metadados de arquivo

Metadados com suporte

Exemplos

Usar em um leitor de fonte de dados baseado em arquivo básico

Python

Scala

Selecionar campos específicos

Python

Scala

Usar em filtros

Python

Scala

Usar em COPY INTO

Usar no Carregador Automático

Python

Scala

Comentários

Recursos adicionais

Compartilhar via

Coluna de metadados de arquivo

Metadados com suporte

Exemplos

Usar em um leitor de fonte de dados baseado em arquivo básico

Python

Scala

Selecionar campos específicos

Python

Scala

Usar em filtros

Python

Scala

Usar em COPY INTO

Usar no Carregador Automático

Python

Scala

Artigos relacionados

Comentários

Recursos adicionais