Bestandsmetagegevens column

Artikel
01/22/2025

U kunt metagegevens get voor invoerbestanden met de _metadatacolumn. De _metadatacolumn is een verborgen columnen beschikbaar voor alle invoerbestandsindelingen. Als u de _metadatacolumn wilt opnemen in het geretourneerde DataFrame, moet u er expliciet naar verwijzen in uw query.

Als de gegevensbron een column met de naam _metadatabevat, retourneren query's de column uit de gegevensbron en niet de metagegevens van het bestand.

Waarschuwing

Nieuwe velden kunnen in toekomstige releases aan de _metadatacolumn worden toegevoegd. Om schema evolutiefouten te voorkomen als de _metadatacolumn wordt bijgewerkt, raadt Databricks aan specifieke velden uit de column in uw queries te selecteren. Zie voorbeelden.

Ondersteunde metagegevens

De _metadatacolumn is een STRUCT met de volgende velden:

Name	Type	Description	Voorbeeld	Minimale release van Databricks Runtime
file_path	`STRING`	Bestandspad van het invoerbestand.	`file:/tmp/f0.csv`	10.5
file_name	`STRING`	De naam van het invoerbestand en de extensie.	`f0.csv`	10.5
file_size	`LONG`	De lengte van het invoerbestand, in bytes.	628	10.5
file_modification_time	`TIMESTAMP`	Laatste wijzigingstijdstempel van het invoerbestand.	`2021-12-20 20:05:21`	10.5
file_block_start	`LONG`	Begin offset van het blok dat wordt gelezen, in bytes.	0	13,0
file_block_length	`LONG`	De lengte van het blok dat wordt gelezen, in bytes.	628	13,0

Voorbeelden

Gebruiken in een eenvoudige gegevensbronlezer op basis van bestanden

Python

df = spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*", "_metadata")

display(df)

'''
Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
'''

Scala

val df = spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*", "_metadata")

display(df_population)

/* Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 10,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
*/

Select specifieke velden

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("_metadata.file_name", "_metadata.file_size")

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("_metadata.file_name", "_metadata.file_size")

Gebruiken in filters

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*") \
  .filter(col("_metadata.file_name") == lit("test.csv"))

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*")
  .filter(col("_metadata.file_name") === lit("test.csv"))

Gebruik in COPY INTO

COPY INTO my_delta_table
FROM (
  SELECT *, _metadata FROM 'abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData'
)
FILEFORMAT = CSV

Gebruiken in automatisch laadprogramma

Notitie

Bij het schrijven van de _metadatacolumnwijzigen we deze in source_metadata. Schrijven als _metadata zou het onmogelijk maken om toegang te krijgen tot de metagegevens column in de doel-table, omdat als de gegevensbron een column met de naam _metadatabevat, query's de column uit de gegevensbron retourneren en niet de metagegevens van het bestand.

Python

spark.readStream \
  .format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .schema(schema) \
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData") \
  .selectExpr("*", "_metadata as source_metadata") \
  .writeStream \
  .option("checkpointLocation", checkpointLocation) \
  .start(targetTable)

Scala

spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "csv")
  .schema(schema)
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData")
  .selectExpr("*", "_metadata as source_metadata")
  .writeStream
  .option("checkpointLocation", checkpointLocation)
  .start(targetTable)

Delen via

Bestandsmetagegevens column

Ondersteunde metagegevens

Voorbeelden

Gebruiken in een eenvoudige gegevensbronlezer op basis van bestanden

Python

Scala

Select specifieke velden

Python

Scala

Gebruiken in filters

Python

Scala

Gebruik in COPY INTO

Gebruiken in automatisch laadprogramma

Python

Scala

Feedback

Aanvullende resources

Delen via

Bestandsmetagegevens column

Ondersteunde metagegevens

Voorbeelden

Gebruiken in een eenvoudige gegevensbronlezer op basis van bestanden

Python

Scala

Select specifieke velden

Python

Scala

Gebruiken in filters

Python

Scala

Gebruik in COPY INTO

Gebruiken in automatisch laadprogramma

Python

Scala

Verwante artikelen:

Feedback

Aanvullende resources