Spalte mit Dateimetadaten

Artikel
08/09/2024

Sie können Metadateninformationen für Eingabedateien mit der Spalte _metadata abrufen. Die Spalte _metadata ist eine ausgeblendete Spalte und steht für alle Eingabedateiformate zur Verfügung. Um die Spalte _metadata in den zurückgegebenen DataFrame einzuschließen, müssen Sie in Ihrer Abfrage explizit darauf verweisen.

Wenn die Datenquelle eine Spalte mit dem Namen _metadata enthält, geben Abfragen die Spalte aus der Datenquelle zurück, und nicht die Dateimetadaten.

Warnung

Neue Felder können der Spalte _metadata in zukünftigen Releases hinzugefügt werden. Um Fehler bei der Schemaentwicklung zu verhindern, wenn die Spalte _metadata aktualisiert wird, empfiehlt Databricks, bestimmte Felder der Spalte in Ihren Abfragen auszuwählen. Weitere Informationen finden Sie unter Beispiele.

Unterstützte Metadaten

Die Spalte _metadata ist eine STRUCT mit den folgenden Feldern:

NAME	Typ	Beschreibung	Beispiel	Mindestversion von Databricks Runtime
file_path	`STRING`	Dateipfad zur Eingabedatei	`file:/tmp/f0.csv`	10,5
file_name	`STRING`	Name der Eingabedatei zusammen mit der Erweiterung	`f0.csv`	10,5
file_size	`LONG`	Länge der Eingabedatei in Byte	628	10,5
file_modification_time	`TIMESTAMP`	Zeitstempel der letzten Änderung der Eingabedatei	`2021-12-20 20:05:21`	10,5
file_block_start	`LONG`	Startoffset des gelesenen Blocks in Bytes.	0	13,0
file_block_length	`LONG`	Länge des gelesenen Blocks in Bytes.	628	13,0

Beispiele

Verwenden in einem einfachen dateibasierten Datenquellenleser

Python

df = spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*", "_metadata")

display(df)

'''
Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
'''

Scala

val df = spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*", "_metadata")

display(df_population)

/* Result:
+---------+-----+----------------------------------------------------+
|   name  | age |                 _metadata                          |
+=========+=====+====================================================+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f0.csv",                |
| Debbie  | 18  |    "file_name": "f0.csv",                          |
|         |     |    "file_size": 12,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-07-02 01:05:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
|         |     | {                                                  |
|         |     |    "file_path": "dbfs:/tmp/f1.csv",                |
| Frank   | 24  |    "file_name": "f1.csv",                          |
|         |     |    "file_size": 10,                                |
|         |     |    "file_block_start": 0,                          |
|         |     |    "file_block_length": 12,                        |
|         |     |    "file_modification_time": "2021-12-20 02:06:21" |
|         |     | }                                                  |
+---------+-----+----------------------------------------------------+
*/

Auswählen bestimmter Felder

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("_metadata.file_name", "_metadata.file_size")

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("_metadata.file_name", "_metadata.file_size")

Verwenden in Filtern

Python

spark.read \
  .format("csv") \
  .schema(schema) \
  .load("dbfs:/tmp/*") \
  .select("*") \
  .filter(col("_metadata.file_name") == lit("test.csv"))

Scala

spark.read
  .format("csv")
  .schema(schema)
  .load("dbfs:/tmp/*")
  .select("*")
  .filter(col("_metadata.file_name") === lit("test.csv"))

Verwendung in COPY INTO

COPY INTO my_delta_table
FROM (
  SELECT *, _metadata FROM 'abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData'
)
FILEFORMAT = CSV

Verwenden im Autoloader

Hinweis

Beim Schreiben der _metadata-Spalte benennen wir sie in um source_metadata. Wenn sie als _metadata geschrieben würde, könnte nicht auf die Metadatenspalte in der Zieltabelle zugegriffen werden, denn wenn die Datenquelle eine Spalte mit dem Namen _metadata enthält, geben Abfragen die Spalte aus der Datenquelle zurück und nicht die Dateimetadaten.

Python

spark.readStream \
  .format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .schema(schema) \
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData") \
  .selectExpr("*", "_metadata as source_metadata") \
  .writeStream \
  .option("checkpointLocation", checkpointLocation) \
  .start(targetTable)

Scala

spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "csv")
  .schema(schema)
  .load("abfss://my-container-name@storage-account-name.dfs.core.windows.net/csvData")
  .selectExpr("*", "_metadata as source_metadata")
  .writeStream
  .option("checkpointLocation", checkpointLocation)
  .start(targetTable)

Freigeben über

Spalte mit Dateimetadaten

Unterstützte Metadaten

Beispiele

Verwenden in einem einfachen dateibasierten Datenquellenleser

Python

Scala

Auswählen bestimmter Felder

Python

Scala

Verwenden in Filtern

Python

Scala

Verwendung in COPY INTO

Verwenden im Autoloader

Python

Scala

Feedback

Zusätzliche Ressourcen

Freigeben über

Spalte mit Dateimetadaten

Unterstützte Metadaten

Beispiele

Verwenden in einem einfachen dateibasierten Datenquellenleser

Python

Scala

Auswählen bestimmter Felder

Python

Scala

Verwenden in Filtern

Python

Scala

Verwendung in COPY INTO

Verwenden im Autoloader

Python

Scala

Verwandte Artikel

Feedback

Zusätzliche Ressourcen