Von Real-Time Intelligence unterstützte Datenformate

Artikel
11/19/2024

Bei der Datenerfassung werden Daten einer Tabelle hinzugefügt und für Abfragen in Real-Time Intelligence verfügbar gemacht. Mit Ausnahme der Erfassung aus einer Abfrage müssen die Daten bei allen Erfassungsmethoden in einem der unterstützten Formate vorliegen. In der folgenden Tabelle sind die Formate aufgeführt und beschrieben, die bei Real-Time Intelligence für die Datenerfassung unterstützt werden.

Hinweis

Stellen Sie vor der Erfassung von Daten sicher, dass Ihre Daten ordnungsgemäß formatiert sind, und definieren Sie die erwarteten Felder. Es wird empfohlen, Ihr bevorzugtes Validierungssteuerelement zu verwenden, um zu überprüfen, ob das Format gültig ist. Die folgenden Validierungssteuerelemente können beispielsweise nützlich sein, um CSV- oder JSON-Dateien zu überprüfen:

CSV: http://csvlint.io/
JSON: https://jsonlint.com/

Weitere Informationen zu möglichen Fehlern bei der Erfassung finden Sie unter Erfassungsfehler.

Format	Durchwahl	BESCHREIBUNG
ApacheAvro	`.avro`	Ein AVRO-Format mit Unterstützung von logischen Typen. Folgende Komprimierungscodecs werden unterstützt: `null`, `deflate` und `snappy`. Die Readerimplementierung des Formats `apacheavro` basiert auf der `apacheavro`. Informationen zum Erfassen von Event Hub Capture Avro-Dateien finden Sie unter Schemazuordnung für Event Hub Capture Avro-Dateien.
Avro	`.avro`	Eine Legacyimplementierung des AVRO-Formats, die auf der .NET-Bibliothek basiert. Folgende Komprimierungscodecs werden unterstützt: `null` und `deflate`. (Verwenden Sie für `snappy` das Dateiformat `ApacheAvro`.)
CSV	`.csv`	Eine Textdatei mit kommagetrennten Werten (`,`). Weitere Informationen finden Sie unter RFC 4180: Common Format and MIME Type for Comma-Separated Values (CSV) Files (RFC 4180: Allgemeines Format und MIME-Typ für CSV-Dateien).
JSON	`.json`	Eine Textdatei mit JSON-Objekten getrennt durch `\n` oder `\r\n`. Weitere Informationen finden Sie unter JSON Lines (JSONL).
MultiJSON	`.multijson`	Eine Textdatei mit einem JSON-Array mit Eigenschaftenbehältern (die jeweils einen Datensatz darstellen) oder einer beliebigen Anzahl von durch Leerzeichen getrennten Eigenschaftenbehältern, `\n` oder `\r\n`. Jeder Eigenschaftenbehälter kann auf mehrere Zeilen verteilt sein. Dieses Format ist `JSON` vorzuziehen, es sei denn, bei den Daten handelt es sich nicht um Eigenschaftenbehälter.
ORC	`.orc`	Eine ORC-Datei.
Parquet	`.parquet`	Eine Parquet-Datei
PSV	`.psv`	Eine Textdatei mit durch senkrechte Striche getrennten Werten (`\|`).
RAW	`.raw`	Eine Textdatei, deren gesamter Inhalt ein einzelner Zeichenfolgenwert ist.
SCsv	`.scsv`	Eine Textdatei mit durch Semikolons getrennten Werten (`;`).
SOHsv	`.sohsv`	Eine Textdatei mit SOH-getrennten Werten. (SOH ist der ASCII-Codepunkt 1. Dieses Format wird von Hive in HDInsight verwendet.)
TSV	`.tsv`	Eine Textdatei mit durch Tabstopps getrennten Werten (`\t`).
TSVE	`.tsv`	Eine Textdatei mit durch Tabstopps getrennten Werten (`\t`). Als Escapezeichen wird ein umgekehrter Schrägstrich (`\`) verwendet.
TXT	`.txt`	Eine Textdatei mit durch `\n` getrennten Zeilen. Leere Zeilen werden übersprungen.
W3CLOGFILE	`.log`	Vom W3C standardisiertes Format der Webprotokolldatei

Hinweis

Die Erfassung von Datenspeichersystemen, die über Dateien im regulären Parquet-Format hinaus ACID-Funktionen bieten (z. B. Apache Iceberg, Apache Hudi), wird nicht unterstützt.
Avro ohne Schema wird nicht unterstützt.

Unterstützte Datenkomprimierungsformate

Blobs und Dateien können mit einem der folgenden Komprimierungsalgorithmen komprimiert werden:

Komprimierung	Durchwahl
GZip	.gz
Zip	.zip

Geben Sie die Komprimierung an, indem Sie die Erweiterung dem Namen des Blobs oder der Datei anhängen.

Beispiel:

MyData.csv.zip gibt an, dass ein Blob oder eine Datei als CSV formatiert und mit ZIP (Archiv oder einzelne Datei) komprimiert ist.
MyData.json.gz gibt an, dass ein Blob oder eine Datei als JSON formatiert und mit gzip komprimiert ist.

Blob- oder Dateinamen, die nicht die Formaterweiterungen, sondern nur die Komprimierung (z. B. MyData.zip) enthalten, werden ebenfalls unterstützt. In diesem Fall muss das Dateiformat als Erfassungseigenschaft angegeben werden, da es nicht abgeleitet werden kann.

Hinweis

Bei einigen Komprimierungsformaten wird die ursprüngliche Dateierweiterung in den komprimierten Datenstrom aufgenommen. Diese Erweiterung wird bei der Bestimmung des Dateiformats generell ignoriert. Kann das Dateiformat nicht anhand des Namens des (komprimierten) Blobs oder der (komprimierten) Datei bestimmt werden, muss es mithilfe der Erfassungseigenschaft format angegeben werden.
Nicht zu verwechseln mit dem internen Komprimierungscodec (Blockebene), der von den Formaten Parquet, AVRO und ORC verwendet wird. Der Name der internen Komprimierung wird einem Dateinamen in der Regel vor der Dateiformaterweiterung hinzugefügt. Beispiele: file1.gz.parquet, file1.snappy.avro, usw.

Freigeben über

Von Real-Time Intelligence unterstützte Datenformate

Unterstützte Datenkomprimierungsformate

Feedback

Zusätzliche Ressourcen

Freigeben über

Von Real-Time Intelligence unterstützte Datenformate

Unterstützte Datenkomprimierungsformate

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen