Gegevensindelingen die worden ondersteund door Azure Data Explorer voor opname

Artikel
11/20/2023

Gegevensopname is het proces waarmee gegevens worden toegevoegd aan een tabel en beschikbaar worden gemaakt voor query's in Azure Data Explorer. Voor alle opnamemethoden, met uitzondering van ingest-from-query, moeten de gegevens een van de ondersteunde indelingen hebben. De volgende tabel bevat en beschrijft de indelingen die Azure Data Explorer ondersteunt voor gegevensopname.

Notitie

Voordat u gegevens opneemt, moet u ervoor zorgen dat uw gegevens correct zijn opgemaakt en de verwachte velden definiëren. We raden u aan uw voorkeursvalidator te gebruiken om te bevestigen dat de indeling geldig is. U kunt bijvoorbeeld de volgende validaties vinden die handig zijn om CSV- of JSON-bestanden te controleren:

CSV: http://csvlint.io/
JSON: https://jsonlint.com/

Zie Opnamefouten en foutcodes voor opname in Azure Data Explorer voor meer informatie over waarom opname kan mislukken.

Indeling	Extensie	Description
ApacheAvro	`.avro`	Een AVRO-indeling met ondersteuning voor logische typen. De volgende compressiecodecs worden ondersteund: `null`, `deflate`en `snappy`. De lezer-implementatie van de `apacheavro` indeling is gebaseerd op de officiële Apache Avro-bibliotheek. Zie Opname van Avro-bestanden van Event Hub Capture voor informatie over het opnemen van Avro-bestanden voor Event Hub Capture.
Avro	`.avro`	Een verouderde implementatie voor AVRO-indeling op basis van .NET-bibliotheek. De volgende compressiecodecs worden ondersteund: `null`, `deflate` (voor `snappy` - gegevensindeling gebruiken `ApacheAvro` ).
CSV	`.csv`	Een tekstbestand met door komma's gescheiden waarden (`,`). Zie RFC 4180: Algemene indeling en MIME-type voor CSV-bestanden (Comma-Separated Values).
JSON	`.json`	Een tekstbestand met JSON-objecten gescheiden door `\n` of `\r\n`. Zie JSON-lijnen (JSONL).
MultiJSON	`.multijson`	Een tekstbestand met een JSON-matrix van eigenschapsverzamelingen (elk die een record vertegenwoordigen) of een willekeurig aantal eigenschapsverzamelingen gescheiden door witruimte, `\n` of `\r\n`. Elke eigenschappenverzameling kan over meerdere lijnen worden verdeeld.
ORC	`.orc`	Een ORC-bestand.
Parquet	`.parquet`	Een Parquet-bestand.
PSV	`.psv`	Een tekstbestand met door pijpen gescheiden waarden (`\|`).
RAW	`.raw`	Een tekstbestand waarvan de volledige inhoud één tekenreekswaarde is.
SCsv	`.scsv`	Een tekstbestand met door puntkomma's gescheiden waarden (`;`).
SOHsv	`.sohsv`	Een tekstbestand met door SOH gescheiden waarden. (SOH is ASCII-codepunt 1; deze indeling wordt gebruikt door Hive in HDInsight.)
TSV	`.tsv`	Een tekstbestand met door tabs gescheiden waarden (`\t`).
TSVE	`.tsv`	Een tekstbestand met door tabs gescheiden waarden (`\t`). Een backslashteken (`\`) wordt gebruikt om te ontsnappen.
TXT	`.txt`	Een tekstbestand met regels gescheiden door `\n`. Lege regels worden overgeslagen.
W3CLOGFILE	`.log`	Indeling van weblogboekbestand gestandaardiseerd door W3C.

Notitie

Opname van gegevensopslagsystemen die ACID-functionaliteit bieden boven op normale Parquet-indelingsbestanden (bijvoorbeeld Apache Iceberg, Apache Hudi, Delta Lake) wordt niet ondersteund.
Avro zonder schema wordt niet ondersteund.
Raadpleeg dit document voor meer informatie over het opnemen van gegevens met behulp van json of multijson indelingen.

Ondersteunde indelingen voor gegevenscompressie

Blobs en bestanden kunnen worden gecomprimeerd via een van de volgende compressiealgoritmen:

Compressie	Extensie
Gzip	.Gz
Zip	.zip

Geef compressie aan door de extensie toe te voegen aan de naam van de blob of het bestand.

Bijvoorbeeld:

MyData.csv.zip geeft een blob of een bestand met de indeling CSV aan, gecomprimeerd met ZIP (archief of één bestand)
MyData.json.gz geeft een blob of een bestand met de indeling JSON aan, gecomprimeerd met GZip.

Blob- of bestandsnamen die geen indelingsextensies bevatten, MyData.zipmaar alleen compressie (bijvoorbeeld ) worden ook ondersteund. In dit geval moet de bestandsindeling worden opgegeven als een opname-eigenschap, omdat deze niet kan worden afgeleid.

Notitie

Sommige compressie-indelingen houden de oorspronkelijke bestandsextensie bij als onderdeel van de gecomprimeerde stroom. Deze extensie wordt over het algemeen genegeerd voor het bepalen van de bestandsindeling. Als de bestandsindeling niet kan worden bepaald op basis van de (gecomprimeerde) blob of bestandsnaam, moet deze worden opgegeven via de format eigenschap opname.
Niet te verwarren met interne compressiecodec (segmentniveau) die wordt gebruikt door Parqueten-indelingen AVROORC . Interne compressienaam wordt meestal toegevoegd aan een bestandsnaam vóór de extensie van de bestandsindeling, bijvoorbeeld: file1.gz.parquet, file1.snappy.avro, enzovoort.
Deflate64/Enhanced Deflate De zip-compressiemethode wordt niet ondersteund. Houd er rekening mee dat de ingebouwde Zip-compressor van Windows ervoor kan kiezen om deze compressiemethode te gebruiken voor bestanden met een grootte van meer dan 2 GB.

Meer informatie over gegevensopname
Meer informatie over eigenschappen voor gegevensopname in Azure Data Explorer

Delen via

Gegevensindelingen die worden ondersteund door Azure Data Explorer voor opname

Ondersteunde indelingen voor gegevenscompressie

Feedback

Aanvullende resources

Delen via

Gegevensindelingen die worden ondersteund door Azure Data Explorer voor opname

Ondersteunde indelingen voor gegevenscompressie

Gerelateerde inhoud

Feedback

Aanvullende resources