Dela via


Dataformat som stöds av Realtidsinformation

Datainmatning är den process genom vilken data läggs till i en tabell och görs tillgängliga för frågor i Realtidsinformation. För alla inmatningsmetoder, förutom inmatning från fråga, måste data vara i något av de format som stöds. I följande tabell visas och beskrivs de format som Realtidsinformation stöder för datainmatning.

Kommentar

Innan du matar in data kontrollerar du att dina data är korrekt formaterade och definierar de förväntade fälten. Vi rekommenderar att du använder den validator du föredrar för att bekräfta att formatet är giltigt. Du kanske till exempel tycker att följande validatorer är användbara för att kontrollera CSV- eller JSON-filer:

Mer information om varför inmatning kan misslyckas finns i Inmatningsfel.

Format Tillägg beskrivning
ApacheAvro .avro Ett AVRO-format med stöd för logiska typer. Följande komprimerings codecs stöds: null, deflateoch snappy. Läsarimplementeringen apacheavro av formatet baseras på det officiella Apache Avro-biblioteket. Information om hur du matar in Event Hubs Capture Avro-filer finns i Schemamappning för Event Hubs Capture Avro-filer.
Avro .avro En äldre implementering för AVRO-format baserat på .NET-biblioteket. Följande komprimerings codecs stöds: null, deflate (för snappy – använd ApacheAvro dataformat).
CSV .csv En textfil med kommaavgränsade värden (,). Se RFC 4180: Common Format och MIME Type for Comma-Separated Values (CSV)-filer.
JSON .json En textfil med JSON-objekt avgränsade av \n eller \r\n. Se JSON Lines (JSONL).
MultiJSON .multijson En textfil med en JSON-matris med egenskapspåsar (var och en representerar en post) eller valfritt antal egenskapspåsar avgränsade med blanksteg eller \n \r\n. Varje egenskapsväska kan spridas på flera linjer. Det här formatet föredras framför JSON, såvida inte data är icke-property-påsar.
ORCH .orc En ORC-fil.
Parquet .parquet En Parquet-fil.
PSV .psv En textfil med pipe-avgränsade värden (|).
.raw En textfil vars hela innehåll är ett enda strängvärde.
SCsv .scsv En textfil med semikolonavgränsade värden (;).
SOHsv .sohsv En textfil med SOH-avgränsade värden. (SOH är ASCII-kodpunkt 1. Det här formatet används av Hive i HDInsight.)
TSV .tsv En textfil med tab-avgränsade värden (\t).
TSVE .tsv En textfil med tab-avgränsade värden (\t). Ett omvänt snedstreck (\) används för att fly.
TXT .txt En textfil med rader avgränsade med \n. Tomma rader hoppas över.
W3CLOGFILE .log Webbloggfilformat som standardiserats av W3C.

Kommentar

  • Inmatning från datalagringssystem som tillhandahåller ACID-funktioner ovanpå vanliga Parquet-formatfiler (t.ex. Apache Iceberg, Apache Hudi) stöds inte.
  • Schemalös Avro stöds inte

Datakomprimeringsformat som stöds

Blobbar och filer kan komprimeras via någon av följande komprimeringsalgoritmer:

Komprimering Anknytning
GZip .gz
Postnummer .zip

Ange komprimering genom att lägga till tillägget till namnet på bloben eller filen.

Till exempel:

  • MyData.csv.zip anger en blob eller en fil formaterad som CSV, komprimerad med ZIP (arkiv eller en enda fil)
  • MyData.json.gz anger en blob eller en fil som är formaterad som JSON, komprimerad med GZip.

Blob- eller filnamn som inte innehåller formattilläggen utan bara komprimering (till exempel MyData.zip) stöds också. I det här fallet måste filformatet anges som en inmatningsegenskap eftersom det inte kan härledas.

Kommentar

  • Vissa komprimeringsformat håller reda på det ursprungliga filtillägget som en del av den komprimerade strömmen. Det här tillägget ignoreras vanligtvis för att fastställa filformatet. Om filformatet inte kan fastställas från den (komprimerade) bloben eller filnamnet måste det anges via inmatningsegenskapen format .
  • Ska inte förväxlas med intern (segmentnivå) komprimeringskodc som används av Parquet, AVRO och ORC format. Internt komprimeringsnamn läggs vanligtvis till i ett filnamn före filformatstillägget, till exempel: file1.gz.parquet, file1.snappy.avroosv.