Del via


Dataformater, der understøttes af realtidsintelligens

Dataindtagelse er den proces, hvormed data føjes til en tabel, og som gøres tilgængelige for forespørgsler i realtidsintelligens. For alle metoder til indtagelse, bortset fra indfødning fra forespørgsel, skal dataene være i et af de understøttede formater. I følgende tabel vises og beskrives de formater, som realtidsintelligens understøtter for dataindtagelse.

Bemærk

Før du indtager data, skal du sørge for, at dine data er formateret korrekt og definerer de forventede felter. Vi anbefaler, at du bruger din foretrukne validator til at bekræfte, at formatet er gyldigt. Du kan f.eks. finde følgende validatorer nyttige til at kontrollere CSV- eller JSON-filer:

Du kan få flere oplysninger om, hvorfor indtagelsen kan mislykkes, under Indtagelsesfejl.

Format Udvidelse Beskrivelse
ApacheAvro .avro Et AVRO-format med understøttelse af logiske typer. Følgende komprimerings codecs understøttes: null, deflateog snappy. Læserimplementering apacheavro af formatet er baseret på det officielle Apache Avro-bibliotek. Du kan få oplysninger om indtagelse af Event Hubs Capture Avro-filer under Skematilknytning for Event Hubs Capture Avro-filer.
Avro .avro En ældre implementering af AVRO-format , der er baseret på .NET-biblioteket. Følgende komprimerings codecs understøttes: null, deflate (for snappy – brug ApacheAvro dataformat).
CSV .csv En tekstfil med kommaseparerede værdier (,). Se RFC 4180: Common Format og MIME Type for CSV-filer (Kommaseparerede værdier).
JSON .json En tekstfil med JSON-objekter afgrænset af \n eller \r\n. Se JSON Lines (JSONL).
MultiJSON .multijson En tekstfil med en JSON-matrix af egenskabsposer (der hver især repræsenterer en post) eller et vilkårligt antal egenskabssække afgrænset af mellemrum \n eller \r\n. Hver egenskabspose kan fordeles på flere linjer. Dette format foretrækkes frem for JSON, medmindre dataene er ikke-passende sække.
ORK .orc En ORC-fil.
Parquet .parquet En parquetfil.
PSV .psv En tekstfil med pipeseparerede værdier (|).
.raw En tekstfil, hvis hele indholdet er en enkelt strengværdi.
SCsv .scsv En tekstfil med semikolonseparerede værdier (;).
SOHsv .sohsv En tekstfil med SOH-adskilte værdier. SOH er ASCII-kodepunkt 1. Dette format bruges af Hive på HDInsight.
TSV .tsv En tekstfil med tabulatorseparerede værdier (\t).
TSVE .tsv En tekstfil med tabulatorseparerede værdier (\t). Et omvendt skråstregstegn (\) bruges til at undslippe.
TXT .txt En tekstfil med linjer afgrænset af \n. Tomme linjer springes over.
W3CLOGFILE .log Weblogfilformat , der er standardiseret af W3C.

Bemærk

  • Indtagelse fra datalagringssystemer, der leverer ACID-funktionalitet ud over almindelige parquetformatfiler (f.eks. Apache Iceberg, Apache Hudi), understøttes ikke.
  • Schema-less Avro understøttes ikke

Understøttede datakomprimeringsformater

Blobs og filer kan komprimeres via en af følgende komprimeringsalgoritmer:

Komprimering Lokalnummer
GZip .gz
Postnummer .zip

Angiv komprimering ved at føje filtypenavnet til navnet på blob'en eller filen.

Eksempler:

  • MyData.csv.zip angiver en blob eller en fil, der er formateret som CSV, komprimeret med ZIP (arkiv eller en enkelt fil)
  • MyData.json.gz angiver en blob eller en fil, der er formateret som JSON, komprimeret med GZip.

Blob- eller filnavne, der ikke indeholder formatudvidelser, MyData.zipmen kun komprimering (f.eks. ) understøttes også. I dette tilfælde skal filformatet angives som en egenskab for indtagelse, fordi det ikke kan udledes.

Bemærk

  • Nogle komprimeringsformater holder styr på det oprindelige filtypenavn som en del af den komprimerede stream. Dette filtypenavn ignoreres generelt til bestemmelse af filformatet. Hvis filformatet ikke kan bestemmes ud fra det (komprimerede) blob- eller filnavn, skal det angives via format egenskaben for indtagelse.
  • Ikke at forveksle med intern komprimeringscodec (segmentniveau), der bruges af ParquetAVRO ORC og -formater. Et internt komprimeringsnavn føjes normalt til et filnavn før filtypenavnet, f.eks.: file1.gz.parquet, file1.snappy.avroosv.