Jaa


Reaaliaikaisten tietojen tukemat tietomuodot

Tietojen käsittely on prosessi, jossa tiedot lisätään taulukkoon ja tuodaan kyselyn saataville reaaliaikaisessa älykkyydessä. Kaikkien tietojen käsittelymenetelmien osalta kyselystä sisäänvientiä lukuun ottamatta tietojen on oltava jossakin tuetuista muodoista. Seuraavassa taulukossa luetellaan ja kuvataan muodot, joita reaaliaikainen tieto tukee tietojen käsittelylle.

Muistiinpano

Ennen kuin käytät tietoja, varmista, että tiedot on muotoiltu oikein ja että ne määrittävät odotetut kentät. Suosittelemme käyttämään haluamaasi vahvistajaa sen vahvistamiseksi, että muoto on kelvollinen. Esimerkiksi seuraavista vahvistajista voi olla hyötyä CSV- tai JSON-tiedostojen tarkistamisessa:

Lisätietoja siitä, miksi käsittely saattaa epäonnistua, on artikkelissa Käsittelyvirheet.

Muotoile Laajennus Kuvaus
ApacheAvro .avro AVRO-muoto, joka tukee loogisia tyyppejä. Seuraavia pakkauspakkauksenhallintaa tuetaan: null, deflateja snappy. Muodon lukijan toteutus apacheavro perustuu viralliseen Apache Avro -kirjastoon. Lisätietoja Avro-tiedostojen sieppaamisen tapahtumatoiminnoista on artikkelissa Tapahtumatoimintojen rakenteen yhdistäminen Avro-tiedostojen sieppaamiseksi.
Avro .avro AVRO-muodon vanha toteutus, joka perustuu .NET-kirjastoon. Seuraavia pakkauspakkauksenhallintaa tuetaan: null, deflate (tietomuotoa varten snappy ApacheAvro ).
CSV .csv Tekstitiedosto, jossa on pilkuin eroteltuja arvoja (,). Katso RFC 4180: Yleinen muoto ja MIME-tyyppi pilkuilla eroteltujen arvojen (CSV) tiedostoille.
JSON .json Tekstitiedosto, jossa JSON-objektit on eroteltu tai \n \r\n. Katso JSON Lines (JSONL).
MultiJSON .multijson Tekstitiedosto, jossa on ominaisuussäilöjen JSON-matriisi (kukin tietue) tai mikä tahansa määrä ominaisuussäilöjä, \n jotka on erotettu välilyönnillä tai \r\n. Jokainen ominaisuuspussi voidaan jakaa useille riveille. Tätä muotoa suositellaan kohteen sijaan JSON, elleivät tiedot ole ominaisuussäikkejä.
ÖRKKI .orc ORC-tiedosto.
Parquet .parquet Parquet-tiedosto.
PSV .psv Tekstitiedosto, jossa on putkilla eroteltuja arvoja (|).
RAAKA .raw Tekstitiedosto, jonka koko sisältö on yksittäinen merkkijonoarvo.
SCsv .scsv Tekstitiedosto, jossa on puolipistein eroteltuja arvoja (;).
SOHSv .sohsv Tekstitiedosto, jossa on SOH-eroteltuja arvoja. (SOH on ASCII-koodipiste 1; tätä muotoa käyttää Hive HDInsightissa.)
TSV .tsv Tekstitiedosto, jossa on välilehtien erottamia arvoja (\t).
TSVE .tsv Tekstitiedosto, jossa on välilehtien erottamia arvoja (\t). Kenoviivamerkkiä (\) käytetään ohjausmerkkien muodostamiseen.
TXT .txt Tekstitiedosto, jonka rivit on eroteltu meeratilla \n. Tyhjät rivit ohitetaan.
W3CLOGFILE .log W3C:n standardoima verkkolokitiedostomuoto .

Muistiinpano

  • Tietojen tallennusjärjestelmien tietojen käsittely, joka tarjoaa ACID-toimintoja tavallisten Parquet-muototiedostojen päällä (esimerkiksi Apache Iceberg, Apache Hudi), ei tueta.
  • Schema-less-Avro-ominaispiirroa ei tueta.

Tuetut tietojen pakkausmuodot

Blob-objekteja ja tiedostoja voidaan pakata minkä tahansa seuraavan pakkausalgoritmin kautta:

Pakkaus Laajennus
GZip .gz
Postinumero .zip

Ilmaise pakkaus liittämällä tunniste blob-objektin tai tiedoston nimeen.

Esimerkkejä:

  • MyData.csv.zip tarkoittaa CSV-muotoista blob-objektia tai tiedostoa, joka on pakattu ZIP-tiedostolla (arkisto tai yksittäinen tiedosto)
  • MyData.json.gz tarkoittaa blob-objektia tai JSON-muotoon muotoiltua tiedostoa, pakattuna GZip-tiedostolla.

Blob-objektien tai tiedostojen nimet, jotka eivät sisällä muotoilutunnisteita, MyData.zipmutta vain pakkausta (esimerkiksi ) tuetaan myös. Tässä tapauksessa tiedostomuoto on määritettävä käsittelyominaisuudeksi, koska sitä ei voida päätellä.

Muistiinpano

  • Jotkin pakkausmuodot seuraavat alkuperäisen tiedostotunnisteen seuraamista osana pakattua virtaa. Tämä tunniste ohitetaan yleensä tiedostomuodon määrittämisessä. Jos tiedostomuotoa ei voida määrittää (pakatun) blob-objektin tai tiedostonimestä, se on määritettävä Tietojen käsittely -ominaisuuden format kautta.
  • Ei pidä sekoittaa sisäiseen (lohkotason) pakkauskoodiin, AVRO ORC jota Parquetja -muodot käyttävät. Sisäinen pakkausnimi lisätään yleensä tiedostonimeen ennen tiedostomuodon laajennusta, esimerkiksi: file1.gz.parquet, file1.snappy.avro, jne.