Reaaliaikaisten tietojen tukemat tietomuodot
Tietojen käsittely on prosessi, jossa tiedot lisätään taulukkoon ja tuodaan kyselyn saataville reaaliaikaisessa älykkyydessä. Kaikkien tietojen käsittelymenetelmien osalta kyselystä sisäänvientiä lukuun ottamatta tietojen on oltava jossakin tuetuista muodoista. Seuraavassa taulukossa luetellaan ja kuvataan muodot, joita reaaliaikainen tieto tukee tietojen käsittelylle.
Muistiinpano
Ennen kuin käytät tietoja, varmista, että tiedot on muotoiltu oikein ja että ne määrittävät odotetut kentät. Suosittelemme käyttämään haluamaasi vahvistajaa sen vahvistamiseksi, että muoto on kelvollinen. Esimerkiksi seuraavista vahvistajista voi olla hyötyä CSV- tai JSON-tiedostojen tarkistamisessa:
- CSV: http://csvlint.io/
- JSON: https://jsonlint.com/
Lisätietoja siitä, miksi käsittely saattaa epäonnistua, on artikkelissa Käsittelyvirheet.
Muotoile | Laajennus | Kuvaus |
---|---|---|
ApacheAvro | .avro |
AVRO-muoto, joka tukee loogisia tyyppejä. Seuraavia pakkauspakkauksenhallintaa tuetaan: null , deflate ja snappy . Muodon lukijan toteutus apacheavro perustuu viralliseen Apache Avro -kirjastoon. Lisätietoja Avro-tiedostojen sieppaamisen tapahtumatoiminnoista on artikkelissa Tapahtumatoimintojen rakenteen yhdistäminen Avro-tiedostojen sieppaamiseksi. |
Avro | .avro |
AVRO-muodon vanha toteutus, joka perustuu .NET-kirjastoon. Seuraavia pakkauspakkauksenhallintaa tuetaan: null , deflate (tietomuotoa varten snappy ApacheAvro ). |
CSV | .csv |
Tekstitiedosto, jossa on pilkuin eroteltuja arvoja (, ). Katso RFC 4180: Yleinen muoto ja MIME-tyyppi pilkuilla eroteltujen arvojen (CSV) tiedostoille. |
JSON | .json |
Tekstitiedosto, jossa JSON-objektit on eroteltu tai \n \r\n . Katso JSON Lines (JSONL). |
MultiJSON | .multijson |
Tekstitiedosto, jossa on ominaisuussäilöjen JSON-matriisi (kukin tietue) tai mikä tahansa määrä ominaisuussäilöjä, \n jotka on erotettu välilyönnillä tai \r\n . Jokainen ominaisuuspussi voidaan jakaa useille riveille. Tätä muotoa suositellaan kohteen sijaan JSON , elleivät tiedot ole ominaisuussäikkejä. |
ÖRKKI | .orc |
ORC-tiedosto. |
Parquet | .parquet |
Parquet-tiedosto. |
PSV | .psv |
Tekstitiedosto, jossa on putkilla eroteltuja arvoja (| ). |
RAAKA | .raw |
Tekstitiedosto, jonka koko sisältö on yksittäinen merkkijonoarvo. |
SCsv | .scsv |
Tekstitiedosto, jossa on puolipistein eroteltuja arvoja (; ). |
SOHSv | .sohsv |
Tekstitiedosto, jossa on SOH-eroteltuja arvoja. (SOH on ASCII-koodipiste 1; tätä muotoa käyttää Hive HDInsightissa.) |
TSV | .tsv |
Tekstitiedosto, jossa on välilehtien erottamia arvoja (\t ). |
TSVE | .tsv |
Tekstitiedosto, jossa on välilehtien erottamia arvoja (\t ). Kenoviivamerkkiä (\ ) käytetään ohjausmerkkien muodostamiseen. |
TXT | .txt |
Tekstitiedosto, jonka rivit on eroteltu meeratilla \n . Tyhjät rivit ohitetaan. |
W3CLOGFILE | .log |
W3C:n standardoima verkkolokitiedostomuoto . |
Muistiinpano
- Tietojen tallennusjärjestelmien tietojen käsittely, joka tarjoaa ACID-toimintoja tavallisten Parquet-muototiedostojen päällä (esimerkiksi Apache Iceberg, Apache Hudi), ei tueta.
- Schema-less-Avro-ominaispiirroa ei tueta.
Tuetut tietojen pakkausmuodot
Blob-objekteja ja tiedostoja voidaan pakata minkä tahansa seuraavan pakkausalgoritmin kautta:
Pakkaus | Laajennus |
---|---|
GZip | .gz |
Postinumero | .zip |
Ilmaise pakkaus liittämällä tunniste blob-objektin tai tiedoston nimeen.
Esimerkkejä:
MyData.csv.zip
tarkoittaa CSV-muotoista blob-objektia tai tiedostoa, joka on pakattu ZIP-tiedostolla (arkisto tai yksittäinen tiedosto)MyData.json.gz
tarkoittaa blob-objektia tai JSON-muotoon muotoiltua tiedostoa, pakattuna GZip-tiedostolla.
Blob-objektien tai tiedostojen nimet, jotka eivät sisällä muotoilutunnisteita, MyData.zip
mutta vain pakkausta (esimerkiksi ) tuetaan myös. Tässä tapauksessa tiedostomuoto on määritettävä käsittelyominaisuudeksi, koska sitä ei voida päätellä.
Muistiinpano
- Jotkin pakkausmuodot seuraavat alkuperäisen tiedostotunnisteen seuraamista osana pakattua virtaa. Tämä tunniste ohitetaan yleensä tiedostomuodon määrittämisessä. Jos tiedostomuotoa ei voida määrittää (pakatun) blob-objektin tai tiedostonimestä, se on määritettävä Tietojen käsittely -ominaisuuden
format
kautta. - Ei pidä sekoittaa sisäiseen (lohkotason) pakkauskoodiin,
AVRO
ORC
jotaParquet
ja -muodot käyttävät. Sisäinen pakkausnimi lisätään yleensä tiedostonimeen ennen tiedostomuodon laajennusta, esimerkiksi:file1.gz.parquet
,file1.snappy.avro
, jne.