Jaa


Jäsentämättömän asiakirjan käsittelyn vaatimukset ja rajoitukset SharePointissa

Seuraavassa taulukossa esitellään keskeiset tekijät, jotka on otettava huomioon suunnitellessa jäsentämättömän asiakirjan käsittelymallin käyttämistä.

Ikoni Kuvaus
Tiedostosymboli. Tuetut tiedostotyypit
Tämä malli tukee seuraavia tiedostotyyppejä: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls ja .xlsx (.xls- ja .xlsx-tiedostojen kaavoja ei suoriteta).
Keskustelusymboli. Tuetut kielet
Tämä malli tukee kaikkia latinalaisia kieliä, kuten englantia, ranskaa, saksaa, italiaa ja espanjaa.
Kappalesymboli. OCR-tekstintunnistuksia
Tämä malli käyttää OCR-tekniikkaa .pdf tiedostojen, kuvatiedostojen ja tiedostojen .tiff skannaamiseen. Tekstintunnistuksen käsittely toimii parhaiten asiakirjoissa, jotka täyttävät seuraavat vaatimukset:
- .jpg, .png tai .pdf tiedostomuoto (teksti tai skannattu). Tekstiin upotetut .pdf tiedostot ovat parempia, koska merkkien purkamisessa ja sijainnissa ei ole virheitä.
- Jos .pdf tiedostot on lukittu salasanalla, sinun on poistettava lukitus ennen niiden lähettämistä.
- Kokoelmakohtaisessa koulutuksessa käytettävien tiedostojen yhteenlaskettu koko saa olla enintään 50 Mt ja PDF-asiakirjoissa saa olla enintään 500 sivua.
- Kuvien mittojen on oltava 50 x 50 – 10 000 x 10 000 kuvapistettä. Kuvat, jotka ovat hyvin leveitä tai joilla on parittomat mitat (esimerkiksi pohjapiirrokset), saattavat katkaistua OCR-prosessissa ja menettää tarkkuuden.
- .pdf tiedostoissa mittojen on oltava enintään 11 x 17 tuumaa, mikä vastaa Legal- tai A3-paperikokoja ja pienempiä.
- Jos skannataan paperiasiakirjoista, skannauksen tulee olla korkealaatuisia kuvia.
- On käytettävä latinalaisia aakkosia (englanninkielisiä merkkejä).
Huomaa seuraavat erot Microsoft Officen tekstipohjaisissa tiedostoissa ja OCR-skannatuissa tiedostoissa (.pdf, kuvassa tai .tiff):
- Kaikki tiedostot: katkaistu 64 000 merkin pituisiksi (harjoittamisessa ja suoritettaessa tiedostokirjaston tiedostoja vastaan).
- OCR-skannatut tiedostot: sivuraja on 500. OCR käsittelee vain PDF- ja kuvatiedostotyypit.
Maapallosymboli. Multi-Geo-ympäristöt
Kun määrität Syntexiä Microsoft 365 Multi-Geo - ympäristössä, voit määrittää sen käyttämään mallityyppiä vain keskitetyssä sijainnissa. Jos haluat käyttää tätä mallityyppiä satelliittisijainnissa, ota yhteyttä Microsoftin tukeen.
Objektisymboli. Monimallikirjastot
Jos samassa kirjastossa käytetään vähintään kahta harjoitettuja malleja, tiedosto luokitellaan käyttämällä mallia, jolla on korkein keskimääräinen luotettavuuspistemäärä. Poimitut entiteetit ovat vain käytetystä mallista.