Jäsentämättömän asiakirjan käsittelyn vaatimukset ja rajoitukset SharePointissa
Seuraavassa taulukossa esitellään keskeiset tekijät, jotka on otettava huomioon suunnitellessa jäsentämättömän asiakirjan käsittelymallin käyttämistä.
Ikoni | Kuvaus |
---|---|
![]() |
Tuetut tiedostotyypit Tämä malli tukee seuraavia tiedostotyyppejä: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls ja .xlsx (.xls- ja .xlsx-tiedostojen kaavoja ei suoriteta). |
![]() |
Tuetut kielet Tämä malli tukee kaikkia latinalaisia kieliä, kuten englantia, ranskaa, saksaa, italiaa ja espanjaa. |
![]() |
OCR-tekstintunnistuksia Tämä malli käyttää OCR-tekniikkaa .pdf tiedostojen, kuvatiedostojen ja tiedostojen .tiff skannaamiseen. Tekstintunnistuksen käsittely toimii parhaiten asiakirjoissa, jotka täyttävät seuraavat vaatimukset: - .jpg, .png tai .pdf tiedostomuoto (teksti tai skannattu). Tekstiin upotetut .pdf tiedostot ovat parempia, koska merkkien purkamisessa ja sijainnissa ei ole virheitä. - Jos .pdf tiedostot on lukittu salasanalla, sinun on poistettava lukitus ennen niiden lähettämistä. - Kokoelmakohtaisessa koulutuksessa käytettävien tiedostojen yhteenlaskettu koko saa olla enintään 50 Mt ja PDF-asiakirjoissa saa olla enintään 500 sivua. - Kuvien mittojen on oltava 50 x 50 – 10 000 x 10 000 kuvapistettä. Kuvat, jotka ovat hyvin leveitä tai joilla on parittomat mitat (esimerkiksi pohjapiirrokset), saattavat katkaistua OCR-prosessissa ja menettää tarkkuuden. - .pdf tiedostoissa mittojen on oltava enintään 11 x 17 tuumaa, mikä vastaa Legal- tai A3-paperikokoja ja pienempiä. - Jos skannataan paperiasiakirjoista, skannauksen tulee olla korkealaatuisia kuvia. - On käytettävä latinalaisia aakkosia (englanninkielisiä merkkejä). Huomaa seuraavat erot Microsoft Officen tekstipohjaisissa tiedostoissa ja OCR-skannatuissa tiedostoissa (.pdf, kuvassa tai .tiff): - Kaikki tiedostot: katkaistu 64 000 merkin pituisiksi (harjoittamisessa ja suoritettaessa tiedostokirjaston tiedostoja vastaan). - OCR-skannatut tiedostot: sivuraja on 500. OCR käsittelee vain PDF- ja kuvatiedostotyypit. |
![]() |
Multi-Geo-ympäristöt Kun määrität Syntexiä Microsoft 365 Multi-Geo - ympäristössä, voit määrittää sen käyttämään mallityyppiä vain keskitetyssä sijainnissa. Jos haluat käyttää tätä mallityyppiä satelliittisijainnissa, ota yhteyttä Microsoftin tukeen. |
![]() |
Monimallikirjastot Jos samassa kirjastossa käytetään vähintään kahta harjoitettuja malleja, tiedosto luokitellaan käyttämällä mallia, jolla on korkein keskimääräinen luotettavuuspistemäärä. Poimitut entiteetit ovat vain käytetystä mallista. |