Del via


Krav og begrænsninger for ustruktureret dokumentbehandling i SharePoint

I følgende tabel beskrives de vigtigste faktorer, der skal overvejes, når du planlægger at bruge en ustruktureret model til dokumentbehandling.

Ikon Beskrivelse
Filsymbol. Understøttede filtyper
Denne model understøtter følgende filtyper: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls og .xlsx (formler i .xls og .xlsx filer køres ikke).
Samtalesymbol. Understøttede sprog
Denne model understøtter alle de latinske sprog, herunder: engelsk, fransk, tysk, italiensk og spansk.
Afsnitssymbol. OCR-overvejelser
Denne model bruger OCR-teknologien (optical character recognition) til at scanne .pdf filer, billedfiler og .tiff filer. OCR-behandling fungerer bedst på dokumenter, der opfylder følgende krav:
- Filformat for .jpg, .png eller .pdf (tekst eller scannet). Tekstinddelt .pdf filer er bedre, fordi der ikke vil være nogen fejl i udtrækning af tegn og placering.
- Hvis dine .pdf filer er låst med adgangskode, skal du fjerne låsen, før du indsender dem.
– Den kombinerede filstørrelse for de dokumenter, der bruges til oplæring pr. samling, må ikke overstige 50 MB, og PDF-dokumenter må ikke have mere end 500 sider.
– For billeder skal dimensioner være mellem 50 x 50 og 10.000 x 10.000 pixel. Billeder, der er meget brede eller har ulige dimensioner (f.eks. plantegninger), afkortes muligvis i OCR-processen og mister nøjagtigheden.
– For .pdf filer skal dimensionerne være på højst 11 x 17 tommer, svarende til papirstørrelserne Legal eller A3 og mindre.
- Hvis der scannes fra papirdokumenter, bør scanninger være billeder i høj kvalitet.
- Skal bruge det latinske alfabet (engelske tegn).
Bemærk følgende forskelle i forbindelse med tekstbaserede Microsoft Office-filer og OCR-scannede filer (.pdf, billede eller .tiff):
- Alle filer: Afkortes med 64.000 tegn (under oplæring, og når de køres mod filer i et dokumentbibliotek).
- OCR-scannede filer: Der er en grænse på 500 sider. Kun PDF- og billedfiltyper behandles af OCR.
Globussymbol. Multi-Geo-miljøer
Når du konfigurerer Syntex i et Microsoft 365 Multi-Geo-miljø , kan du kun konfigurere det til at bruge modeltypen på den centrale placering. Hvis du vil bruge denne modeltype på en satellitplacering, skal du kontakte Microsoft Support.
Objektsymbol. Biblioteker med flere modeller
Hvis to eller flere oplærte modeller anvendes på det samme bibliotek, klassificeres filen ved hjælp af den model, der har den højeste gennemsnitlige konfidensscore. De udtrukne enheder er kun fra den anvendte model.