Delen via


Vereisten en beperkingen voor ongestructureerde documentverwerking in SharePoint

In de volgende tabel vindt u een overzicht van de belangrijkste factoren die u moet overwegen bij het plannen van een ongestructureerd documentverwerkingsmodel.

Pictogram Omschrijving
Bestandensymbool. Ondersteunde bestandstypen
Dit model ondersteunt de volgende bestandstypen: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls en .xlsx (formules in .xls en .xlsx bestanden worden niet uitgevoerd).
Gesprekssymbool. Ondersteunde talen
Dit model ondersteunt alle latijnse talen, waaronder: Engels, Frans, Duits, Italiaans en Spaans.
Alineasymbool. OCR-overwegingen
Dit model maakt gebruik van OCR-technologie (Optical Character Recognition) om .pdf bestanden, afbeeldingsbestanden en .tiff bestanden te scannen. OCR-verwerking werkt het beste met documenten die aan de volgende vereisten voldoen:
- Bestandsindeling van .jpg, .png of .pdf (tekst of gescand). In tekst ingesloten .pdf bestanden zijn beter, omdat er geen fouten optreden bij het extraheren van tekens en de locatie.
- Als uw .pdf bestanden met een wachtwoord zijn vergrendeld, moet u de vergrendeling verwijderen voordat u ze indient.
- De gecombineerde bestandsgrootte van de documenten die worden gebruikt voor training per verzameling mag niet groter zijn dan 50 MB en PDF-documenten mogen niet meer dan 500 pagina's bevatten.
- Voor afbeeldingen moeten afmetingen tussen 50 x 50 en 10.000 x 10.000 pixels zijn. Afbeeldingen die erg breed zijn of bijzondere afmetingen hebben (bijvoorbeeld bouwtekeningen), worden mogelijk afgekapt tijdens het OCR-proces en worden mogelijk minder nauwkeurig.
- Voor .pdf bestanden moeten de afmetingen maximaal 11 x 17 inch zijn, overeenkomend met legale of A3 papierformaten en kleiner.
- Bij het scannen van papieren documenten moeten scans afbeeldingen van hoge kwaliteit zijn.
- Moet het Latijnse alfabet (Engelse tekens) gebruiken.
Let op de volgende verschillen tussen Microsoft Office-tekstbestanden en OCR-gescande bestanden (.pdf, afbeelding of .tiff):
- Alle bestanden: afgekapt met 64.000 tekens (in training en wanneer uitgevoerd op bestanden in een documentbibliotheek).
- OCR-gescande bestanden: er is een limiet van 500 pagina's. Alleen PDF- en afbeeldingsbestandstypen worden verwerkt door OCR.
Symbool van de wereldbol. Multi-geo-omgevingen
Wanneer u Syntex instelt in een Microsoft 365 Multi-Geo-omgeving , kunt u deze alleen configureren voor het gebruik van het modeltype op de centrale locatie. Als u dit modeltype op een satellietlocatie wilt gebruiken, neemt u contact op met Microsoft-ondersteuning.
Objectensymbool. Bibliotheken met meerdere modellen
Als twee of meer getrainde modellen worden toegepast op dezelfde bibliotheek, wordt het bestand geclassificeerd met het model met de hoogste gemiddelde betrouwbaarheidsscore. De geëxtraheerde entiteiten zijn alleen afkomstig van het toegepaste model.