Sdílet prostřednictvím


Požadavky a omezení pro nestrukturované zpracování dokumentů v SharePointu

Následující tabulka popisuje klíčové faktory, které je potřeba vzít v úvahu při plánování použití nestrukturovaného modelu zpracování dokumentů.

Ikona Popis
Symbol souborů. Podporované typy souborů
Tento model podporuje následující typy souborů: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls a .xlsx (vzorce v souborech .xls a .xlsx se nespouštějí).
Symbol konverzace. Podporované jazyky
Tento model podporuje všechny jazyky založené na latince, včetně angličtiny, francouzštiny, němčiny, italštiny a španělštiny.
Symbol odstavce. Důležité informace o OCR
Tento model používá technologii optického rozpoznávání znaků (OCR) ke skenování .pdf souborů, souborů obrázků a .tiff souborů. Zpracování OCR funguje nejlépe u dokumentů, které splňují následující požadavky:
- Formát souboru .jpg, .png nebo .pdf (text nebo naskenovaný). Textové .pdf soubory jsou lepší, protože při extrakci a umístění znaků nebudou žádné chyby.
– Pokud jsou soubory .pdf uzamčené heslem, musíte zámek před odesláním odebrat.
- Kombinovaná velikost souborů dokumentů používaných pro trénování na kolekci nesmí překročit 50 MB a dokumenty PDF by neměly mít více než 500 stránek.
- U obrázků musí být rozměry mezi 50 x 50 a 10 000 x 10 000 pixelů. Obrázky, které jsou velmi široké nebo mají odlišné rozměry (například plány prostorového uspořádání), se můžou v procesu OCR zkrátit a ztratit přesnost.
- Pro .pdf soubory musí mít rozměry maximálně 11 x 17 palců, což odpovídá formátu papíru Legal nebo A3 a menší.
- Pokud se skenuje z papírových dokumentů, měly by být snímky ve vysoké kvalitě.
– Musí používat latinku (anglické znaky).
Všimněte si následujících rozdílů v textových souborech Microsoft Office a souborech s kontrolou OCR (.pdf, obrázku nebo .tiff):
- Všechny soubory: Zkrácené na 64 000 znaků (při trénování a při spuštění proti souborům v knihovně dokumentů).
– Naskenované soubory OCR: Limit je 500 stránek. OCR zpracovává jenom typy souborů PDF a obrázků.
Symbol glóbusu. Prostředí Multi-Geo
Při nastavování syntexu v prostředí Microsoft 365 Multi-Geo ho můžete nakonfigurovat tak, aby používal typ modelu pouze v centrálním umístění. Pokud chcete tento typ modelu použít v satelitním umístění, kontaktujte podporu Microsoftu.
Symbol objektů. Knihovny s více modely
Pokud se ve stejné knihovně použijí dva nebo více natrénovaných modelů, soubor se klasifikuje pomocí modelu, který má nejvyšší průměrné skóre spolehlivosti. Extrahované entity pocházejí pouze z použitého modelu.