Udostępnij za pośrednictwem


Wymagania i ograniczenia dotyczące przetwarzania dokumentów bez struktury w programie SharePoint

W poniższej tabeli przedstawiono kluczowe czynniki, które należy wziąć pod uwagę podczas planowania użycia modelu przetwarzania dokumentów bez struktury.

Ikona Opis
Symbol plików. Obsługiwane typy plików
Ten model obsługuje następujące typy plików: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls i .xlsx (formuły w plikach .xls i .xlsx nie są uruchamiane).
Symbol konwersacji. Obsługiwane języki
Ten model obsługuje wszystkie języki łacińskie, w tym: angielski, francuski, niemiecki, włoski i hiszpański.
Symbol akapitu. Zagadnienia dotyczące OCR
Ten model wykorzystuje technologię optycznego rozpoznawania znaków (OCR) do skanowania .pdf plików, plików obrazów i plików .tiff. Przetwarzanie OCR działa najlepiej w dokumentach spełniających następujące wymagania:
- Format pliku .jpg, .png lub .pdf (tekst lub skanowane). Pliki .pdf osadzone w tekście są lepsze, ponieważ nie będzie żadnych błędów w wyodrębnianiu znaków i lokalizacji.
- Jeśli pliki .pdf są zablokowane hasłem, należy usunąć blokadę przed ich przesłaniem.
— Łączny rozmiar plików dokumentów używanych do trenowania na kolekcję nie może przekraczać 50 MB, a dokumenty PDF nie powinny mieć więcej niż 500 stron.
- W przypadku obrazów wymiary muszą mieć od 50 x 50 do 10 000 x 10 000 pikseli. Obrazy, które są bardzo szerokie lub mają nieparzyste wymiary (na przykład plany pomieszczeń), mogą zostać obcięte w procesie OCR i utracić dokładność.
- W przypadku plików .pdf wymiary muszą mieć maksymalnie 11 x 17 cali, co odpowiada rozmiarom papieru legalnego lub A3 i mniejszemu rozmiarowi.
- W przypadku skanowania z dokumentów papierowych skanowanie powinno być obrazami wysokiej jakości.
- Musi używać alfabetu łacińskiego (znaki angielskie).
Zwróć uwagę na następujące różnice dotyczące plików tekstowych pakietu Microsoft Office i plików zeskanowanych za pomocą protokołu OCR (.pdf, obrazów lub .tiff):
— Wszystkie pliki: obcięte przy użyciu 64 000 znaków (podczas trenowania i uruchamiania względem plików w bibliotece dokumentów).
— Pliki zeskanowane przez protokół OCR: istnieje limit 500 stron. Tylko typy plików PDF i plików obrazów są przetwarzane przez usługę OCR.
Symbol kuli ziemskiej. Środowiska z wieloma lokalizacjami geograficznymi
Podczas konfigurowania aplikacji Syntex w środowisku z wieloma lokalizacjami geograficznymi platformy Microsoft 365 można skonfigurować go tylko do używania typu modelu w centralnej lokalizacji. Jeśli chcesz użyć tego typu modelu w lokalizacji satelitarnej, skontaktuj się z pomocą techniczną firmy Microsoft.
Symbol obiektów. Biblioteki z wieloma modelami
Jeśli co najmniej dwa wytrenowane modele są stosowane do tej samej biblioteki, plik jest klasyfikowany przy użyciu modelu, który ma najwyższy średni wynik ufności. Wyodrębnione jednostki pochodzą tylko z zastosowanego modelu.