Wymagania i ograniczenia dotyczące przetwarzania dokumentów bez struktury w programie SharePoint

Artykuł
01/23/2025

W poniższej tabeli przedstawiono kluczowe czynniki, które należy wziąć pod uwagę podczas planowania użycia modelu przetwarzania dokumentów bez struktury.

Ikona	Opis
	Obsługiwane typy plików Ten model obsługuje następujące typy plików: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls i .xlsx (formuły w plikach .xls i .xlsx nie są uruchamiane).
	Obsługiwane języki Ten model obsługuje wszystkie języki łacińskie, w tym: angielski, francuski, niemiecki, włoski i hiszpański.
	Zagadnienia dotyczące OCR Ten model wykorzystuje technologię optycznego rozpoznawania znaków (OCR) do skanowania .pdf plików, plików obrazów i plików .tiff. Przetwarzanie OCR działa najlepiej w dokumentach spełniających następujące wymagania: - Format pliku .jpg, .png lub .pdf (tekst lub skanowane). Pliki .pdf osadzone w tekście są lepsze, ponieważ nie będzie żadnych błędów w wyodrębnianiu znaków i lokalizacji. - Jeśli pliki .pdf są zablokowane hasłem, należy usunąć blokadę przed ich przesłaniem. — Łączny rozmiar plików dokumentów używanych do trenowania na kolekcję nie może przekraczać 50 MB, a dokumenty PDF nie powinny mieć więcej niż 500 stron. - W przypadku obrazów wymiary muszą mieć od 50 x 50 do 10 000 x 10 000 pikseli. Obrazy, które są bardzo szerokie lub mają nieparzyste wymiary (na przykład plany pomieszczeń), mogą zostać obcięte w procesie OCR i utracić dokładność. - W przypadku plików .pdf wymiary muszą mieć maksymalnie 11 x 17 cali, co odpowiada rozmiarom papieru legalnego lub A3 i mniejszemu rozmiarowi. - W przypadku skanowania z dokumentów papierowych skanowanie powinno być obrazami wysokiej jakości. - Musi używać alfabetu łacińskiego (znaki angielskie). Zwróć uwagę na następujące różnice dotyczące plików tekstowych pakietu Microsoft Office i plików zeskanowanych za pomocą protokołu OCR (.pdf, obrazów lub .tiff): — Wszystkie pliki: obcięte przy użyciu 64 000 znaków (podczas trenowania i uruchamiania względem plików w bibliotece dokumentów). — Pliki zeskanowane przez protokół OCR: istnieje limit 500 stron. Tylko typy plików PDF i plików obrazów są przetwarzane przez usługę OCR.
	Środowiska z wieloma lokalizacjami geograficznymi Podczas konfigurowania aplikacji Syntex w środowisku z wieloma lokalizacjami geograficznymi platformy Microsoft 365 można skonfigurować go tylko do używania typu modelu w centralnej lokalizacji. Jeśli chcesz użyć tego typu modelu w lokalizacji satelitarnej, skontaktuj się z pomocą techniczną firmy Microsoft.
	Biblioteki z wieloma modelami Jeśli co najmniej dwa wytrenowane modele są stosowane do tej samej biblioteki, plik jest klasyfikowany przy użyciu modelu, który ma najwyższy średni wynik ufności. Wyodrębnione jednostki pochodzą tylko z zastosowanego modelu.