Требования и ограничения для обработки неструктурированных документов в SharePoint

Статья
01/23/2025

В следующей таблице перечислены ключевые факторы, которые следует учитывать при планировании использования неструктурированной модели обработки документов.

Значок	Описание
	Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls и .xlsx (формулы в файлах .xls и .xlsx не выполняются).
	Поддерживаемые языки Эта модель поддерживает все латинские языки, включая английский, французский, немецкий, итальянский и испанский.
	Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям: — формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок. — Если файлы .pdf заблокированы паролем, необходимо снять блокировку перед отправкой. — Общий размер файлов документов, используемых для обучения для каждой коллекции, не должен превышать 50 МБ, а pdf-документы не должны содержать более 500 страниц. — Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. Очень широкие изображения или изображения нестандартных размеров (например, планы этажей) могут быть обрезаны в процессе распознавания текста и потерять точность. — Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше. — При сканировании из бумажных документов сканирование должно быть высококачественным. — должен использовать латинский алфавит (английские символы). Обратите внимание на следующие различия в текстовых файлах Microsoft Office и файлах, сканируемых OCR (.pdf, image или .tiff). — Все файлы: усечено в 64 000 символов (при обучении и при выполнении с файлами в библиотеке документов). — Файлы, отсканированные OCR: существует ограничение в 500 страниц. OCR обрабатывает только типы файлов PDF и изображений.
	Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
	Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности относятся только к примененной модели.