Поделиться через


Требования и ограничения для обработки неструктурированных документов в SharePoint

В следующей таблице перечислены ключевые факторы, которые следует учитывать при планировании использования неструктурированной модели обработки документов.

Значок Описание
Символ файлов. Поддерживаемые типы файлов
Эта модель поддерживает следующие типы файлов: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls и .xlsx (формулы в файлах .xls и .xlsx не выполняются).
Символ беседы. Поддерживаемые языки
Эта модель поддерживает все латинские языки, включая английский, французский, немецкий, итальянский и испанский.
Символ абзаца. Рекомендации по распознаванию текста
Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям:
— формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок.
— Если файлы .pdf заблокированы паролем, необходимо снять блокировку перед отправкой.
— Общий размер файлов документов, используемых для обучения для каждой коллекции, не должен превышать 50 МБ, а pdf-документы не должны содержать более 500 страниц.
— Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. Очень широкие изображения или изображения нестандартных размеров (например, планы этажей) могут быть обрезаны в процессе распознавания текста и потерять точность.
— Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше.
— При сканировании из бумажных документов сканирование должно быть высококачественным.
— должен использовать латинский алфавит (английские символы).
Обратите внимание на следующие различия в текстовых файлах Microsoft Office и файлах, сканируемых OCR (.pdf, image или .tiff).
— Все файлы: усечено в 64 000 символов (при обучении и при выполнении с файлами в библиотеке документов).
— Файлы, отсканированные OCR: существует ограничение в 500 страниц. OCR обрабатывает только типы файлов PDF и изображений.
Символ глобуса. Среды с поддержкой нескольких регионов
При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
Символ объектов. Библиотеки с несколькими моделями
Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности относятся только к примененной модели.