Обзор оптического распознавания символов в Microsoft Syntex

Статья
10/23/2024

Примечание.

До июня 2025 года вы можете попробовать ограниченное количество оптических распознаваний символов и других выбранных служб Syntex бесплатно, если настроено выставление счетов с оплатой по мере использования . Сведения и ограничения см. в статье Опробовать Microsoft Syntex и изучить его службы.

Служба оптического распознавания символов (OCR) в Microsoft Syntex позволяет извлекать печатный или рукописный текст из изображений и документов. Примерами изображений являются плакаты, рисунки и наклейки продуктов. Примерами документов являются статьи, отчеты, формы и счета.

Текст обычно извлекается в виде слов, текстовых строк и абзацев или текстовых блоков, что обеспечивает доступ к цифровой версии отсканированного текста. Извлеченные сведения индексируются в поиске и могут быть доступны для функций соответствия, таких как защита от потери данных (DLP).

Например, вы включаете службу OCR, а затем добавляете файлы изображений в библиотеку документов. Microsoft Syntex автоматически сканирует файлы изображений, извлекает соответствующий текст и делает текст из изображений доступным для поиска и индексирования. Эта функция позволяет быстро и точно найти ключевые слова и фразы, которые вы ищете.

Требования и ограничения

Поддерживаемые типы файлов

Конечная точка	Поддерживаемые типы файлов
SharePoint и OneDrive	`.bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf`
Устройства Teams, Exchange и Windows	`.bmp, .png, .jpeg, .jpg, .tiff, and .pdf`

В дополнение к PDF-файлу на основе изображений, Syntex OCR будет поддерживать гибридные PDF (текстовые и графические PDF) начиная с ноября 2024 года. По истечении этого времени только что отправленные гибридные PDF-файлы будут обрабатываться службой OCR.

Примечание.

При применении OCR к файлу изображения текст сохраняется в столбце Извлеченные текстовые метаданные. При применении OCR к PDF- или TIFF-файлу извлеченный текст индексируется в поиске, но недоступен в столбце метаданных.

Поддерживаемые языки

Служба OCR поддерживает более 150 языков.

Поддерживаемые расположения и решения

Служба OCR поддерживает несколько решений, как показано в следующей таблице. Дополнительные сведения о решениях соответствия требованиям см. в статье Поддерживаемые расположения и решения в Microsoft Purview.

Расположение	Поддерживаемое решение
Exchange	Текст доступен для поиска конечных пользователей и решений на основе поиска. Текст доступен для решений по соответствию.
Сайты SharePoint	Текст доступен для поиска конечных пользователей и решений на основе поиска. Текст доступен для решений по соответствию.
Учетные записи OneDrive	Текст доступен для поиска конечных пользователей и решений на основе поиска. Текст доступен для решений по соответствию.
Сообщение чата и канала Teams	Текст доступен для решений по соответствию.
Устройства	Текст доступен для решений по соответствию.

Ограничения файлов

Размер изображений должен быть меньше 50 МБ.
Изображения должны иметь размер не менее 50 x 50 пикселей и не превышать 16 000 x 16 000 пикселей.
Образы, отправленные после включения OCR, являются единственными изображениями, которые сканируются.
Образы, внедренные в документы Office, не поддерживаются.

Поделиться через