Обзор оптического распознавания символов в Microsoft Syntex
Примечание.
До июня 2025 года вы можете попробовать ограниченное количество оптических распознаваний символов и других выбранных служб Syntex бесплатно, если настроено выставление счетов с оплатой по мере использования . Сведения и ограничения см. в статье Опробовать Microsoft Syntex и изучить его службы.
Служба оптического распознавания символов (OCR) в Microsoft Syntex позволяет извлекать печатный или рукописный текст из изображений и документов. Примерами изображений являются плакаты, рисунки и наклейки продуктов. Примерами документов являются статьи, отчеты, формы и счета.
Текст обычно извлекается в виде слов, текстовых строк и абзацев или текстовых блоков, что обеспечивает доступ к цифровой версии отсканированного текста. Извлеченные сведения индексируются в поиске и могут быть доступны для функций соответствия, таких как защита от потери данных (DLP).
Например, вы включаете службу OCR, а затем добавляете файлы изображений в библиотеку документов. Microsoft Syntex автоматически сканирует файлы изображений, извлекает соответствующий текст и делает текст из изображений доступным для поиска и индексирования. Эта функция позволяет быстро и точно найти ключевые слова и фразы, которые вы ищете.
Требования и ограничения
Поддерживаемые типы файлов
Конечная точка | Поддерживаемые типы файлов |
---|---|
SharePoint и OneDrive | .bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf |
Устройства Teams, Exchange и Windows | .bmp, .png, .jpeg, .jpg, .tiff, and .pdf |
В дополнение к PDF-файлу на основе изображений, Syntex OCR будет поддерживать гибридные PDF (текстовые и графические PDF) начиная с ноября 2024 года. По истечении этого времени только что отправленные гибридные PDF-файлы будут обрабатываться службой OCR.
Примечание.
При применении OCR к файлу изображения текст сохраняется в столбце Извлеченные текстовые метаданные. При применении OCR к PDF- или TIFF-файлу извлеченный текст индексируется в поиске, но недоступен в столбце метаданных.
Поддерживаемые языки
Служба OCR поддерживает более 150 языков.
Поддерживаемые расположения и решения
Служба OCR поддерживает несколько решений, как показано в следующей таблице. Дополнительные сведения о решениях соответствия требованиям см. в статье Поддерживаемые расположения и решения в Microsoft Purview.
Расположение | Поддерживаемое решение |
---|---|
Exchange | Текст доступен для поиска конечных пользователей и решений на основе поиска. Текст доступен для решений по соответствию. |
Сайты SharePoint | Текст доступен для поиска конечных пользователей и решений на основе поиска. Текст доступен для решений по соответствию. |
Учетные записи OneDrive | Текст доступен для поиска конечных пользователей и решений на основе поиска. Текст доступен для решений по соответствию. |
Сообщение чата и канала Teams | Текст доступен для решений по соответствию. |
Устройства | Текст доступен для решений по соответствию. |
Ограничения файлов
Размер изображений должен быть меньше 50 МБ.
Изображения должны иметь размер не менее 50 x 50 пикселей и не превышать 16 000 x 16 000 пикселей.
Образы, отправленные после включения OCR, являются единственными изображениями, которые сканируются.
Образы, внедренные в документы Office, не поддерживаются.