Introducción al reconocimiento óptico de caracteres en Microsoft Syntex

Artículo
10/23/2024

Nota:

Hasta junio de 2025, puede probar una cantidad limitada de reconocimiento óptico de caracteres y otros servicios de Syntex seleccionados sin costo si tiene configurada la facturación de pago por uso . Para obtener información y limitaciones, consulte Probar Microsoft Syntex y explorar sus servicios.

El servicio de reconocimiento óptico de caracteres (OCR) en Microsoft Syntex permite extraer texto impreso o manuscrito de imágenes y documentos. Algunos ejemplos de imágenes son pósteres, dibujos y etiquetas de productos. Algunos ejemplos de documentos son artículos, informes, formularios y facturas.

Normalmente, el texto se extrae como palabras, líneas de texto y párrafos o bloques de texto, lo que permite el acceso a la versión digital del texto escaneado. La información extraída se indexa en la búsqueda y se puede hacer disponible para las características de cumplimiento, como la prevención de pérdida de datos (DLP).

Por ejemplo, habilitará el servicio OCR y, a continuación, agregará archivos de imagen a la biblioteca de documentos. Microsoft Syntex examina automáticamente los archivos de imagen, extrae el texto pertinente y hace que el texto de las imágenes esté disponible para la búsqueda y la indexación. Esta característica le permite encontrar rápida y precisamente las palabras clave y frases que está buscando.

Requisitos y limitaciones

Tipos de archivo compatibles

Punto de conexión	Tipos de archivo compatibles
SharePoint y OneDrive	`.bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf`
Dispositivos Teams, Exchange y Windows	`.bmp, .png, .jpeg, .jpg, .tiff, and .pdf`

Además de PDF basado en imágenes, Syntex OCR admitirá PDF híbrido (texto más PDF de imagen) a partir de noviembre de 2024. Después de ese tiempo, el servicio OCR procesará los archivos PDF híbridos recién cargados.

Nota:

Al aplicar OCR a un archivo de imagen, el texto se almacena en la columna Metadatos de texto extraído . Al aplicar OCR a un archivo PDF o TIFF, el texto extraído se indexa en la búsqueda, pero no está disponible en la columna de metadatos.

Idiomas admitidos

El servicio OCR admite más de 150 idiomas.

Ubicaciones y soluciones admitidas

El servicio OCR admite varias soluciones, como se muestra en la tabla siguiente. Para obtener más información sobre las soluciones de cumplimiento, consulte Ubicaciones y soluciones admitidas en Microsoft Purview.

Ubicación	Solución admitida
Exchange	El texto está disponible para las soluciones controladas por búsqueda y búsqueda del usuario final. El texto está disponible para las soluciones de cumplimiento.
Sitios de SharePoint	El texto está disponible para las soluciones controladas por búsqueda y búsqueda del usuario final. El texto está disponible para las soluciones de cumplimiento.
Cuentas de OneDrive	El texto está disponible para las soluciones controladas por búsqueda y búsqueda del usuario final. El texto está disponible para las soluciones de cumplimiento.
Chat de Teams y mensaje de canal	El texto está disponible para las soluciones de cumplimiento.
Dispositivos	El texto está disponible para las soluciones de cumplimiento.

Limitaciones de archivos

Las imágenes deben tener menos de 50 MB.
Las imágenes deben tener al menos 50 x 50 píxeles y no superar los 16 000 x 16 000 píxeles.
Las imágenes cargadas después de habilitar OCR son las únicas imágenes que se examinan.
No se admiten imágenes incrustadas en documentos de Office.

Compartir a través de