Introducción al reconocimiento óptico de caracteres en Microsoft Syntex
Nota:
Hasta junio de 2025, puede probar una cantidad limitada de reconocimiento óptico de caracteres y otros servicios de Syntex seleccionados sin costo si tiene configurada la facturación de pago por uso . Para obtener información y limitaciones, consulte Probar Microsoft Syntex y explorar sus servicios.
El servicio de reconocimiento óptico de caracteres (OCR) en Microsoft Syntex permite extraer texto impreso o manuscrito de imágenes y documentos. Algunos ejemplos de imágenes son pósteres, dibujos y etiquetas de productos. Algunos ejemplos de documentos son artículos, informes, formularios y facturas.
Normalmente, el texto se extrae como palabras, líneas de texto y párrafos o bloques de texto, lo que permite el acceso a la versión digital del texto escaneado. La información extraída se indexa en la búsqueda y se puede hacer disponible para las características de cumplimiento, como la prevención de pérdida de datos (DLP).
Por ejemplo, habilitará el servicio OCR y, a continuación, agregará archivos de imagen a la biblioteca de documentos. Microsoft Syntex examina automáticamente los archivos de imagen, extrae el texto pertinente y hace que el texto de las imágenes esté disponible para la búsqueda y la indexación. Esta característica le permite encontrar rápida y precisamente las palabras clave y frases que está buscando.
Requisitos y limitaciones
Tipos de archivo compatibles
Punto de conexión | Tipos de archivo compatibles |
---|---|
SharePoint y OneDrive | .bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf |
Dispositivos Teams, Exchange y Windows | .bmp, .png, .jpeg, .jpg, .tiff, and .pdf |
Además de PDF basado en imágenes, Syntex OCR admitirá PDF híbrido (texto más PDF de imagen) a partir de noviembre de 2024. Después de ese tiempo, el servicio OCR procesará los archivos PDF híbridos recién cargados.
Nota:
Al aplicar OCR a un archivo de imagen, el texto se almacena en la columna Metadatos de texto extraído . Al aplicar OCR a un archivo PDF o TIFF, el texto extraído se indexa en la búsqueda, pero no está disponible en la columna de metadatos.
Idiomas admitidos
El servicio OCR admite más de 150 idiomas.
Ubicaciones y soluciones admitidas
El servicio OCR admite varias soluciones, como se muestra en la tabla siguiente. Para obtener más información sobre las soluciones de cumplimiento, consulte Ubicaciones y soluciones admitidas en Microsoft Purview.
Ubicación | Solución admitida |
---|---|
Exchange | El texto está disponible para las soluciones controladas por búsqueda y búsqueda del usuario final. El texto está disponible para las soluciones de cumplimiento. |
Sitios de SharePoint | El texto está disponible para las soluciones controladas por búsqueda y búsqueda del usuario final. El texto está disponible para las soluciones de cumplimiento. |
Cuentas de OneDrive | El texto está disponible para las soluciones controladas por búsqueda y búsqueda del usuario final. El texto está disponible para las soluciones de cumplimiento. |
Chat de Teams y mensaje de canal | El texto está disponible para las soluciones de cumplimiento. |
Dispositivos | El texto está disponible para las soluciones de cumplimiento. |
Limitaciones de archivos
Las imágenes deben tener menos de 50 MB.
Las imágenes deben tener al menos 50 x 50 píxeles y no superar los 16 000 x 16 000 píxeles.
Las imágenes cargadas después de habilitar OCR son las únicas imágenes que se examinan.
No se admiten imágenes incrustadas en documentos de Office.