Compartir a través de


Requisitos y limitaciones para el procesamiento de documentos no estructurados en SharePoint

En la tabla siguiente se describen los factores clave que se deben tener en cuenta al planear el uso de un modelo de procesamiento de documentos no estructurado.

Icono Descripción
Símbolo de archivos. Tipos de archivo admitidos
Este modelo admite los siguientes tipos de archivo: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls y .xlsx (no se ejecutan fórmulas en los archivos .xls y .xlsx).
Símbolo de conversación. Idiomas admitidos
Este modelo es compatible con todos los idiomas latinos, incluidos inglés, francés, alemán, italiano y español.
Símbolo de párrafo. Consideraciones de OCR
Este modelo usa la tecnología de reconocimiento óptico de caracteres (OCR) para examinar archivos .pdf, archivos de imagen y archivos de .tiff. El procesamiento de OCR funciona mejor en documentos que cumplen los siguientes requisitos:
- Formato de archivo de .jpg, .png o .pdf (texto o escaneado). Los archivos de .pdf insertados en texto son mejores, ya que no habrá errores en la extracción y ubicación de caracteres.
- Si los archivos de .pdf están bloqueados con contraseña, debe quitar el bloqueo antes de enviarlos.
- El tamaño de archivo combinado de los documentos utilizados para el entrenamiento por colección no debe superar los 50 MB, y los documentos PDF no deben tener más de 500 páginas.
- Para las imágenes, las dimensiones deben estar entre 50 x 50 y 10 000 x 10 000 píxeles. Es posible que las imágenes muy anchas o con dimensiones inusuales (por ejemplo, planos de planta) se trunquen en el proceso de OCR y pierdan precisión.
- Para .pdf archivos, las dimensiones deben ser como máximo de 11 x 17 pulgadas, correspondientes a tamaños de papel Legal o A3 y más pequeños.
- Si escaneó documentos en papel, los escaneos deben ser imágenes de alta calidad.
- Debe usar el alfabeto latino (caracteres en inglés).
Tenga en cuenta las siguientes diferencias sobre los archivos basados en texto de Microsoft Office y los archivos escaneados por OCR (.pdf, imagen o .tiff):
- Todos los archivos: truncados con 64 000 caracteres (en entrenamiento y cuando se ejecutan en archivos de una biblioteca de documentos).
- Archivos escaneados con OCR: hay un límite de 500 páginas. OCR solo procesa los tipos de archivo PDF y de imagen.
Símbolo de globo. Entornos de Multi-Geo
Al configurar Syntex en un entorno multigeográfico de Microsoft 365 , solo puede configurarlo para que use el tipo de modelo en la ubicación central. Si desea usar este tipo de modelo en una ubicación satélite, póngase en contacto con el soporte técnico de Microsoft.
Símbolo de objetos. Bibliotecas multimodelo
Si se aplican dos o más modelos entrenados a la misma biblioteca, el archivo se clasifica mediante el modelo que tiene la puntuación de confianza media más alta. Las entidades extraídas son solo del modelo aplicado.