Compartilhar via


Requisitos e limitações do processamento de documentos não estruturados no SharePoint

A tabela seguinte descreve os principais fatores a considerar ao planear utilizar um modelo de processamento de documentos não estruturado.

Ícone Descrição
Símbolo de ficheiros. Tipos de arquivos compatíveis
Este modelo suporta os seguintes tipos de ficheiro: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls e .xlsx (as fórmulas nos ficheiros .xls e .xlsx não são executadas).
Símbolo de conversação. Idiomas compatíveis
Este modelo suporta todos os idiomas baseados no latim, incluindo: inglês, francês, alemão, italiano e espanhol.
Símbolo de parágrafo. Considerações sobre o OCR
Este modelo utiliza tecnologia de reconhecimento ótico de carateres (OCR) para analisar ficheiros de .pdf, ficheiros de imagem e ficheiros de .tiff. O processamento de OCR funciona melhor em documentos que atendem aos seguintes requisitos:
- Formato de ficheiro de .jpg, .png ou .pdf (texto ou digitalizado). Os ficheiros de .pdf incorporados em texto são melhores, uma vez que não haverá erros na extração e localização de carateres.
- Se os seus ficheiros de .pdf estiverem bloqueados por palavra-passe, tem de remover o bloqueio antes de os submeter.
- O tamanho de ficheiro combinado dos documentos utilizados para preparação por coleção não pode exceder os 50 MB e os documentos PDF não devem ter mais de 500 páginas.
- Para imagens, as dimensões têm de estar entre 50 x 50 e 10 000 x 10 000 pixéis. Imagens muito largas ou com dimensões ímpares (por exemplo, plantas terrárias) podem ficar truncadas no processo de OCR e perder precisão.
- Para .pdf ficheiros, as dimensões têm de ter, no máximo, 11 x 17 polegadas, correspondentes a tamanhos de papel Legal ou A3 e menores.
- Se forem analisadas a partir de documentos em papel, as análises devem ser imagens de alta qualidade.
- Tem de utilizar o alfabeto latino (carateres em inglês).
Tenha em atenção as seguintes diferenças sobre ficheiros baseados em texto do Microsoft Office e ficheiros analisados pelo OCR (.pdf, imagem ou .tiff):
- Todos os ficheiros: truncados com 64 000 carateres (em preparação e quando executados em ficheiros numa biblioteca de documentos).
- Ficheiros analisados pelo OCR: existe um limite de 500 páginas. Apenas os tipos de ficheiros pdf e de imagem são processados pelo OCR.
Símbolo de globo. Ambientes Multi-Geo
Ao configurar o Syntex num ambiente Do Microsoft 365 Multi-Geo , só pode configurá-lo para utilizar o tipo de modelo na localização central. Se quiser utilizar este tipo de modelo numa localização por satélite, contacte o suporte da Microsoft.
Símbolo de objetos. Bibliotecas de vários modelos
Se dois ou mais modelos preparados forem aplicados à mesma biblioteca, o ficheiro é classificado com o modelo que tem a classificação de confiança média mais alta. As entidades extraídas são apenas do modelo aplicado.