Requisitos e limitações do processamento de documentos não estruturados no SharePoint

Artigo
01/23/2025

A tabela seguinte descreve os principais fatores a considerar ao planear utilizar um modelo de processamento de documentos não estruturado.

Ícone	Descrição
	Tipos de arquivos compatíveis Este modelo suporta os seguintes tipos de ficheiro: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls e .xlsx (as fórmulas nos ficheiros .xls e .xlsx não são executadas).
	Idiomas compatíveis Este modelo suporta todos os idiomas baseados no latim, incluindo: inglês, francês, alemão, italiano e espanhol.
	Considerações sobre o OCR Este modelo utiliza tecnologia de reconhecimento ótico de carateres (OCR) para analisar ficheiros de .pdf, ficheiros de imagem e ficheiros de .tiff. O processamento de OCR funciona melhor em documentos que atendem aos seguintes requisitos: - Formato de ficheiro de .jpg, .png ou .pdf (texto ou digitalizado). Os ficheiros de .pdf incorporados em texto são melhores, uma vez que não haverá erros na extração e localização de carateres. - Se os seus ficheiros de .pdf estiverem bloqueados por palavra-passe, tem de remover o bloqueio antes de os submeter. - O tamanho de ficheiro combinado dos documentos utilizados para preparação por coleção não pode exceder os 50 MB e os documentos PDF não devem ter mais de 500 páginas. - Para imagens, as dimensões têm de estar entre 50 x 50 e 10 000 x 10 000 pixéis. Imagens muito largas ou com dimensões ímpares (por exemplo, plantas terrárias) podem ficar truncadas no processo de OCR e perder precisão. - Para .pdf ficheiros, as dimensões têm de ter, no máximo, 11 x 17 polegadas, correspondentes a tamanhos de papel Legal ou A3 e menores. - Se forem analisadas a partir de documentos em papel, as análises devem ser imagens de alta qualidade. - Tem de utilizar o alfabeto latino (carateres em inglês). Tenha em atenção as seguintes diferenças sobre ficheiros baseados em texto do Microsoft Office e ficheiros analisados pelo OCR (.pdf, imagem ou .tiff): - Todos os ficheiros: truncados com 64 000 carateres (em preparação e quando executados em ficheiros numa biblioteca de documentos). - Ficheiros analisados pelo OCR: existe um limite de 500 páginas. Apenas os tipos de ficheiros pdf e de imagem são processados pelo OCR.
	Ambientes Multi-Geo Ao configurar o Syntex num ambiente Do Microsoft 365 Multi-Geo , só pode configurá-lo para utilizar o tipo de modelo na localização central. Se quiser utilizar este tipo de modelo numa localização por satélite, contacte o suporte da Microsoft.
	Bibliotecas de vários modelos Se dois ou mais modelos preparados forem aplicados à mesma biblioteca, o ficheiro é classificado com o modelo que tem a classificação de confiança média mais alta. As entidades extraídas são apenas do modelo aplicado.