Partager via


Exigences et limitations pour le traitement de documents non structurés dans SharePoint

Le tableau suivant décrit les facteurs clés à prendre en compte lors de la planification de l’utilisation d’un modèle de traitement de document non structuré.

Icône Description
Symbole de fichiers. Types de fichiers pris en charge
Ce modèle prend en charge les types de fichiers suivants : .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls et .xlsx (les formules dans les fichiers .xls et .xlsx ne sont pas exécutées).
Symbole de conversation. Langues prises en charge
Ce modèle prend en charge toutes les langues latines, notamment l’anglais, le français, l’allemand, l’italien et l’espagnol.
Symbole de paragraphe. Considérations relatives à la reconnaissance optique de caractères
Ce modèle utilise la technologie de reconnaissance optique de caractères (OCR) pour analyser .pdf fichiers, fichiers image et fichiers .tiff. Le traitement OCR fonctionne mieux sur des documents respectant les conditions requises suivantes :
- Format de fichier .jpg, .png ou .pdf (texte ou analysé). Les fichiers .pdf incorporés dans le texte sont préférables, car il n’y aura pas d’erreurs dans l’extraction et l’emplacement des caractères.
- Si vos fichiers .pdf sont verrouillés par mot de passe, vous devez supprimer le verrou avant de les envoyer.
- La taille de fichier combinée des documents utilisés pour l’entraînement par collection ne doit pas dépasser 50 Mo, et les documents PDF ne doivent pas avoir plus de 500 pages.
- Pour les images, les dimensions doivent être comprises entre 50 x 50 et 10 000 x 10 000 pixels. Les images très larges ou ayant des dimensions spéciales (par exemple, des plans au sol) peuvent être tronquées dans le processus OCR et perdre en précision.
- Pour les fichiers .pdf, les dimensions doivent être au maximum de 11 x 17 pouces, correspondant aux formats de papier Legal ou A3 et inférieures.
- S’ils sont numérisés à partir de documents papier, les numérisations doivent être des images de haute qualité.
- Doit utiliser l’alphabet latin (caractères anglais).
Notez les différences suivantes concernant les fichiers texte microsoft Office et les fichiers analysés par OCR (.pdf, image ou .tiff) :
- Tous les fichiers : tronqués à 64 000 caractères (en cours d’apprentissage et lors de l’exécution sur les fichiers d’une bibliothèque de documents).
- Fichiers analysés par OCR : il existe une limite de 500 pages. Seuls les types de fichiers PDF et image sont traités par OCR.
Symbole de globe. Microsoft 365 Multigéographie
Lorsque vous configurez Syntex dans un environnement Microsoft 365 Multi-Geo , vous pouvez uniquement le configurer pour utiliser le type de modèle à l’emplacement central. Si vous souhaitez utiliser ce type de modèle dans un emplacement satellite, contactez le support Microsoft.
Symbole d’objets. Bibliothèques multimodèles
Si plusieurs modèles entraînés sont appliqués à la même bibliothèque, le fichier est classé à l’aide du modèle qui a le score de confiance moyen le plus élevé. Les entités extraites proviennent uniquement du modèle appliqué.