Anforderungen und Einschränkungen für die verarbeitung unstrukturierter Dokumente in SharePoint

Artikel
01/23/2025

In der folgenden Tabelle sind die wichtigsten Faktoren aufgeführt, die bei der Planung der Verwendung eines unstrukturierten Dokumentverarbeitungsmodells zu berücksichtigen sind.

Symbol	Beschreibung
	Unterstützte Dateitypen Dieses Modell unterstützt die folgenden Dateitypen: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls und .xlsx (Formeln in .xls- und .xlsx-Dateien werden nicht ausgeführt).
	Unterstützte Sprachen Dieses Modell unterstützt alle lateinischen Sprachen, einschließlich: Englisch, Französisch, Deutsch, Italienisch und Spanisch.
	OCR-Überlegungen Dieses Modell verwendet ocr-Technologie (Optische Zeichenerkennung), um .pdf Dateien, Bilddateien und .tiff Dateien zu scannen. Die OCR-Verarbeitung funktioniert am besten bei Dokumenten, die die folgenden Kriterien erfüllen: - Dateiformat von .jpg, .png oder .pdf (Text oder gescannt). Text eingebettete .pdf-Dateien sind besser, da es keine Fehler bei der Zeichenextraktion und dem Speicherort gibt. - Wenn Ihre .pdf Dateien kennwortgesperrt sind, müssen Sie die Sperre entfernen, bevor Sie sie übermitteln. - Die kombinierte Dateigröße der dokumente, die für das Training pro Sammlung verwendet werden, darf 50 MB nicht überschreiten, und PDF-Dokumente dürfen nicht mehr als 500 Seiten haben. - Bei Bildern müssen die Abmessungen zwischen 50 x 50 und 10.000 x 10.000 Pixeln betragen. Bilder, die sehr breit sind oder seltsame Abmessungen haben (z. B. Grundrisse), werden im OCR-Prozess möglicherweise abgeschnitten und verlieren an Genauigkeit. - Für .pdf Dateien müssen die Abmessungen höchstens 11 x 17 Zoll betragen, entsprechend den Papierformaten Legal oder A3 und kleiner. - Wenn sie aus Papierdokumenten gescannt werden, sollten Scans qualitativ hochwertige Bilder sein. – Muss das lateinische Alphabet (englische Zeichen) verwenden. Beachten Sie die folgenden Unterschiede zwischen textbasierten Microsoft Office-Dateien und OCR-gescannten Dateien (.pdf, Bild oder .tiff): - Alle Dateien: Um 64.000 Zeichen abgeschnitten (im Training und beim Ausführen für Dateien in einer Dokumentbibliothek). - OCR-gescannte Dateien: Es gibt ein Limit von 500 Seiten. Nur PDF- und Bilddateitypen werden von OCR verarbeitet.
	Multi-Geo-Umgebungen Beim Einrichten von Syntex in einer Microsoft 365 Multi-Geo-Umgebung können Sie es nur so konfigurieren, dass der Modelltyp am zentralen Standort verwendet wird. Wenn Sie diesen Modelltyp an einem Satellitenstandort verwenden möchten, wenden Sie sich an den Microsoft-Support.
	Bibliotheken mit mehreren Modellen Wenn zwei oder mehr trainierte Modelle auf dieselbe Bibliothek angewendet werden, wird die Datei mithilfe des Modells klassifiziert, das die höchste durchschnittliche Zuverlässigkeitsbewertung aufweist. Die extrahierten Entitäten stammen nur aus dem angewendeten Modell.