SharePoint 中非結構化文件處理的需求和限制

發行項
01/23/2025

下表概述規劃使用非結構化文件處理模型時要考慮的重要因素。

圖示	描述
	支援的檔案類型此模型支援下列檔類型：.csv、.doc、.docx、.eml、 .heic、.heif、.htm、.html、.jpeg、.jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt、.xls，以及 .xls 和 .xlsx 檔案中的 .xlsx (公式不會執行) 。
	支援的語言此模型支援所有以拉丁文為基礎的語言，包括：英文、法文、德文、義大利文和西班牙文。
	OCR 考慮此模型會使用光學字元識別 (OCR) 技術來掃描 .pdf 檔案、圖像檔和.tiff檔案。 OCR 處理最適合處理符合下列需求的文件： - .jpg、.png 或 .pdf (文字或掃描) 的檔格式。文字內嵌 .pdf 檔案比較好，因為字元擷取和位置不會有任何錯誤。 - 如果您的 .pdf 檔案已鎖定密碼，您必須先移除鎖定，再提交。 - 每個集合用於定型之文件的合併檔案大小不得超過 50 MB，且 PDF 檔的頁面不應超過 500 頁。 - 對於影像，維度必須介於 50 x 50 和 10,000 x 10,000 像素之間。在 OCR 處理中，非常寬或具有奇數尺寸 (例如樓層規劃) 的影像可能會被截斷，並失去正確性。 - 針對 .pdf 檔案，維度必須最多為 11 x 17 英吋，對應至 Legal 或 A3 紙張大小且較小。 - 如果是從紙張文件掃描，掃描應該是高品質的影像。 - 必須使用拉丁字母 (英文字元) 。請注意下列關於 office 文字型檔案和 OCR 掃描檔案 (.pdf、影像或.tiff) Microsoft差異： - 所有檔案：在定型中 (截斷 64,000 個字元，以及針對文檔庫) 中的檔案執行時截斷。 - OCR 掃描的檔案：有 500 頁的限制。 OCR 只會處理 PDF 和圖像檔類型。
	多地理位置環境在 Microsoft 365 多地理位置環境中設定 Syntex 時，您只能將它設定為在中央位置使用模型類型。如果您想要在衛星位置使用此模型類型，請連絡Microsoft支援。
	多模型連結庫如果將兩個以上的定型模型套用至相同的連結庫，則會使用具有最高平均信賴分數的模型來分類檔案。擷取的實體僅來自套用的模型。