SharePoint 中非結構化文件處理的需求和限制
下表概述規劃使用非結構化文件處理模型時要考慮的重要因素。
圖示 | 描述 |
---|---|
![]() |
支援的檔案類型 此模型支援下列檔類型:.csv、.doc、.docx、.eml、 .heic、.heif、.htm、.html、.jpeg、.jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt、.xls,以及 .xls 和 .xlsx 檔案中的 .xlsx (公式不會執行) 。 |
![]() |
支援的語言 此模型支援所有以拉丁文為基礎的語言,包括:英文、法文、德文、義大利文和西班牙文。 |
![]() |
OCR 考慮 此模型會使用光學字元識別 (OCR) 技術來掃描 .pdf 檔案、圖像檔和.tiff檔案。 OCR 處理最適合處理符合下列需求的文件: - .jpg、.png 或 .pdf (文字或掃描) 的檔格式。 文字內嵌 .pdf 檔案比較好,因為字元擷取和位置不會有任何錯誤。 - 如果您的 .pdf 檔案已鎖定密碼,您必須先移除鎖定,再提交。 - 每個集合用於定型之文件的合併檔案大小不得超過 50 MB,且 PDF 檔的頁面不應超過 500 頁。 - 對於影像,維度必須介於 50 x 50 和 10,000 x 10,000 像素之間。 在 OCR 處理中,非常寬或具有奇數尺寸 (例如樓層規劃) 的影像可能會被截斷,並失去正確性。 - 針對 .pdf 檔案,維度必須最多為 11 x 17 英吋,對應至 Legal 或 A3 紙張大小且較小。 - 如果是從紙張文件掃描,掃描應該是高品質的影像。 - 必須使用拉丁字母 (英文字元) 。 請注意下列關於 office 文字型檔案和 OCR 掃描檔案 (.pdf、影像或.tiff) Microsoft差異: - 所有檔案:在定型中 (截斷 64,000 個字元,以及針對文檔庫) 中的檔案執行時截斷。 - OCR 掃描的檔案:有 500 頁的限制。 OCR 只會處理 PDF 和圖像檔類型。 |
![]() |
多地理位置環境 在 Microsoft 365 多地理 位置環境中設定 Syntex 時,您只能將它設定為在中央位置使用模型類型。 如果您想要在衛星位置使用此模型類型,請連絡Microsoft支援。 |
![]() |
多模型連結庫 如果將兩個以上的定型模型套用至相同的連結庫,則會使用具有最高平均信賴分數的模型來分類檔案。 擷取的實體僅來自套用的模型。 |