共用方式為


Microsoft Syntex 中的光學字元識別概觀

注意事項

到 2025 年 6 月,如果您已設定隨用隨付計費,您可以免費試用有限數量的光學字元識別和其他選取的 Syntex 服務。 如需相關信息和限制,請參閱試用 Microsoft Syntex 並探索其服務

Microsoft Syntex 中 OCR) 服務 (光學字元識別可讓您從影像和檔中擷取印刷或手寫文字。 影像範例包括海報、繪圖和產品標籤。 檔範例包括文章、報表、表單和發票。

文字通常會擷取為單字、文字行、段落或文字塊,讓您能夠存取掃描文字的數位版本。 擷取的資訊會在搜尋中編製索引,並可用於合規性功能,例如 數據外洩防護 (DLP)

例如,您啟用 OCR 服務,然後將圖像檔新增至文檔庫。 Microsoft Syntex 會自動掃描圖像檔案、擷取相關的文字,以及讓影像中的文字可供搜尋和編製索引。 此功能可讓您快速且準確地尋找您要尋找的關鍵詞和片語。

需求和限制

支援的檔案類型

端點 支援的檔案類型
SharePoint 和 OneDrive .bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf
Teams、Exchange 和 Windows 裝置 .bmp, .png, .jpeg, .jpg, .tiff, and .pdf

除了以映像為基礎的 PDF,Syntex OCR 將從 2024 年 11 月開始支援混合式 PDF (文字加上影像 PDF) 。 之後,OCR 服務會處理新上傳的混合式 PDF。

注意事項

當您將 OCR 套用至圖像檔時,文字會儲存在 [ 擷取的文字 元資料] 資料行中。 當您將 OCR 套用至 PDF 或 TIFF 檔案時,擷取的文字會在搜尋中編制索引,但無法在元數據數據行中使用。

支援的語言

OCR 服務支持超過 150 種語言

支援的位置和解決方案

OCR 服務支援多個解決方案,如下表所示。 如需合規性解決方案的詳細資訊,請參閱 Microsoft Purview 中支援的位置和解決方案

位置 支援的解決方案
Exchange 文字適用於用戶搜尋和搜尋驅動解決方案。
文字適用於 合規性解決方案
SharePoint 網站 文字適用於用戶搜尋和搜尋驅動解決方案。
文字適用於 合規性解決方案
OneDrive 帳戶 文字適用於用戶搜尋和搜尋驅動解決方案。
文字適用於 合規性解決方案
Teams 聊天和頻道訊息 文字適用於 合規性解決方案
裝置 文字適用於 合規性解決方案

檔案限制

  • 影像必須小於 50 MB。

  • 影像必須至少為 50 x 50 像素,且不得大於 16,000 x 16,000 圖元。

  • 啟用 OCR 之後上傳的影像是唯一掃描的影像。

  • 不支援內嵌在 Office 檔中的影像。