Microsoft Syntex 中的光學字元識別概觀
注意事項
到 2025 年 6 月,如果您已設定隨用隨付計費,您可以免費試用有限數量的光學字元識別和其他選取的 Syntex 服務。 如需相關信息和限制,請參閱試用 Microsoft Syntex 並探索其服務。
Microsoft Syntex 中 OCR) 服務 (光學字元識別可讓您從影像和檔中擷取印刷或手寫文字。 影像範例包括海報、繪圖和產品標籤。 檔範例包括文章、報表、表單和發票。
文字通常會擷取為單字、文字行、段落或文字塊,讓您能夠存取掃描文字的數位版本。 擷取的資訊會在搜尋中編製索引,並可用於合規性功能,例如 數據外洩防護 (DLP) 。
例如,您啟用 OCR 服務,然後將圖像檔新增至文檔庫。 Microsoft Syntex 會自動掃描圖像檔案、擷取相關的文字,以及讓影像中的文字可供搜尋和編製索引。 此功能可讓您快速且準確地尋找您要尋找的關鍵詞和片語。
需求和限制
支援的檔案類型
端點 | 支援的檔案類型 |
---|---|
SharePoint 和 OneDrive | .bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf |
Teams、Exchange 和 Windows 裝置 | .bmp, .png, .jpeg, .jpg, .tiff, and .pdf |
除了以映像為基礎的 PDF,Syntex OCR 將從 2024 年 11 月開始支援混合式 PDF (文字加上影像 PDF) 。 之後,OCR 服務會處理新上傳的混合式 PDF。
注意事項
當您將 OCR 套用至圖像檔時,文字會儲存在 [ 擷取的文字 元資料] 資料行中。 當您將 OCR 套用至 PDF 或 TIFF 檔案時,擷取的文字會在搜尋中編制索引,但無法在元數據數據行中使用。
支援的語言
OCR 服務支持超過 150 種語言。
支援的位置和解決方案
OCR 服務支援多個解決方案,如下表所示。 如需合規性解決方案的詳細資訊,請參閱 Microsoft Purview 中支援的位置和解決方案。
位置 | 支援的解決方案 |
---|---|
Exchange | 文字適用於用戶搜尋和搜尋驅動解決方案。 文字適用於 合規性解決方案。 |
SharePoint 網站 | 文字適用於用戶搜尋和搜尋驅動解決方案。 文字適用於 合規性解決方案。 |
OneDrive 帳戶 | 文字適用於用戶搜尋和搜尋驅動解決方案。 文字適用於 合規性解決方案。 |
Teams 聊天和頻道訊息 | 文字適用於 合規性解決方案。 |
裝置 | 文字適用於 合規性解決方案。 |
檔案限制
影像必須小於 50 MB。
影像必須至少為 50 x 50 像素,且不得大於 16,000 x 16,000 圖元。
啟用 OCR 之後上傳的影像是唯一掃描的影像。
不支援內嵌在 Office 檔中的影像。