Microsoft Syntex中的光学字符识别概述

注意

到 2025 年 6 月,如果你设置了即用即付计费,则可以免费试用有限数量的光学字符识别和其他选定的 Syntex 服务。 有关信息和限制,请参阅试用Microsoft Syntex并浏览其服务

Microsoft Syntex 中的光学字符识别 (OCR) 服务使你可以从图像和文档中提取印刷或手写文本。 图像示例包括海报、绘图和产品标签。 文档示例包括文章、报表、窗体和发票。

文本通常提取为字词、文本行和段落或文本块,从而允许访问扫描文本的数字版本。 提取的信息在搜索中编制索引,并可用于数据丢失 防护 (DLP) 等合规性功能。

例如,启用 OCR 服务,然后将图像文件添加到文档库。 Microsoft Syntex自动扫描图像文件,提取相关文本,并使图像中的文本可用于搜索和索引。 此功能可让你快速准确地找到要查找的关键字和短语。

要求和限制

支持的文件类型

端点 支持的文件类型
SharePoint 和 OneDrive .bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf
Teams、Exchange 和 Windows 设备 .bmp, .png, .jpeg, .jpg, .tiff, and .pdf

除了基于图像的 PDF 外,Syntex OCR 还支持混合 PDF (文本加上图像 PDF) 从 2024 年 11 月开始。 之后,OCR 服务将处理新上传的混合 PDF。

注意

将 OCR 应用于图像文件时,文本将存储在 “提取的文本 元数据”列中。 将 OCR 应用于 PDF 或 TIFF 文件时,提取的文本将在搜索中编制索引,但在元数据列中不可用。

支持的语言

OCR 服务支持 150 多种语言

支持的位置和解决方案

OCR 服务支持多个解决方案,如下表所示。 有关合规性解决方案的详细信息,请参阅 Microsoft Purview 中支持的位置和解决方案

位置 支持的解决方案
Exchange 文本可用于最终用户搜索和搜索驱动解决方案。
文本可用于 合规性解决方案
SharePoint 网站 文本可用于最终用户搜索和搜索驱动解决方案。
文本可用于 合规性解决方案
OneDrive 账户 文本可用于最终用户搜索和搜索驱动解决方案。
文本可用于 合规性解决方案
Teams 聊天和频道消息 文本可用于 合规性解决方案
设备 文本可用于 合规性解决方案

文件限制

  • 映像必须小于 50 MB。

  • 图像必须至少为 50 x 50 像素,且不能大于 16,000 x 16,000 像素。

  • 启用 OCR 后上传的图像是唯一扫描的图像。

  • 不支持 Office 文档中嵌入的图像。