Microsoft Syntex中的光学字符识别概述
注意
到 2025 年 6 月,如果你设置了即用即付计费,则可以免费试用有限数量的光学字符识别和其他选定的 Syntex 服务。 有关信息和限制,请参阅试用Microsoft Syntex并浏览其服务。
Microsoft Syntex 中的光学字符识别 (OCR) 服务使你可以从图像和文档中提取印刷或手写文本。 图像示例包括海报、绘图和产品标签。 文档示例包括文章、报表、窗体和发票。
文本通常提取为字词、文本行和段落或文本块,从而允许访问扫描文本的数字版本。 提取的信息在搜索中编制索引,并可用于数据丢失 防护 (DLP) 等合规性功能。
例如,启用 OCR 服务,然后将图像文件添加到文档库。 Microsoft Syntex自动扫描图像文件,提取相关文本,并使图像中的文本可用于搜索和索引。 此功能可让你快速准确地找到要查找的关键字和短语。
要求和限制
支持的文件类型
端点 | 支持的文件类型 |
---|---|
SharePoint 和 OneDrive | .bmp, .png, .jpeg, .jpg, .jfif, .arw, .cr2, .crw, .erf, .gif, .mef, .mrw, .nef, .nrw, .orf, .pef, .raw, .rw2, .rw1, .sr2, .tif, .tiff, .heic, .heif, .ari, .bay, .cap, .cr3, .dcs, .dcr, .drf, .eip, .fff, .iiq, .k25, .kdc, .mef, .mos, .ptx, .pxn, .raf, .rwl, .sr2, .srf, .srw, .x3f, .dng, .tiff, and .pdf |
Teams、Exchange 和 Windows 设备 | .bmp, .png, .jpeg, .jpg, .tiff, and .pdf |
除了基于图像的 PDF 外,Syntex OCR 还支持混合 PDF (文本加上图像 PDF) 从 2024 年 11 月开始。 之后,OCR 服务将处理新上传的混合 PDF。
注意
将 OCR 应用于图像文件时,文本将存储在 “提取的文本 元数据”列中。 将 OCR 应用于 PDF 或 TIFF 文件时,提取的文本将在搜索中编制索引,但在元数据列中不可用。
支持的语言
OCR 服务支持 150 多种语言。
支持的位置和解决方案
OCR 服务支持多个解决方案,如下表所示。 有关合规性解决方案的详细信息,请参阅 Microsoft Purview 中支持的位置和解决方案。
位置 | 支持的解决方案 |
---|---|
Exchange | 文本可用于最终用户搜索和搜索驱动解决方案。 文本可用于 合规性解决方案。 |
SharePoint 网站 | 文本可用于最终用户搜索和搜索驱动解决方案。 文本可用于 合规性解决方案。 |
OneDrive 账户 | 文本可用于最终用户搜索和搜索驱动解决方案。 文本可用于 合规性解决方案。 |
Teams 聊天和频道消息 | 文本可用于 合规性解决方案。 |
设备 | 文本可用于 合规性解决方案。 |
文件限制
映像必须小于 50 MB。
图像必须至少为 50 x 50 像素,且不能大于 16,000 x 16,000 像素。
启用 OCR 后上传的图像是唯一扫描的图像。
不支持 Office 文档中嵌入的图像。