SharePoint 中非结构化文档处理的要求和限制

下表概述了计划使用非结构化文档处理模型时要考虑的关键因素。

图标 说明
文件符号。 支持的文件类型
此模型支持以下文件类型:.csv、.doc、.docx、.eml、 .heic、.heif、.htm、.html、.jpeg、.jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt、.xls 和 .xlsx (公式 .xls 和 .xlsx 文件中不会) 运行。
对话符号。 支持的语言
此模型支持所有基于拉丁语的语言,包括英语、法语、德语、意大利语和西班牙语。
段落符号。 OCR 注意事项
此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档:
- .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。
- 如果 .pdf 文件是密码锁定的,则必须在提交之前将其删除。
- 每个集合中用于训练的文档的总文件大小不能超过 50 MB,PDF 文档的页数不应超过 500。
- 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 具有非常宽或特殊尺寸(例如平面图)的图像可能在 OCR 过程中截断,并且会失去准确性。
- 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。
- 如果从纸张文档扫描,则扫描应是高质量的图像。
- 必须使用拉丁字母 (英语字符) 。
请注意Microsoft Office 基于文本的文件和 OCR 扫描文件 (.pdf、图像或.tiff) 的以下差异:
- 所有文件:在训练中和针对文档库) 中的文件时, (以 64,000 个字符截断。
- OCR 扫描的文件:限制为 500 页。 OCR 仅处理 PDF 和图像文件类型。
地球符号。 多地理环境
Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。
对象符号。 多模型库
如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体仅来自应用的模型。