SharePoint 中非结构化文档处理的要求和限制
下表概述了计划使用非结构化文档处理模型时要考虑的关键因素。
图标 | 说明 |
---|---|
![]() |
支持的文件类型 此模型支持以下文件类型:.csv、.doc、.docx、.eml、 .heic、.heif、.htm、.html、.jpeg、.jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt、.xls 和 .xlsx (公式 .xls 和 .xlsx 文件中不会) 运行。 |
![]() |
支持的语言 此模型支持所有基于拉丁语的语言,包括英语、法语、德语、意大利语和西班牙语。 |
![]() |
OCR 注意事项 此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档: - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。 - 如果 .pdf 文件是密码锁定的,则必须在提交之前将其删除。 - 每个集合中用于训练的文档的总文件大小不能超过 50 MB,PDF 文档的页数不应超过 500。 - 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 具有非常宽或特殊尺寸(例如平面图)的图像可能在 OCR 过程中截断,并且会失去准确性。 - 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。 - 如果从纸张文档扫描,则扫描应是高质量的图像。 - 必须使用拉丁字母 (英语字符) 。 请注意Microsoft Office 基于文本的文件和 OCR 扫描文件 (.pdf、图像或.tiff) 的以下差异: - 所有文件:在训练中和针对文档库) 中的文件时, (以 64,000 个字符截断。 - OCR 扫描的文件:限制为 500 页。 OCR 仅处理 PDF 和图像文件类型。 |
![]() |
多地理环境 在 Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。 |
![]() |
多模型库 如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体仅来自应用的模型。 |