SharePoint 中预生成文档处理的要求和限制

项目
01/23/2025

以下部分概述了在计划使用预生成文档处理模型时要考虑的关键因素。

合同处理

图标	说明
	支持的文件类型此模型支持以下文件类型：.bmp、.jpeg、.pdf、.png 和.tiff。
	支持的语言此模型仅支持英语语言协定。
	OCR 注意事项此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档： - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。文本嵌入 .pdf 文件更好，因为字符提取和位置不会出现任何错误。 - 对于 .pdf 和.tiff文件，最多可以处理 2,000 页。 - 文件大小必须小于 50 MB。 - 对于图像，尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 - 对于 .pdf 文件，尺寸必须最多为 11 x 17 英寸，对应于“法律”或“A3”纸张大小，且更小。 - 训练数据的总大小为 500 页或更少。
	多地理环境在 Microsoft 365 多地理位置环境中设置 Syntex 时，只能将其配置为在中心位置使用模型类型。如果要在附属位置使用此模型类型，请联系Microsoft支持人员。
	多模型库如果两个或更多已训练的模型应用于同一个库，则使用具有最高平均置信度分数的模型对文件进行分类。提取的实体仅来自应用的模型。

发票处理

图标	说明
	支持的文件类型此模型支持以下文件类型：.bmp、.jpeg、.pdf、.png 和.tiff。
	支持的语言此模型支持英语、西班牙语、德语、法语、意大利语、葡萄牙语和荷兰语的发票。
	OCR 注意事项此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档： - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。文本嵌入 .pdf 文件更好，因为字符提取和位置不会出现任何错误。 - 对于 .pdf 和.tiff文件，最多可以处理 2,000 页。 - 文件大小必须小于 50 MB。 - 对于图像，尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 - 对于 .pdf 文件，尺寸必须最多为 11 x 17 英寸，对应于“法律”或“A3”纸张大小，且更小。 - 训练数据的总大小为 500 页或更少。
	多地理环境在 Microsoft 365 多地理位置环境中设置 Syntex 时，只能将其配置为在中心位置使用模型类型。如果要在附属位置使用此模型类型，请联系Microsoft支持人员。
	多模型库如果两个或更多已训练的模型应用于同一个库，则使用具有最高平均置信度分数的模型对文件进行分类。提取的实体仅来自应用的模型。

收据处理

图标	说明
	支持的文件类型此模型支持以下文件类型：.bmp、.jpeg、.pdf、.png 和.tiff。
	支持的语言此模型支持英语、克罗地亚语、捷克语、丹麦语、荷兰语、芬兰语、德语、匈牙利语、意大利语、日语、拉脱维亚语、立陶宛语、挪威语、葡萄牙语、西班牙语、瑞典语和越南语的收据。
	OCR 注意事项此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档： - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。文本嵌入 .pdf 文件更好，因为字符提取和位置不会出现任何错误。 - 对于 .pdf 和.tiff文件，最多可以处理 2,000 页。 - 文件大小必须小于 50 MB。 - 对于图像，尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 - 对于 .pdf 文件，尺寸必须最多为 11 x 17 英寸，对应于“法律”或“A3”纸张大小，且更小。 - 训练数据的总大小为 500 页或更少。
	多地理环境在 Microsoft 365 多地理位置环境中设置 Syntex 时，只能将其配置为在中心位置使用模型类型。如果要在附属位置使用此模型类型，请联系Microsoft支持人员。
	多模型库如果两个或更多已训练的模型应用于同一个库，则使用具有最高平均置信度分数的模型对文件进行分类。提取的实体仅来自应用的模型。

敏感信息处理

图标	说明
	支持的文件类型此模型支持以下文件类型：.csv、 .doc、.docx、.eml、.heic、.heif、.htm、.html、.jpeg、.jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt、.xls 和 .xlsx。
	支持的语言此模型支持以下语言：请参阅支持的语言。此模型还支持手写文本和打印文本的语言。
	OCR 注意事项此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档： - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。文本嵌入 .pdf 文件更好，因为字符提取和位置不会出现任何错误。 - 对于 .pdf 和.tiff文件，最多可以处理 2,000 页。 - 文件大小必须小于 50 MB。 - 对于图像，尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 - 对于 .pdf 文件，尺寸必须最多为 11 x 17 英寸，对应于“法律”或“A3”纸张大小，且更小。 - 训练数据的总大小为 500 页或更少。支持手写文本和打印文本的语言。
	多地理环境在 Microsoft 365 多地理位置环境中设置 Syntex 时，只能将其配置为在中心位置使用模型类型。如果要在附属位置使用此模型类型，请联系Microsoft支持人员。
	多模型库如果两个或更多已训练的模型应用于同一个库，则使用具有最高平均置信度分数的模型对文件进行分类。提取的实体仅来自应用的模型。

简单文档处理

图标	说明
	支持的文件类型此模型支持以下文件类型：.bmp、.jpeg、.pdf、.png 和.tiff。
	支持的语言此模型支持 100 多种语言的文档。
	OCR 注意事项此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档： - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。文本嵌入 .pdf 文件更好，因为字符提取和位置不会出现任何错误。 - 对于 .pdf 和.tiff文件，最多可以处理 2,000 页。 - 文件大小必须小于 50 MB。 - 对于图像，尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 - 对于 .pdf 文件，尺寸必须最多为 11 x 17 英寸，对应于“法律”或“A3”纸张大小，且更小。 - 训练数据的总大小为 500 页或更少。
	多地理环境在 Microsoft 365 多地理位置环境中设置 Syntex 时，只能将其配置为在中心位置使用模型类型。如果要在附属位置使用此模型类型，请联系Microsoft支持人员。
	多模型库如果两个或更多已训练的模型应用于同一个库，则使用具有最高平均置信度分数的模型对文件进行分类。提取的实体仅来自应用的模型。