Microsoft Syntex中模型的要求和限制
适用于: • 所有自定义模型 |• 所有预生成模型
Microsoft Syntex允许创建自定义模型和预生成模型。 根据你选择的模型类型,可能存在不同的要求,例如文件类型和大小、需要支持的语言、地理注意事项,以及有助于确定要使用的模型类型的其他因素。
自定义模型:
预生成模型:
自定义模型
非结构化文档处理
图标 | 说明 |
---|---|
支持的文件类型 此模型支持以下文件类型:.csv、.doc、.docx、.eml、 .heic、.heif、.htm、.html、.jpeg、.jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt、.xls 和 .xlsx ( .xls 和 .xlsx 文件中的公式不会) 运行。 |
|
支持的语言 此模型支持所有基于拉丁语的语言,包括英语、法语、德语、意大利语和西班牙语。 |
|
OCR 注意事项 此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档: - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。 - 如果 .pdf 文件是密码锁定的,则必须在提交之前将其删除。 - 每个集合中用于训练的文档的总文件大小不能超过 50 MB,PDF 文档的页数不应超过 500。 - 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 具有非常宽或特殊尺寸(例如平面图)的图像可能在 OCR 过程中截断,并且会失去准确性。 - 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。 - 如果从纸张文档扫描,则扫描应是高质量的图像。 - 必须使用拉丁字母 (英语字符) 。 请注意Microsoft Office 基于文本的文件和 OCR 扫描文件 (.pdf、图像或.tiff) 的以下差异: - 所有文件:在训练中和针对文档库) 中的文件时, (以 64,000 个字符截断。 - OCR 扫描的文件:限制为 500 页。 OCR 仅处理 PDF 和图像文件类型。 |
|
多地理环境 在 Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。 |
|
多模型库 如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。 |
任意格式文档处理
图标 | 说明 |
---|---|
支持的文件类型 此模型支持以下文件类型:请参阅 文件类型要求。 |
|
支持的语言 此模型支持以下语言:请参阅 通用文档模型。 |
|
OCR 注意事项 此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适合满足 这些要求的文档。 |
|
优化提示 如果模型未按所需方式执行,请尝试 以下步骤来提高模型的性能。 |
|
多地理环境 在 Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。 |
|
自定义 Power Platform 环境 如果使用自定义环境 (而不是默认环境) 进行 Power Platform 处理,则还有其他设置要求。 有关详细信息,请参阅 自定义 Power Platform 环境。 |
|
多模型库 如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。 每个库只能有一个任意多边形或一个结构化模型。 |
结构化文档处理
图标 | 说明 |
---|---|
支持的文件类型 此模型支持以下文件类型:请参阅 文件类型要求。 |
|
支持的语言 此模型支持以下语言:请参阅 固定模板文档的模型。 |
|
OCR 注意事项 此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适合满足 这些要求的文档。 |
|
优化提示 如果模型未按所需方式执行,请尝试 以下步骤来提高模型的性能。 |
|
多地理环境 在 Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。 |
|
自定义 Power Platform 环境 如果使用自定义环境 (而不是默认环境) 进行 Power Platform 处理,则还有其他设置要求。 有关详细信息,请参阅 自定义 Power Platform 环境。 |
|
多模型库 如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。 每个库只能有一个任意多边形或一个结构化模型。 |
预生成模型
合同处理
图标 | 说明 |
---|---|
支持的文件类型 此模型支持以下文件类型:.bmp、.jpeg、.pdf、.png 和.tiff。 |
|
支持的语言 此模型仅支持英语语言协定。 |
|
OCR 注意事项 此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档: - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。 - 对于 .pdf 和.tiff文件,最多可以处理 2,000 页。 - 文件大小必须小于 50 MB。 - 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 - 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。 - 训练数据的总大小为 500 页或更少。 |
|
多地理环境 在 Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。 |
|
多模型库 如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。 |
发票处理
图标 | 说明 |
---|---|
支持的文件类型 此模型支持以下文件类型:.bmp、.jpeg、.pdf、.png 和.tiff。 |
|
支持的语言 此模型支持英语、西班牙语、德语、法语、意大利语、葡萄牙语和荷兰语的发票。 |
|
OCR 注意事项 此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档: - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。 - 对于 .pdf 和.tiff文件,最多可以处理 2,000 页。 - 文件大小必须小于 50 MB。 - 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 - 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。 - 训练数据的总大小为 500 页或更少。 |
|
多地理环境 在 Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。 |
|
多模型库 如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。 |
收据处理
图标 | 说明 |
---|---|
支持的文件类型 此模型支持以下文件类型:.bmp、.jpeg、.pdf、.png 和.tiff。 |
|
支持的语言 此模型支持英语、Croation、捷克、丹麦语、荷兰语、芬兰语、德语、匈牙利语、意大利语、日语、拉脱维亚语、立陶宛语、挪威语、葡萄牙语、西班牙语、瑞典语和越南语的收据。 |
|
OCR 注意事项 此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档: - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。 - 对于 .pdf 和.tiff文件,最多可以处理 2,000 页。 - 文件大小必须小于 50 MB。 - 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 - 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。 - 训练数据的总大小为 500 页或更少。 |
|
多地理环境 在 Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。 |
|
多模型库 如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。 |
敏感信息处理
图标 | 说明 |
---|---|
支持的文件类型 此模型支持以下文件类型:.csv、 .doc、.docx、.eml、.heic、.heif、.htm、.html、.jpeg、.jpg、.md、.msg、.pdf、.png、.ppt、.pptx、.rtf、.tif、.tiff、.txt、.xls 和 .xlsx。 |
|
支持的语言 此模型支持以下语言:请参阅 支持的语言。 此模型还支持 手写文本 和 打印文本的语言。 |
|
OCR 注意事项 此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档: - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。 - 对于 .pdf 和.tiff文件,最多可以处理 2,000 页。 - 文件大小必须小于 50 MB。 - 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 - 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。 - 训练数据的总大小为 500 页或更少。 支持 手写文本 和 打印文本的语言。 |
|
多地理环境 在 Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。 |
|
多模型库 如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。 |
简单文档处理
图标 | 说明 |
---|---|
支持的文件类型 此模型支持以下文件类型:.bmp、.jpeg、.pdf、.png 和.tiff。 |
|
支持的语言 此模型支持 100 多种语言的文档。 |
|
OCR 注意事项 此模型使用光学字符识别 (OCR) 技术扫描 .pdf 文件、图像文件和.tiff文件。 OCR 处理最适用于满足下列要求的文档: - .jpg、.png 或 .pdf (文本或扫描) 的文件格式。 文本嵌入 .pdf 文件更好,因为字符提取和位置不会出现任何错误。 - 对于 .pdf 和.tiff文件,最多可以处理 2,000 页。 - 文件大小必须小于 50 MB。 - 对于图像,尺寸必须介于 50 x 50 和 10,000 x 10,000 像素之间。 - 对于 .pdf 文件,尺寸必须最多为 11 x 17 英寸,对应于“法律”或“A3”纸张大小,且更小。 - 训练数据的总大小为 500 页或更少。 |
|
多地理环境 在 Microsoft 365 多地理位置 环境中设置 Syntex 时,只能将其配置为在中心位置使用模型类型。 如果要在附属位置使用此模型类型,请联系Microsoft支持人员。 |
|
多模型库 如果两个或更多已训练的模型应用于同一个库,则使用具有最高平均置信度分数的模型对文件进行分类。 提取的实体将仅来自应用的模型。 |