Microsoft Syntex 中预生成文档处理的概述
注意
到 2025 年 6 月,如果设置了即用即付计费,则可以免费试用有限数量的预生成文档处理和其他选定的 Syntex 服务。 有关信息和限制,请参阅试用Microsoft Syntex并浏览其服务。
除了自定义模型,Microsoft Syntex还提供预生成模型来自动提取信息。
注意
Microsoft尊重用于在 Syntex 中训练和处理模型的数据的隐私和所有权。 Microsoft使用或传输任何组织数据来训练 AI 模型、大语言模型或任何其他模型。 数据安全地保留在组织的租户中。 有关详细信息,请参阅 Microsoft数据保护和隐私。
预生成模型简介
预生成文档处理使用预配置的 预生成模型 来识别文档和文档中的结构化信息。 无需从头开始创建新的自定义模型,可以循环访问现有预先训练的模型,以添加符合组织需求的特定字段。
预生成模型使用光学字符识别 (OCR) 与深度学习模型相结合来识别和提取特定文档类型通用的预定义文本和数据字段。 首先,根据预生成模型分析其中一个文件。 然后,选择对用途有意义的检测到的字段。 如果模型未检测到所需的字段,则可以使用其他文件再次进行分析。
与其他模型一样,预生成模型是在 内容中心中创建和管理的。 应用于 SharePoint 文档库时,模型与内容类型相关联,并且具有用于存储要提取的信息的列。
发布模型后,请使用内容中心将其应用到你有权访问的任何 SharePoint 文档库。
可用的预生成模型
目前,有五种预生成处理模型可用: 合同、 发票、 收据、 敏感信息和 简单文档。
合同。 预生成 合同处理模型 从合同文档分析和提取关键信息。 API 以各种格式分析合同,并提取关键合同信息,例如客户端名称和地址、合同持续时间和续订日期。
发票。 发票处理模型从销售发票中分析和提取关键信息。 API 以各种格式分析发票,并 提取关键发票信息 ,例如客户名称、帐单邮寄地址、截止日期和应付金额。
收据。 收据处理模型从销售收据中分析和提取关键信息。 API 分析打印的收据和手写收据,并 提取关键收据信息 ,例如商家名称、商家电话号码、交易日期、税款和交易总额。
敏感信息。 敏感信息模型分析、检测和提取文档中的关键信息。 API 以各种格式分析文档, 并检测和提取关键敏感信息,例如个人和财务标识号、物理地址和电子邮件地址以及电话号码。
简单文档。 简单的文档处理模型提供了一个灵活的预训练解决方案,用于从基本结构化文档中提取键值对、选择标记和命名实体。 此模型还支持条形码和语言检测。
将来的版本中将提供其他预生成模型。
要求和限制
有关选择此模型时要考虑的要求的信息,请参阅 Microsoft Syntex 中模型的要求和限制。