Microsoft Syntex中的非结构化文档处理概述
注意
到 2025 年 6 月,如果设置了即用即付计费,则可以免费试用有限数量的非结构化文档处理和其他选定的 Syntex 服务。 有关信息和限制,请参阅试用Microsoft Syntex并浏览其服务。
使用非结构化文档处理模型 (教学方法) 自动对文件和提取信息进行分类。 它最适用于非结构化文档,例如信函或合同。
注意
Microsoft尊重用于在 Syntex 中训练和处理模型的数据的隐私和所有权。 Microsoft使用或传输任何组织数据来训练 AI 模型、大语言模型或任何其他模型。 数据安全地保留在组织的租户中。 有关详细信息,请参阅 Microsoft数据保护和隐私。
非结构化模型简介
非结构化文档处理模型 (以前称为 文档理解模型) 使用人工智能 (AI) 来处理文档。 这些文档必须包含可以根据短语或图案进行识别的文本。 标识的文本将指定文件类型(分类)和要提取的内容(提取程序)。
注意
有关如何使用 Syntex 和方案示例的详细信息,请参阅开始推动采用Microsoft Syntex和方案以及Microsoft Syntex的用例。
非结构化文档处理模型是在称为 内容中心的 SharePoint 网站类型中创建和管理的。 应用于 SharePoint 文档库时,该模型与内容类型关联,包含用于存储所提取信息的列。 你创建的内容类型存储在 SharePoint 内容类型库中。 也可以选择使用现有内容类型来使用其架构。
注意
无法更新只读或密封内容类型,因此无法在模型中使用它们。
将分类器和提取器添加到非结构化文档处理模型,以执行以下操作:
分类器用于识别上载到文档库的文档并对其进行分类。 例如,一个分类器可通过“训练有素”来标识上载到库的所有合同续订文档。 当你创建分类器时,合同续订内容类型由你定义。
提取器从这些文档提取信息。 例如,对于文档库中标识的每个合同续订文档,将显示显示每个文档 的服务开始日期 和 客户端 的列。
可使用示例文件在模型中培训并测试分类器和提取器。 示例文件提供了有关尝试从文件识别和提取数据时要查找的内容的模型示例。 例如,你将使用公司使用的合同续订文档的示例来训练你的合同续订分类和提取器。 还可以使用示例文件来测试模型的有效性。
发布模型后,请使用内容中心将其应用到你有权访问的任何 SharePoint 文档库。
要求和限制
有关选择此模型时要考虑的要求的信息,请参阅 非结构化文档处理的要求和限制。