你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
什么是自定义命名实体识别?
自定义 NER 是 Azure AI 语言提供的自定义功能之一。 它是一种基于云的 API 服务,应用机器学习智能,使你能够生成用于自定义命名实体识别任务的自定义模型。
自定义 NER 使用户能够生成自定义 AI 模型,以便从非结构化文本(如合同或金融文档)中提取特定于域的实体。 通过创建自定义 NER 项目,开发者可以在模型可用之前,以迭代方式标记数据、训练、评估和改进模型性能。 已标记数据的质量会极大地影响模型性能。 为了简化生成和自定义模型,该服务提供了一个自定义 Web 门户,可通过 Language Studio 访问该门户。 可以按照此快速入门中的步骤轻松开始使用该服务。
本文档包含以下文章类型:
使用方案示例
自定义命名实体识别可用于各种行业的多种方案:
信息提取
许多金融和法律组织每天都将从数千个复杂的非结构化文本源中提取和规范化数据。 此类源包括银行对帐单、法律协议或银行表单。 例如,由人工审核员手动完成的抵押贷款申请数据提取可能需要几天时间才能完成。 通过生成自定义 NER 模型自动执行这些步骤可简化流程并节省成本、时间和精力。
用于增强/丰富语义搜索的知识挖掘
搜索是任何向用户展示文本内容的应用程序的基础。 常见方案包括目录或文档搜索、零售产品搜索或数据科学知识挖掘。 各行各业的许多企业都希望针对专用的异构内容(包括结构化和非结构化文档)构建丰富的搜索体验。 作为管道的一部分,开发人员可以使用自定义 NER 从与行业相关的文本中提取实体。 这些实体可用于丰富文件的索引,以获得更加自定义的搜索体验。
审核和符合性
金融或法律企业的 IT 部门可以使用自定义 NER 来生成自动化解决方案,而不必手动审查很长的文本文件来审核和应用策略。 这些解决方案有助于强制执行合规性策略,并基于处理结构化和非结构化内容的知识挖掘管道设置必要的业务规则。
项目开发生命周期
使用自定义 NER 通常包含几个不同的步骤。
定义架构:了解数据,并确定你要提取的实体。 避免歧义。
标记数据:标记数据是确定模型性能的关键因素。 准确、一致、完整地标记。
- 精确标记:始终将每个实体标记为正确的类型。 仅包含要提取的内容,避免标签中出现不必要的数据。
- 一致标记:同一实体在所有文件中都应具有相同的标签。
- 完全标记:标记所有文件中实体的所有实例。
训练模型:模型始于从已标记数据进行学习。
查看模型性能:完成训练后,查看模型的评估详细信息及其性能和改进方式指南。
部署模型:部署模型后,可通过分析 API 使用它。
提取实体:对实体提取任务使用自定义模型。
参考文档和代码示例
使用自定义 NER 时,请参阅针对 Azure AI 语言的以下参考文档和示例:
开发选项/语言 | 参考文档 | 示例 |
---|---|---|
REST API(创作) | REST API 文档 | |
REST API(运行时) | REST API 文档 | |
C#(运行时) | C# 文档 | C# 示例 |
Java(运行时) | Java 文档 | Java 示例 |
JavaScript(运行时) | JavaScript 文档 | JavaScript 示例 |
Python(运行时) | Python 文档 | Python 示例 |
负责任的 AI
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 阅读自定义 NER 的透明度说明,了解如何在系统中负责任地使用和部署 AI。 有关详细信息,还可以参阅以下文章: