你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
什么是自定义文本分类?
自定义文本分类是 Azure AI 语言提供的自定义功能之一。 它是一种基于云的 API 服务,应用机器学习智能,让你能够生成用于文本分类任务的自定义模型。
使用自定义文本分类,用户可以构建自定义 AI 模型,以将文本划分到用户预先定义的各种自定义类。 通过创建自定义文本分类项目,开发人员可以在提供模型供他人使用之前,以迭代方式标记数据、训练、评估和改进模型性能。 已标记数据的质量会极大地影响模型性能。 为了简化生成和自定义模型,该服务提供了一个自定义 Web 门户,可通过 Language Studio 访问该门户。 可以按照此快速入门中的步骤轻松开始使用该服务。
自定义文本分类支持两种类型的项目:
- 单标签分类 - 可以为数据集的每个文档分配一个类。 例如,一个电影剧本只能分类为“爱情”或“喜剧”。
- 多标签分类 - 可以为数据集的每个文档分配多个类。 例如,一个电影剧本可以分类为“喜剧”或“爱情”和“喜剧”。
本文档包含以下文章类型:
使用方案示例
自定义文本分类可用于各种行业的多种方案:
自动化电子邮件或票证会审
所有类型的支持中心都会收到大量电子邮件或票据,其中包含非结构化、自由格式的文本和附件。 及时查看、确认并转交给内部团队中的主题专家至关重要。 这种规模的电子邮件会审要求人们审阅材料,并将其转交给适当的部门,这需要时间和资源。 自定义文本分类可用于分析传入的文本,对内容进行会审和分类,以便自动将其转交给相关部门以执行进一步操作。
用于增强/丰富语义搜索的知识挖掘
搜索是任何向用户展示文本内容的应用程序的基础。 常见方案包括目录或文档搜索、零售产品搜索或数据科学知识挖掘。 各行各业的许多企业都希望针对专用的异构内容(包括结构化和非结构化文档)构建丰富的搜索体验。 在管道中,开发人员可使用自定义文本分类将其文本划分到与其行业相关的类。 可以使用这些预测的类来丰富文件的索引,以获得更加个性化的自定义搜索体验。
项目开发生命周期
创建自定义文本分类项目通常涉及几个不同的步骤。
请按照以下步骤操作,充分利用模型:
定义架构:了解你的数据,并标识要区分的类,避免歧义。
标记数据:数据标记的质量是确定模型性能的关键因素。 属于同一类的文档应始终具有相同的类,如果有可属于两个类的文档,请使用“多标签分类”项目。 请避免出现类歧义,确保各类能够清楚地彼此区分,对于单标签分类项目尤其如此。
训练模型:模型始于从已标记数据进行学习。
查看模型性能:查看模型的评估详细信息,以确定它在引入新数据时的性能。
部署模型:部署模型后,可通过分析 API 使用它。
对文本进行分类:使用自定义模型执行自定义文本分类任务。
参考文档和代码示例
使用自定义文本分类时,请参阅 Azure AI 语言的以下参考文档和示例:
开发选项/语言 | 参考文档 | 示例 |
---|---|---|
REST API(创作) | REST API 文档 | |
REST API(运行时) | REST API 文档 | |
C#(运行时) | C# 文档 | C# 示例 - 单标签分类 C# 示例 - 多标签分类 |
Java(运行时) | Java 文档 | Java 示例 - 单标签分类 Java 示例 - 多标签分类 |
JavaScript(运行时) | JavaScript 文档 | JavaScript 示例 - 单标签分类 JavaScript 示例 - 多标签分类 |
Python(运行时) | Python 文档 | Python 示例 - 单标签分类 Python 示例 - 多标签分类 |
负责任的 AI
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 阅读有关自定义文本分类的透明度说明,了解如何在系统中负责任地使用和部署 AI。 有关详细信息,还可以参阅以下文章: