你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

什么是自定义文本分类?

自定义文本分类是 Azure AI 语言提供的自定义功能之一。 它是一种基于云的 API 服务,应用机器学习智能,让你能够生成用于文本分类任务的自定义模型。

使用自定义文本分类,用户可以构建自定义 AI 模型,以将文本划分到用户预先定义的各种自定义类。 通过创建自定义文本分类项目,开发人员可以在提供模型供他人使用之前,以迭代方式标记数据、训练、评估和改进模型性能。 已标记数据的质量会极大地影响模型性能。 为了简化生成和自定义模型,该服务提供了一个自定义 Web 门户,可通过 Language Studio 访问该门户。 可以按照此快速入门中的步骤轻松开始使用该服务。

自定义文本分类支持两种类型的项目:

  • 单标签分类 - 可以为数据集的每个文档分配一个类。 例如,一个电影剧本只能分类为“爱情”或“喜剧”。
  • 多标签分类 - 可以为数据集的每个文档分配多个类。 例如,一个电影剧本可以分类为“喜剧”或“爱情”和“喜剧”。

本文档包含以下文章类型:

  • 快速入门介绍了入门说明,指导您完成向服务发出请求。
  • 概念对服务的功能和特性进行了深入说明。
  • 操作指南包含以更具体的方式或自定义方式使用服务的说明。

使用方案示例

自定义文本分类可用于各种行业的多种方案:

自动化电子邮件或票证会审

所有类型的支持中心都会收到大量电子邮件或票据,其中包含非结构化、自由格式的文本和附件。 及时查看、确认并转交给内部团队中的主题专家至关重要。 这种规模的电子邮件会审要求人们审阅材料,并将其转交给适当的部门,这需要时间和资源。 自定义文本分类可用于分析传入的文本,对内容进行会审和分类,以便自动将其转交给相关部门以执行进一步操作。

搜索是任何向用户展示文本内容的应用程序的基础。 常见方案包括目录或文档搜索、零售产品搜索或数据科学知识挖掘。 各行各业的许多企业都希望针对专用的异构内容(包括结构化和非结构化文档)构建丰富的搜索体验。 在管道中,开发人员可使用自定义文本分类将其文本划分到与其行业相关的类。 可以使用这些预测的类来丰富文件的索引,以获得更加个性化的自定义搜索体验。

项目开发生命周期

创建自定义文本分类项目通常涉及几个不同的步骤。

开发生命周期

请按照以下步骤操作,充分利用模型:

  1. 定义架构:了解你的数据,并标识要区分的,避免歧义。

  2. 标记数据:数据标记的质量是确定模型性能的关键因素。 属于同一类的文档应始终具有相同的类,如果有可属于两个类的文档,请使用“多标签分类”项目。 请避免出现类歧义,确保各类能够清楚地彼此区分,对于单标签分类项目尤其如此。

  3. 训练模型:模型始于从已标记数据进行学习。

  4. 查看模型性能:查看模型的评估详细信息,以确定它在引入新数据时的性能。

  5. 部署模型:部署模型后,可通过分析 API 使用它。

  6. 对文本进行分类:使用自定义模型执行自定义文本分类任务。

参考文档和代码示例

使用自定义文本分类时,请参阅 Azure AI 语言的以下参考文档和示例:

开发选项/语言 参考文档 示例
REST API(创作) REST API 文档
REST API(运行时) REST API 文档
C#(运行时) C# 文档 C# 示例 - 单标签分类 C# 示例 - 多标签分类
Java(运行时) Java 文档 Java 示例 - 单标签分类 Java 示例 - 多标签分类
JavaScript(运行时) JavaScript 文档 JavaScript 示例 - 单标签分类 JavaScript 示例 - 多标签分类
Python(运行时) Python 文档 Python 示例 - 单标签分类 Python 示例 - 多标签分类

负责任的 AI

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 阅读有关自定义文本分类的透明度说明,了解如何在系统中负责任地使用和部署 AI。 有关详细信息,还可以参阅以下文章:

后续步骤

  • 利用快速入门文章,开始使用自定义文本分类。

  • 在完成项目开发生命周期时,请查看术语表,详细了解整个文档中使用的有关此功能的术语。

  • 请记得查看服务限制来了解区域可用性之类的信息。