你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
自定义类别(预览版)
你可以使用 Azure AI 内容安全创建和管理自己的内容审核类别,以增强审核和过滤功能,满足特定策略或用例的要求。
自定义类型
可以通过多种方式来定义和使用自定义类别,本节将详细介绍并进行比较。
API | 功能 |
---|---|
自定义类别(标准)API | 使用可自定义的机器学习模型来创建、获取、查询和删除自定义类别。 或者,列出所有自定义类别,以便执行进一步的批注任务。 |
自定义类别(快速)API | 使用大型语言模型 (LLM) 快速学习新兴内容事件中的特定内容模式。 |
自定义类别(标准)API
自定义类别(标准)API 使客户能够根据自己的需求定义类别,提供样本数据,训练自定义机器学习模型,并使用它根据所学习到的类别对新内容进行分类。
这是使用机器学习模型进行自定义的标准工作流。 根据训练数据的质量,此 API 可以达到非常好的性能水平,但训练模型可能需要几个小时。
此实现适用于文本内容,不适用于图像内容。
自定义类别(快速)API
与标准方法相比,自定义类别(快速)API 更快、更灵活。 这一 API 旨在对网络事件进行识别、分析、控制、消除和恢复的过程,这些事件涉及在线平台上的不当或有害内容。
事件可能涉及一系列新出现的内容模式(文本、图像或其他形式),这些模式违反了 Microsoft 社区准则或客户自己的政策和期望。 需要快速准确地缓解这些事件,避免潜在的实时站点问题或对用户和社区造成损害。
此实现适用于文本内容和图像内容。
提示
处理新出现的内容事件的一种方法是使用阻止列表,但这只允许精确文本匹配,而且没有图像匹配。 自定义类别(快速)API 提供以下高级功能:
- 将嵌入搜索与轻量级分类器结合使用的语义文本匹配
- 使用轻量级对象跟踪模型和嵌入搜索的图像匹配。
工作原理
Azure AI 内容安全自定义类别功能使用多步骤过程来创建、训练和使用自定义内容分类模型。 下面是工作流的一个示例:
步骤 1:定义和设置
定义自定义类别时,需要向 AI 说明要标识的内容类型。 这涉及提供清晰的类别名称和概括内容特征的详细定义。
然后,收集一个包含正面和(可选)负面示例的平衡数据集,以帮助 AI 学习类别的细微差别。 这些数据应该代表模型在现实场景中会遇到的各种内容。
步骤 2:模型训练
准备好数据集并定义类别后,Azure AI 内容安全服务会训练新的机器学习模型。 该模型使用定义和上传的数据集,借助大型语言模型执行数据增强。 因此,训练数据集越大,质量越高。 在训练过程中,AI 模型会分析数据并学习区分符合指定类别的内容和不符合指定类别的内容。
步骤 3:模型推理
训练后,需要评估模型,以确保模型满足准确性要求。 使用之前未收到的新内容测试模型。 评估阶段有助于确定将模型部署到生产环境所需的任何潜在调整。
步骤 4:模型用法
可以使用 analyzeCustomCategory API 来分析文本内容并确定它是否与你定义的自定义类别匹配。 服务将返回一个布尔值,指示内容是否与指定的类别相符
限制
语言可用性
自定义类别 API 支持内容安全文本审查支持的所有语言。 请参阅语言支持。
输入限制
有关自定义类别(标准)API 的输入限制,请参阅下表:
Object | 限制 |
---|---|
支持的语言 | 只有英语 |
每个用户的类别数 | 3 |
每个类别的版本数 | 3 |
每个类别的并发生成数(进程) | 1 |
每秒推理操作数 | 5 |
类别版本中的示例数 | 正样本(必需):最小值为 50,最大值为 5000 总计(负样本和正样本):10000 不允许出现重复样本。 |
示例文件大小 | 最大为 128000 个字节 |
文本示例的长度 | 最长为 125000 个字符 |
类别定义的长度 | 最长为 1000 个字符 |
类别名称的长度 | 最长为 128 个字符 |
blob url 的长度 | 最长为 500 个字符 |