Azure AI 内容安全的工作原理是什么?

已完成

Azure AI 内容安全可处理文本和图像以及 AI 生成的内容。

内容安全视觉功能由 Microsoft 的 Florence 基础模型提供支持,该模型已经过数十亿文本图像对的训练。 文本分析使用自然语言处理技术,从而更好地了解细微差别和上下文。 Azure AI 内容安全支持多种语言,可以检测短文本和长文本中的有害内容。 目前提供英语、德语、西班牙语、法语、葡萄牙语、意大利语和中文版本。

Azure AI 内容安全将内容分为四类:

Azure AI 内容安全将内容分类为四个类别的示意图。

每个类别的严重性级别用于确定内容是应阻止、发送到审查方还是自动批准。

Azure AI 内容安全的功能包括:

保护文本内容

  • 审查文本会扫描四个类别的文本:暴力、仇恨言论、色情内容和自我伤害。 对于每个类别,将返回从 0 到 6 的严重性级别。 此级别有助于确定哪些内容需要立即关注以及其紧急程度如何。 还可以创建阻止列表,用于扫描特定于具体情况的术语。

  • 提示防护是一个统一的 API,用于识别和阻止对 LLM 的输入中的越狱攻击。 它包括用户输入和文档。 这些攻击是对 LLM 的提示,试图绕过模型内置的安全功能。 用户提示会经过测试,以确保输入到 LLM 的内容是安全的。 文档会经过测试,以确保其中不包含嵌入在文本中的不安全指令。

  • 受保护材料检测会检查 AI 生成的文本中是否包含受保护的文本,例如食谱、受版权保护歌曲歌词或其他原创材料

  • 有据性检测可以防止 LLM 在 AI 生成的文本中做出不准确的响应。 公共 LLM 使用它们训练时可用的数据。 但是,可以在最初的模型训练后引入数据,也可以基于专用数据进行生成。 有依据的响应是指模型输出基于源信息的响应。 无依据的响应是指模型输出偏离源信息的相应。 有据性检测包括 API 响应中的推理选项。 这添加了一个推理字段,用于解释任何无根据性检测。 但是,推理会增加处理时间和成本。

保护图像内容

  • 审查图像会扫描四个类别的不当内容:暴力、自我伤害、色情和仇恨。 返回一个严重性级别:安全、低或高。 然后,设置一个低、中或高的阈值级别。 严重性和阈值级别的组合决定了是允许还是阻止每个类别的图像。

  • 审查多模式内容可扫描图像和文本,包括使用光学字符识别 (OCR) 从图像中提取的文本。 内容会在四个类别中进行分析:暴力、仇恨言论、色情内容和自我伤害。

自定义安全解决方案

  • 使用自定义类别,可以通过提供正面和负面的示例以及训练模型来创建自己的类别。 然后,可以根据自己的类别定义对内容进行扫描。

  • 安全系统消息可帮助你编写有效的提示来指导 AI 系统的行为

限制

Azure AI 内容安全使用 AI 算法,因此可能并不总是能够检测到不适当的语言。 有时,它可能会阻止可接受的语言,因为它依赖于算法和机器学习来检测有问题的语言。

在部署之前,应针对实际数据对 Azure AI 内容安全进行测试和评估。 部署后,应继续监视系统,以查看其性能的准确性。

评估准确性

在评估 Azure AI 内容安全在具体情况下的准确性时,需根据四个标准比较其性能:

  • 真正 - 正确识别有害内容
  • 误报 - 错误识别有害内容
  • 真负 - 正确识别无害内容
  • 漏报 - 未识别有害内容

Azure AI 内容安全最适合支持可以解决错误识别案例的人工审查者。 当人们将内容添加到网站时,他们不希望帖子会无缘无故地被删除。 与用户沟通内容被删除或标记为不适当的原因有助于每个人都了解哪些内容是允许的,哪些不是。