你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure AI Foundry 风险与安全评估(预览版)透明度说明
重要
本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款。
什么是透明度说明
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 你可以在开发或部署自己的系统时使用透明度说明,或者与使用你的系统或受其影响的人员共享透明度说明。
Microsoft 的透明度说明是 Microsoft 将其 AI 原则付诸实践的广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft AI 原则。
Azure AI Foundry 风险与安全评估(预览版)的基本信息
简介
用户可以使用 Azure AI Foundry 风险与安全评估来评估其生成式 AI 应用程序输出的文本内容风险:仇恨和不公平言论、性内容、暴力内容、自残相关内容、直接和间接越狱漏洞,以及内容中的受保护材料。 安全评估还有助于生成对抗数据集,以帮助加速和增强红队操作。 Azure AI Foundry 安全评估体现了 Microsoft 对构建安全、负责的 AI 系统的承诺,忠实地落实负责任 AI 的原则。
关键术语
- 仇恨和不公平内容(针对文本和图像)是指任何涉及对个人和社会群体的仇恨或不公平表述的语言或图像,涉及的因素包括但不限于种族、民族、国籍、性别、性取向、宗教、移民身份、能力、个人外貌和体型。 当 AI 系统不公平地对待或代表社会群体,造成或助长社会不平等现象时,即出现不公平现象。
- 性内容(针对文本和图像)包括与解剖器官和生殖器、恋爱关系、以色情语言描述的行为、怀孕、身体性行为(包括攻击或性暴力)、卖淫、色情和性虐待有关的语言或图像。
- 暴力内容(针对文本和图像)包括与意图伤害、损伤、损坏或杀害某人或某物的实际行为有关的语言或图像。 还包括对武器和枪支(以及制造商和协会等相关实体)的描述。
- 自残相关内容(针对文本和图像)包括与意在伤害、损伤或损坏身体或自杀的行为有关的语言或图像。
- 受保护材料内容(针对文本)是指知名文本内容(例如,歌词、文章、食谱和所选 Web 内容),可由大型语言模型输出。 通过检测和阻止显示受保护材料,组织可以保持对知识产权的合规性和维护内容的原创性。
- 受保护的材料内容(针对图像)是指某些受版权保护的视觉内容,例如徽标和品牌、艺术作品或虚构人物。 系统使用图像转文本基础模型来识别是否存在此类内容。
- 直接越狱即直接提示攻击或用户提示注入攻击,是指用户操纵提示将有害输入注入 LLM 以扭曲操作和输出。 越狱命令的一个举例为“DAN”(立即执行任何操作)攻击,该攻击可以欺骗 LLM 生成不适当的内容或忽略系统施加的限制。
- 间接越狱即间接提示攻击或跨域提示注入攻击,是指将恶意指令隐藏在 AI 系统处理的数据或从中生成基础内容的数据中。 此数据可能包括电子邮件、文档、网站或其他并非由开发人员或用户直接创作的源,并可能导致生成不适当的内容或忽略系统施加的限制。
- “缺陷率(内容风险)”的定义为测试数据集中超出严重阈值部分的实例占整个数据集的百分比。
- “红队测试”在过去指用于测试安全漏洞的系统对抗攻击。 随着大型语言模型 (LLM) 的兴起,该术语已经超越了传统的网络安全范围,并在日常使用中演变为描述对 AI 系统的多种探测、测试和攻击。 在使用 LLM 时,无论是良性使用还是对抗性使用都可能产生潜在的有害输出,这些输出可能表现为多种形式,包括有害内容,如仇恨言论、煽动或美化暴力、暗示自残相关内容或性内容。
功能
系统行为
Azure AI Foundry 预配经过微调的 Azure OpenAI GPT-4o 模型,并策划针对应用程序的对抗攻击,以生成高质量的测试数据集。 然后预配另一个 GPT-4o 模型,以对测试数据集的内容和安全进行批注。 用户提供要测试的生成式 AI 应用程序终结点,然后安全评估将针对该终结点输出静态测试数据集及其内容风险标签(非常低、低、中、高)或内容风险检测标签(True 或 False),并给出 AI 生成该标签的原因。
用例
预期用途
安全评估不得用于除评估生成式 AI 应用程序内容风险和越狱漏洞之外的其他目的:
- 评估生成式 AI 应用程序的预部署:安全评估使用 Azure AI Foundry 门户或 Azure AI Python SDK 中的评估向导自动评估潜在内容或安全风险。
- “增强红队测试操作”:安全评估可以通过对抗模拟器模拟与生成式 AI 应用程序的对抗交互,以期发现内容和安全风险。
- 向利益干系人传达内容和安全风险:可以通过 Azure AI Foundry 门户分享对 Azure AI Foundry 项目的访问权限,向审核员或合规利益干系人分享安全评估结果。
选择用例时的注意事项
我们鼓励客户在其创新解决方案或应用程序中使用 Azure AI Foundry 安全评估。 但是,以下是选择用例时的一些注意事项:
- 安全评估应包括人工介入:使用 Azure AI Foundry 安全评估等自动评估时应让人工审阅者(如领域专家)介入,以便在向最终用户部署生成式 AI 应用前评估是否已经进行了全面的测试。
- 安全评估的覆盖范围并不全面:虽然安全评估可以增强对潜在内容或安全风险的测试能力,但它并不能取代专门针对应用程序所在领域、用例和最终用户类型的手动红队测试。
- 支持的方案:
- 对抗模拟:问答、多轮聊天、汇总、搜索、文本重写、非理论基础和理论基础内容生成。
- 自动批注:问答和多轮聊天。
- 目前,该服务仅针对英语领域的文本生成效果最好。 将来的版本将考虑其他功能,包括多模型支持。
- 安全评估的内容风险覆盖范围来对有限数量的边缘化群体和主题进行二次抽样:
- 仇恨和不公平指标包含部分性别(例如男性、女性、非二元性别)和种族、祖先、种族和国籍(例如黑人、墨西哥人、欧洲人)方面的边缘化群体。 并不包含所有性别、种族、祖先、种族和国籍方面的边缘化群体。 当前并不包括其他与仇恨和不公平相关的人口因素(例如残疾、性、宗教)。
- 对性、暴力和自残相关内容的指标基于对这些伤害的初步概念化,其开发程度低于仇恨和不公平性。 因此针对此类测量范围以及测量结果对此类伤害发生方式的代表程度,我们的要求较低。 这些内容类型的范围包括与性(例如性暴力、性关系、性行为)、暴力(例如虐待、伤害他人、绑架)和自残(例如故意致死、故意自残、饮食障碍)相关的有限主题。
- Azure AI Foundry 安全评估目前不支持插件或扩展性。
- 为了保证最新质量并改进覆盖范围,我们计划在未来发布的版本中改进服务的对抗模拟和批注功能。
技术限制、操作因素和范围
- 大型语言模型 (LLM) 领域持续快速发展,因此需要持续改进评估技术,以确保安全可靠的 AI 系统部署。 Azure AI Foundry 安全评估提现了 Microsoft 对持续在 LLM 评估领域进行创新的承诺。 我们的目标是为你提供最好的工具,助你评估生成式 AI 应用程序的安全性,但同时我们也意识到有效的评估需要持续不断的改进。
- Azure AI Foundry 安全评估目前只能接受有限的定制。 我们只需要用户提供生成式 AI 应用程序终结点,我们的服务将输出静态数据集并对内容风险打标签。
- 最后,应指出此系统不会自动执行任何操作或任务,它仅对生成式 AI 应用程序的输出进行评估,在为最终用户将生成式 AI 应用程序或系统部署到生产前,应由人工决策审核评估结果。
系统性能
提高系统性能的最佳做法
- 如果你所在领域对部分内容更敏感,请考虑调整缺陷率的计算阈值。
- 使用自动安全评估时,有时 AI 生成的标签可能会错误评估内容风险或标记错误的原因。 人工介入可在人工手动反馈列确认自动安全评估结果。
Azure AI Foundry 安全评估的评估
评估方法
对于所有支持的内容风险类型,我们已进行了内部质量检查,方法是比较人工贴标员和安全评估自动批注对同一数据集的近似匹配率,双方均采用 0-7 的严重程度打标签。 对于每个风险区域,我们通过人工标记工具和自动批注对 500 条英语单轮文本、250 条单轮文本转图像生成和 250 条具有图像转文本生成的多模式文本加贴标签。 人工贴标员和自动批注使用的批注指南版本并不完全相同;自动批注的指南源自人类使用的指南,但有不同程度的差异(仇恨和不公平指南的差异最大)。 尽管存在轻度到中度的差异,我们仍然认为分享近似匹配对比的一般趋势和见解是有用的。 在比较中,我们专门查看 2 级误差匹配(人工标签与自动批注标签完全匹配,或者有 2 级上下的严重性误差)、1 级误差匹配和 0 级误差匹配。
评估结果
总的来说,我们能够发现在所有误差等级上,自残和性内容风险的近似匹配率很高。 对于暴力、仇恨和不公平性,所有误差等级上的近似匹配率较低。 上述结果部分是由于人工贴标员和自动批注所用的批注指南差异较大,部分是由于特定指南中的内容数量较多、复杂程度较高。
尽管我们比较实体所用的批注指南有轻度到中度的差异(因此不是标准的人工模型协议比较),但这些对比参数还是为 Azure AI Foundry 安全评估的预期质量提供了一定的参考。 具体而言,由于我们只采用了英语样本,因此我们的发现可能不能泛化到其他语言。 此外,由于每个数据集样本只包含一个轮次,因此需要做更多试验来验证我们的评估结果是否对多轮次场景也通用(例如,包括用户查询和系统响应的来回对话)。 评估数据集所用的样本类型也会大幅度影响人工标签和自动批注的近似匹配率:如果样本更易于贴标(例如,如果所有的样本都没有内容风险),那么近似匹配率就更高。 人工标签的评估质量也可能会影响我们发现结果的通用性。
为你的使用场景评估和集成 Azure AI Foundry 安全评估
对生成式 AI 应用程序进行测量和评估是一个全面的 AI 风险管理方法的重要组成部分。 Azure AI Foundry 安全评估是对其他 AI 风险管理方法的补充,应结合使用。 在生成式 AI 应用程序的设计、开发和部署阶段使用 AI 辅助的安全评估时,领域专家和人工审阅者应提供适当的监督。 使用者应了解安全评估的限制和预期用途,小心不要仅依赖 Azure AI Foundry AI 辅助安全评估生成的输出。
由于 LLM 的非确定性性质,你可能会收到错误的负面或正面结果,例如高严重性的暴力内容被评为“非常低”或“低”。此外,评估结果对于不同的受众可能有不同的含义。 例如,安全评估可能会生成暴力内容为“低”严重性的标签,该标签可能与人类审查员对特定暴力内容严重性的定义不一致。 我们在 Azure AI Foundry 门户中提供了一个人工反馈列,当查阅评估结果时,人工审核员可以用拇指朝上或拇指朝下来表示批准或反对实例。 考虑到其他人可能会根据背景来理解评估结果以制定决策,你可以分享评估并在每个生成式 AI 应用程序的运行环境中进行风险等级评审,根据评审的等级来对评估结果进行验证。