你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

如何通过 Azure AI Foundry 配置内容筛选器

集成到 Azure AI Foundry 的内容筛选系统与核心模型一起运行,包括 DALL-E 图像生成模型。 它使用一组多类分类模型来检测四类有害内容(暴力、仇恨、性和自残),分别为四个严重级别(安全、低、中和高),并使用可选的二元分类器来检测越狱风险、现有文本和公共存储库中的代码。

默认内容筛选配置设置为在提示和完成的所有四个内容危害类别的中等严重性阈值下进行筛选。 这表示检测到的严重性级别为中或高的内容将被筛选,而检测到的严格性级别为低或安全的内容不会被内容筛选器筛选。 在此处了解有关内容类别、严重性级别和内容筛选系统行为的详细信息。

越狱风险检测以及受保护文本和代码模型是可选的,默认情况下处于开启状态。 对于越狱和受保护材料文本和代码模型,可配置性功能允许所有客户打开和关闭模型。 这些模型默认处于开启状态,可以根据情况开启。 某些模型需要在某些情况下打开才能保留客户版权承诺项下的覆盖范围。

注意

所有客户都可以修改内容筛选器并配置严重性阈值(低、中、高)。 需要批准才能部分或完全关闭内容筛选器。 托管客户只能通过此表格申请完整的内容筛选控制:Azure OpenAI 受限访问评审:修改的内容筛选器。 目前,无法成为托管客户。

可以在资源级别配置内容筛选器。 创建了新配置后,就可以将其与一个或多个部署相关联。 有关模型部署的详细信息,请参阅资源部署指南

先决条件

  • 必须具有 Azure OpenAI 资源和大型语言模型 (LLM) 部署才能配置内容筛选器。 按快速入门的说明开始操作。

了解内容筛选器的可配置性

Azure OpenAI 服务包括应用于所有模型的默认安全设置,但不包括 Azure OpenAI Whisper。 这些配置默认提供负责任的体验,包括内容筛选模型、阻止列表、提示转换和内容凭据等。 在此处了解详细信息

所有客户还可以配置内容筛选器,并创建根据用例要求定制的自定义安全策略。 可配置性功能让客户可以分别调整提示和完成设置,以便按不同的严重性级别筛选每个内容类别的内容,如下表所示。 检测到的“安全”严重级别内容在注释中进行了标记,但不受筛选,也不可配置。

已筛选严重性 针对提示可配置 针对补全可配置 说明
低、中、高 最严格的筛选配置。 检测到的严重性级别为低、中和高的内容将被筛选。
中、高 检测到的严重性级别为低的内容不会被筛选,中和高的内容会被筛选。
检测到的严重性级别为低和中的内容不会被筛选。 仅筛选严重性级别为高的内容。
无筛选器 如果已批准1 如果已批准1 无论检测到的严重性级别如何,都不会筛选任何内容。 需要批准1
仅批注 如果已批准1 如果已批准1 禁用筛选功能,因此不会阻止内容,而是通过 API 响应返回批注。 需要批准1

1 对于 Azure OpenAI 模型,只有已批准修改内容筛选的客户才具有完整的内容筛选控制,并且可关闭内容筛选器。 通过以下表单申请修改后的内容筛选器:Azure OpenAI 有限访问权限评审:修改后的内容筛选器。 对于 Azure 政府版客户,请通过以下表单申请修改后的内容筛选器:Azure 政府 - 为 Azure OpenAI 服务申请修改后的内容筛选

输入(提示)和输出(完成)的可配置内容筛选器可用于以下 Azure OpenAI 模型:

  • GPT 模型系列
  • GPT-4 Turbo Vision GA* (turbo-2024-04-09)
  • GPT-4o
  • GPT-4o mini
  • DALL-E 2 和 3

可配置的内容筛选器不适用于

  • o1-preview
  • o1-mini

*仅适用于 GPT-4 Turbo Vision GA,不适用于 GPT-4 Turbo Vision 预览版

内容筛选配置在 Azure AI Foundry 门户的资源中创建,可以与部署关联。 请在此处详细了解可配置型

客户负责确保集成 Azure OpenAI 的应用程序符合行为准则

了解其他筛选器

除了默认的危害类别筛选器之外,你还可以配置以下筛选器类别。

筛选器类别 Status 默认设置 应用于提示或补全? 说明
针对直接攻击(越狱)的提示防护 GA 用户提示 过滤/批注可能具有越狱风险的用户提示。 要详细了解批注,请访问 Azure AI Foundry 内容筛选
针对间接攻击的提示防护 GA 用户提示 过滤/批注间接攻击(也称为间接提示攻击或跨域提示注入攻击),这是一种潜在的漏洞,其中第三方会将恶意指令置于生成式 AI 系统可以访问和处理的文档中。 需要文档嵌入和格式设置
受保护材料 - 代码 GA Completion 过滤受保护的代码或获取与任何公共代码源匹配的代码片段的批注中的示例引用和许可信息,由 GitHub Copilot 提供支持。 若要详细了解如何使用注释,请参阅内容筛选概念指南
受保护材料 - 文本 GA Completion 识别已知文本内容(例如,歌词、食谱和选定的网页内容)并阻止其显示在模型输出中。
有据性* 预览 完成 检测大型语言模型 (LLM) 的文本响应是否以用户提供的源材料为依据。 无据性是指 LLM 生成的信息与源材料中的信息不符或不准确。 需要文档嵌入和格式设置

在 Azure AI Foundry 中创建内容筛选器

对于 Azure AI Foundry 中的任何模型部署,可以直接使用默认内容过滤器,但你可能希望拥有更多控制。 例如,你可以使筛选器更严格或更宽松,或者启用提示盾牌和受保护材料检测等更高级的功能。

提示

有关 Azure AI Foundry 项目中内容筛选器的指南,可以在 Azure AI Foundry 内容筛选一文中阅读详细信息。

按照以下步骤创建内容筛选器:

  1. 转到 Azure AI Foundry 并导航到你的项目。 然后,从左侧菜单中选择“安全 + 安保”,再选择“内容筛选器”选项卡。

    用于创建新内容筛选器的按钮的屏幕截图。

  2. 选择“+ 创建内容筛选器”。

  3. 在“基本信息”页面上,输入内容筛选配置的名称。 选择要与内容筛选器关联的连接。 然后选择下一步

    用于在创建内容筛选器时选择或输入基本信息(例如筛选器名称)的选项的屏幕截图。

    现在,可以配置输入筛选器(用于用户提示)和输出筛选器(用于模型完成)。

  4. 在“输入筛选器”页面上,可以设置输入提示的筛选器。 对于前四个内容类别,每个类别有三个可配置的严重性级别:低、中和高。 如果你确定你的应用程序或使用方案需要与默认值不同的筛选,则可以使用滑块设置严重性阈值。 某些筛选器(如提示盾牌和受保护材料检测)可用于确定模型是否应批注和/或阻止内容。 选择“仅批注”将运行相应的模型并通过 API 响应返回批注,但不会筛选内容。 除了批注外,还可以选择阻止内容。

    如果用例已针对已修改内容筛选器获得批准,你将获得对内容筛选配置的完全控制权,可以选择部分或完全关闭筛选功能,或仅对内容危害类别(暴力、仇恨、性与自残)启用批注。

    内容将按类别进行批注,并根据设置的阈值进行阻止。 对于暴力、仇恨、色情和自残类别,可以调整滑块来阻止高、中或低严重性的内容。

    输入筛选器屏幕的屏幕截图。

  5. 在“输出筛选器”页上,你可以配置输出筛选器,该筛选器将应用于你的模型生成的所有输出内容。 像以前一样配置各个筛选器。 此页面还提供“流式处理模式”选项,该选项使你能够在模型生成内容时近乎实时地筛选内容,从而减少延迟。 完成后,选择“下一步”。

    内容将按类别进行批注,并根据阈值进行阻止。 对于暴力内容、仇恨内容、色情内容和自残内容类别,可以调整阈值来阻止严重级别相同或更高的有害内容。

    输出筛选器屏幕的屏幕截图。

  6. (可选)在“部署”页面上,可以将内容筛选器与部署相关联。 如果所选部署已附加了筛选器,则必须确认要替换它。 还可以稍后将内容筛选器与部署相关联。 选择创建

    用于在创建内容筛选器时选择部署的选项的屏幕截图。

    内容筛选配置是在 Azure AI Foundry 门户的中心级别创建的。 在 Azure OpenAI 服务文档中了解有关可配置性的详细信息。

  7. 在“查看”页面上查看设置,然后选择“创建筛选器”

使用阻止列表作为筛选器

你可以将阻止列表作为输入或输出筛选器,或者同时作为这两种出筛选器。 在“输入筛选器”和/或“输出筛选器”页面上启用“阻止列表”选项。 从下拉列表中选择一个或多个阻止列表,或使用内置的不雅内容阻止列表。 你可以将多个阻止列表合并到同一个筛选器中。

应用内容筛选器

筛选器创建过程提供了将筛选器应用于所需部署的选项。 你也可以随时更改或移除部署中的内容筛选器。

按照以下步骤将内容筛选器应用于部署:

  1. 转到 Azure AI Foundry 并选择一个项目。

  2. 选择左侧窗格中的“模型 + 终结点”并选择其中一个部署,然后选择“编辑”。

    用于编辑部署的按钮的屏幕截图。

  3. 在“更新部署”窗口中,选择要应用于部署的内容筛选器。 然后选择“保存并关闭”

    应用内容筛选器的屏幕截图。

    如果需要,还可以编辑和删除内容筛选器配置。 在删除内容筛选配置之前,需要在“部署”选项卡中将其从任何部署中取消分配并进行替换

现在,可以转到操场来测试内容筛选器是否按预期工作。

报告内容筛选反馈

如果遇到内容筛选问题,请选择操场顶部的“筛选器反馈”按钮。 这是在提交提示后,在“图像、聊天和完成”操场中启用的

出现对话框时,选择相应的内容筛选问题。 尽可能包含与你的内容筛选问题相关的详细信息,例如遇到的具体提示和内容筛选错误。 请勿包含任何私人或敏感信息。

如需支持,请提交支持票证

遵循最佳做法

建议通过迭代标记(例如,红队测试、压力测试和分析)和测量过程来告知内容筛选配置决策,以解决与特定模型、应用和部署案例相关的潜在危害。 在实施内容筛选等缓解措施后,重复测量以测试有效性。 基于 Microsoft 负责任 AI 标准的适用于 Azure OpenAI 的负责任 AI 的建议和最佳做法可以在 Azure OpenAI 的负责任 AI 概述中找到