你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

文本审查概念

重要

Azure 内容审查器自 2024 年 2 月起弃用,将于 2027 年 2 月停用。 它被 Azure AI 内容安全所取代,后者提供高级 AI 功能和增强的性能。

Azure AI 内容安全是一个全面的解决方案,旨在检测应用程序和服务中用户生成的和 AI 生成的有害内容。 Azure AI 内容安全适用于在线市场、游戏公司、社交消息平台、企业媒体公司和 K-12 教育解决方案提供商等多种场景。 下面是其特性和功能的概述:

  • 文本和图像检测 API:扫描文本和图像中是否存在多个严重级别的性内容、暴力内容、仇恨内容和自残内容。
  • 内容安全工作室:一个在线工具,旨在使用最新的内容审核 ML 模型处理可能存在的冒犯性内容、风险性内容或不良内容。 它提供模板和自定义工作流,让用户能够构建自己的内容审核系统。
  • 语言支持:Azure AI 内容安全支持 100 多种语言,针对英语、德语、日语、西班牙语、法语、意大利语、葡萄牙语和中文进行了专门训练。

Azure AI 内容安全针对内容审核需求提供了强大且灵活的解决方案。 通过从内容审查器切换到 Azure AI 内容安全,你可以利用最新的工具和技术来确保内容始终按照确切规范进行审核。

详细了解 Azure AI 内容安全,了解它如何提升内容审核策略。

可使用 Azure 内容审查器的文本审查模型来分析文本内容,如聊天室、讨论区、聊天机器人、电子商务目录和文档。

服务响应包含以下信息:

  • 不敬词:根据多种语言的内置不敬字词列表执行基于字词的匹配
  • 分类:在机器的辅助下分类成三个类别
  • 个人数据
  • 自动更正的文本
  • 原始文本
  • 语言

亵渎内容

如果 API 在任何受支持语言中检测到任何亵渎字词,这些字词会包含在响应中。 响应还会包含这些字词在原始文本中的位置 (Index)。 以下示例 JSON 中的 ListId 引用了自定义术语列表(如果可用)中的术语。

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

注意

对于 language 参数,请分配 eng 或将其留空以查看机器辅助的分类响应(预览功能)此功能仅支持英语

对于不雅用语 检测,请使用本文所列的支持语言的 ISO 639-3 代码或留空。

分类

内容审查器的机器辅助文本分类功能仅支持英语,可帮助检测可能不需要的内容。 根据上下文,可能会将标记的内容评估为不合适。 它表达了每个类别的可能性。 该功能使用经过训练的模型来识别可能的辱骂、贬低或歧视性语言。 这包括俚语、缩写词、冒犯性和故意拼错的词。

以下 JSON 摘录内容显示了示例输出:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

说明

  • Category1 指可能存在某些情况下被视为色情或成人性质的语言。
  • Category2 指可能存在某些情况下被视为性暗示或过于成熟的语言。
  • Category3 指可能存在某些情况下被视为具攻击性的语言。
  • Score 介于 0 和 1 之间。 分数越高,类别可能适用的概率就越高。 此功能依赖于统计模型,而不是人工编码结果。 我们建议你对自己的内容进行测试,以确定每个类别是否符合要求。
  • ReviewRecommended 为 true 或 false,具体情况取决于内部评分阈值。 客户应评估是使用该值,还是根据他们的内容策略确定自定义阈值。

个人数据

个人数据功能检测是否可能存在以下信息:

  • 电子邮件地址
  • 美国邮寄地址
  • IP 地址
  • 美国电话号码

以下示例显示了示例响应:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

自动更正

文本审查响应可以选择返回应用了基本自动更正的文本。

例如,以下输入文本有拼写错误。

The quick brown fox jumps over the lazzy dog.

如果指定执行自动更正,则响应会包含更正后的文本版本:

The quick brown fox jumps over the lazy dog.

创建和管理自定义字词列表

尽管在默认情况下,全局字词列表能够很好地满足大部分需要,但你可能想要根据自己的具体业务需求筛选字词。 例如,你可能想要从用户的发布内容中,筛选出所有竞争品牌名称。

注意

最多只能使用五个字词列表,每个列表中的字词数不得超过 10,000 个

以下示例显示匹配的列表 ID:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

内容审查器提供字词列表 API 和相应的操作用于管理自定义字词列表。 如果熟悉 Visual Studio 和 C#,请查看字词列表 .NET 快速入门