共用方式為


文字仲裁概念

重要

Azure Content Moderator 已於 2024 年 2 月起被取代,並將於 2027 年 2 月淘汰。 它已被 Azure AI 內容安全取代,其提供進階的 AI 功能和增強的效能。

Azure AI 內容安全是一個全方位的解決方案,其設計目的是在應用程式與服務中偵測使用者產生和 AI 產生的有害內容。 Azure AI 內容安全適用於許多案例,例如線上市集、遊戲公司、社交訊息平台、企業媒體公司和 K-12 教育解決方案提供者。 以下是其特性和功能的概觀:

  • 文字和影像偵測 API:掃描文字和影像中是否有色情內容、暴力、仇恨,以及多個嚴重層級的自殘内容。
  • Content Safety Studio:是一種線上工具,其設計目的是使用最先進的內容仲裁 ML 模型來處理潛在具冒犯性、風險性或不想要的內容。 它會提供範本和自訂工作流程,讓使用者建置自己的內容仲裁系統。
  • 語言支援:Azure AI 內容安全支持超過 100 種語言,並針對英文、德文、日文、西班牙文、法文、義大利文、葡萄牙文和中文受過專門訓練。

Azure AI 內容安全會提供健全且彈性的解決方案,以滿足您的內容仲裁需求。 藉由從 Content Moderator 切換至 Azure AI 內容安全,您可以利用最新的工具和技術,以確保您的內容一律會根據確切規格進行仲裁。

深入了解 Azure AI 內容安全,並探索它可以如何提升內容仲裁策略。

您可以使用 Azure Content Moderator 的文字仲裁模型來分析文字內容,例如聊天室、討論區、聊天機器人、電子商務目錄和檔。

服務回應會包含下列資訊:

  • 粗話:搭配內建的多語言粗話字詞清單進行字詞型比對
  • 分類:由電腦輔助分類來分成三種類別
  • 個人資料
  • 自動更正的文字
  • Original text
  • 語言

不雅內容

如果 API 偵測到以任何支援的語言表達的任何粗話字詞,這些字詞就會包含在回應中。 此回應也會包含它們在原始文字中的位置 (Index)。 以下範例 JSON 中的 ListId 係指在自訂字詞清單 (如果有的話) 中找到的字詞。

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

注意

language針對 參數,請指派eng或保留空白,以查看計算機輔助分類回應 (預覽功能)。 此功能僅支援英文

針對粗話字詞偵測,請使用本文中所列支援語言的 ISO 639-3 代碼或將其保留空白。

分類

內容仲裁工具的電腦輔助文字分類功能僅支援英文,可協助偵測可能不合適的內容。 根據內容,標幟的內容可能會評估為不適當的內容。 它可傳達每個類別的可能性。 此功能使用經過訓練的模型來識別可能的辱罵、詆毀或歧視性語言。 這包括俚語、縮寫詞、冒犯性和故意拼錯的字詞。

以下 JSON 擷取內容顯示一個範例輸出︰

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

說明

  • Category1 是指在某些情況下可能被視為性明確或成人的語言存在。
  • Category2 是指在某些情況下可能被視為性暗示或成熟語言的潛在存在。
  • Category3 是指在某些情況下可能被視為冒犯性的語言存在。
  • Score 介於 0 到 1 之間。 分數越高,類別可能適用的機率就越高。 此功能須倚賴統計模型,而不是手動編碼的結果。 建議您使用自己的內容進行測試,以判斷每個類別如何符合您的需求。
  • ReviewRecommended 會是 true 或 false,視內部分數閾值而定。 客戶應該評估是要使用此值,還是根據其內容原則決定自訂閾值。

個人資料

個人資料功能會偵測此資訊是否可能存在:

  • 電子郵件地址
  • 美國郵寄地址
  • IP 位址
  • 美國電話號碼

以下範例顯示一個範例回應:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

自動更正

文字仲裁回應可以選擇性地傳回套用基本自動更正的文字。

例如,下列輸入文字有拼字錯誤。

The quick brown fox jumps over the lazzy dog.

如果您指定自動更正,回應會包含更正的文字版本:

The quick brown fox jumps over the lazy dog.

建立及管理您的自定義字詞清單

雖然預設全域字詞清單適用於大部分案例,但您可能會想要根據商務需求特定的字詞來篩選。 例如,您可能想要篩選出使用者文章中任何具競爭力的品牌名稱。

注意

每個清單最多有五個字詞清單的限制,不超過 10,000 個字詞

以下範例顯示相符的「清單識別碼」:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

Content Moderator 有提供一個字詞清單 API,其中含有可管理自訂字詞清單的作業。 如果您熟悉 Visual Studio 和 C#,請參閱字詞清單 .NET 快速入門