文字仲裁概念

發行項
11/23/2024

重要

Azure Content Moderator 已於 2024 年 2 月起被取代，並將於 2027 年 2 月淘汰。它已被 Azure AI 內容安全取代，其提供進階的 AI 功能和增強的效能。

Azure AI 內容安全是一個全方位的解決方案，其設計目的是在應用程式與服務中偵測使用者產生和 AI 產生的有害內容。 Azure AI 內容安全適用於許多案例，例如線上市集、遊戲公司、社交訊息平台、企業媒體公司和 K-12 教育解決方案提供者。以下是其特性和功能的概觀：

文字和影像偵測 API：掃描文字和影像中是否有色情內容、暴力、仇恨，以及多個嚴重層級的自殘内容。
Content Safety Studio：是一種線上工具，其設計目的是使用最先進的內容仲裁 ML 模型來處理潛在具冒犯性、風險性或不想要的內容。它會提供範本和自訂工作流程，讓使用者建置自己的內容仲裁系統。
語言支援：Azure AI 內容安全支持超過 100 種語言，並針對英文、德文、日文、西班牙文、法文、義大利文、葡萄牙文和中文受過專門訓練。

Azure AI 內容安全會提供健全且彈性的解決方案，以滿足您的內容仲裁需求。藉由從 Content Moderator 切換至 Azure AI 內容安全，您可以利用最新的工具和技術，以確保您的內容一律會根據確切規格進行仲裁。

深入了解 Azure AI 內容安全，並探索它可以如何提升內容仲裁策略。

您可以使用 Azure Content Moderator 的文字仲裁模型來分析文字內容，例如聊天室、討論區、聊天機器人、電子商務目錄和檔。

服務回應會包含下列資訊：

粗話：搭配內建的多語言粗話字詞清單進行字詞型比對
分類：由電腦輔助分類來分成三種類別
個人資料
自動更正的文字
Original text
語言

不雅內容

如果 API 偵測到以任何支援的語言表達的任何粗話字詞，這些字詞就會包含在回應中。此回應也會包含它們在原始文字中的位置 (Index)。以下範例 JSON 中的 ListId 係指在自訂字詞清單 (如果有的話) 中找到的字詞。

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

注意

language針對參數，請指派eng或保留空白，以查看計算機輔助分類回應（預覽功能）。 此功能僅支援英文。

針對粗話字詞偵測，請使用本文中所列支援語言的 ISO 639-3 代碼或將其保留空白。

分類

內容仲裁工具的電腦輔助文字分類功能僅支援英文，可協助偵測可能不合適的內容。根據內容，標幟的內容可能會評估為不適當的內容。它可傳達每個類別的可能性。此功能使用經過訓練的模型來識別可能的辱罵、詆毀或歧視性語言。這包括俚語、縮寫詞、冒犯性和故意拼錯的字詞。

以下 JSON 擷取內容顯示一個範例輸出︰

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

說明

Category1 是指在某些情況下可能被視為性明確或成人的語言存在。
Category2 是指在某些情況下可能被視為性暗示或成熟語言的潛在存在。
Category3 是指在某些情況下可能被視為冒犯性的語言存在。
Score 介於 0 到 1 之間。分數越高，類別可能適用的機率就越高。此功能須倚賴統計模型，而不是手動編碼的結果。建議您使用自己的內容進行測試，以判斷每個類別如何符合您的需求。
ReviewRecommended 會是 true 或 false，視內部分數閾值而定。客戶應該評估是要使用此值，還是根據其內容原則決定自訂閾值。

個人資料

個人資料功能會偵測此資訊是否可能存在：

電子郵件地址
美國郵寄地址
IP 位址
美國電話號碼

以下範例顯示一個範例回應：

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

自動更正

文字仲裁回應可以選擇性地傳回套用基本自動更正的文字。

例如，下列輸入文字有拼字錯誤。

The quick brown fox jumps over the lazzy dog.

如果您指定自動更正，回應會包含更正的文字版本：

The quick brown fox jumps over the lazy dog.

建立及管理您的自定義字詞清單

雖然預設全域字詞清單適用於大部分案例，但您可能會想要根據商務需求特定的字詞來篩選。例如，您可能想要篩選出使用者文章中任何具競爭力的品牌名稱。

注意

每個清單最多有五個字詞清單的限制，不超過 10,000 個字詞。

以下範例顯示相符的「清單識別碼」：

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

Content Moderator 有提供一個字詞清單 API，其中含有可管理自訂字詞清單的作業。如果您熟悉 Visual Studio 和 C#，請參閱字詞清單 .NET 快速入門。

快速入門：使用 Content Moderator 用戶端連結庫

共用方式為

文字仲裁概念

不雅內容

分類

說明

個人資料

自動更正

建立及管理您的自定義字詞清單

其他資源

共用方式為

文字仲裁概念

不雅內容

分類

說明

個人資料

自動更正

建立及管理您的自定義字詞清單

相關內容

其他資源