文字仲裁概念
重要
Azure Content Moderator 已於 2024 年 2 月起被取代,並將於 2027 年 2 月淘汰。 它已被 Azure AI 內容安全取代,其提供進階的 AI 功能和增強的效能。
Azure AI 內容安全是一個全方位的解決方案,其設計目的是在應用程式與服務中偵測使用者產生和 AI 產生的有害內容。 Azure AI 內容安全適用於許多案例,例如線上市集、遊戲公司、社交訊息平台、企業媒體公司和 K-12 教育解決方案提供者。 以下是其特性和功能的概觀:
- 文字和影像偵測 API:掃描文字和影像中是否有色情內容、暴力、仇恨,以及多個嚴重層級的自殘内容。
- Content Safety Studio:是一種線上工具,其設計目的是使用最先進的內容仲裁 ML 模型來處理潛在具冒犯性、風險性或不想要的內容。 它會提供範本和自訂工作流程,讓使用者建置自己的內容仲裁系統。
- 語言支援:Azure AI 內容安全支持超過 100 種語言,並針對英文、德文、日文、西班牙文、法文、義大利文、葡萄牙文和中文受過專門訓練。
Azure AI 內容安全會提供健全且彈性的解決方案,以滿足您的內容仲裁需求。 藉由從 Content Moderator 切換至 Azure AI 內容安全,您可以利用最新的工具和技術,以確保您的內容一律會根據確切規格進行仲裁。
深入了解 Azure AI 內容安全,並探索它可以如何提升內容仲裁策略。
您可以使用 Azure Content Moderator 的文字仲裁模型來分析文字內容,例如聊天室、討論區、聊天機器人、電子商務目錄和檔。
服務回應會包含下列資訊:
- 粗話:搭配內建的多語言粗話字詞清單進行字詞型比對
- 分類:由電腦輔助分類來分成三種類別
- 個人資料
- 自動更正的文字
- Original text
- 語言
不雅內容
如果 API 偵測到以任何支援的語言表達的任何粗話字詞,這些字詞就會包含在回應中。 此回應也會包含它們在原始文字中的位置 (Index
)。 以下範例 JSON 中的 ListId
係指在自訂字詞清單 (如果有的話) 中找到的字詞。
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 0,
"Term": "<offensive word>"
}
注意
language
針對 參數,請指派eng
或保留空白,以查看計算機輔助分類回應 (預覽功能)。 此功能僅支援英文。
針對粗話字詞偵測,請使用本文中所列支援語言的 ISO 639-3 代碼或將其保留空白。
分類
內容仲裁工具的電腦輔助文字分類功能僅支援英文,可協助偵測可能不合適的內容。 根據內容,標幟的內容可能會評估為不適當的內容。 它可傳達每個類別的可能性。 此功能使用經過訓練的模型來識別可能的辱罵、詆毀或歧視性語言。 這包括俚語、縮寫詞、冒犯性和故意拼錯的字詞。
以下 JSON 擷取內容顯示一個範例輸出︰
"Classification": {
"ReviewRecommended": true,
"Category1": {
"Score": 1.5113095059859916E-06
},
"Category2": {
"Score": 0.12747249007225037
},
"Category3": {
"Score": 0.98799997568130493
}
}
說明
Category1
是指在某些情況下可能被視為性明確或成人的語言存在。Category2
是指在某些情況下可能被視為性暗示或成熟語言的潛在存在。Category3
是指在某些情況下可能被視為冒犯性的語言存在。Score
介於 0 到 1 之間。 分數越高,類別可能適用的機率就越高。 此功能須倚賴統計模型,而不是手動編碼的結果。 建議您使用自己的內容進行測試,以判斷每個類別如何符合您的需求。ReviewRecommended
會是 true 或 false,視內部分數閾值而定。 客戶應該評估是要使用此值,還是根據其內容原則決定自訂閾值。
個人資料
個人資料功能會偵測此資訊是否可能存在:
- 電子郵件地址
- 美國郵寄地址
- IP 位址
- 美國電話號碼
以下範例顯示一個範例回應:
"pii":{
"email":[
{
"detected":"abcdef@abcd.com",
"sub_type":"Regular",
"text":"abcdef@abcd.com",
"index":32
}
],
"ssn":[
],
"ipa":[
{
"sub_type":"IPV4",
"text":"255.255.255.255",
"index":72
}
],
"phone":[
{
"country_code":"US",
"text":"6657789887",
"index":56
}
],
"address":[
{
"text":"1 Microsoft Way, Redmond, WA 98052",
"index":89
}
]
}
自動更正
文字仲裁回應可以選擇性地傳回套用基本自動更正的文字。
例如,下列輸入文字有拼字錯誤。
The quick brown fox jumps over the lazzy dog.
如果您指定自動更正,回應會包含更正的文字版本:
The quick brown fox jumps over the lazy dog.
建立及管理您的自定義字詞清單
雖然預設全域字詞清單適用於大部分案例,但您可能會想要根據商務需求特定的字詞來篩選。 例如,您可能想要篩選出使用者文章中任何具競爭力的品牌名稱。
注意
每個清單最多有五個字詞清單的限制,不超過 10,000 個字詞。
以下範例顯示相符的「清單識別碼」:
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 231.
"Term": "<offensive word>"
}
Content Moderator 有提供一個字詞清單 API,其中含有可管理自訂字詞清單的作業。 如果您熟悉 Visual Studio 和 C#,請參閱字詞清單 .NET 快速入門。