Azure AI 內容安全如何運作?

已完成

Azure AI 內容安全適用於文字和影像,以及 AI 產生的內容。

內容安全視覺功能由 Microsoft 的 Florence 基礎模型提供,該模型已使用數十億個文字影像組來訓練。 文字分析會使用自然語言處理技術,提供對細微差別和脈絡的進一步了解。 Azure AI 內容安全是多語系的,而且可以同時以簡短形式和完整形式偵測有害內容。 它目前以英文、德文、西班牙文、法文、葡萄牙文、義大利文和中文提供。

Azure AI 內容安全將內容分類為四個類別:

Azure AI 內容安全將內容分類為四個類別的圖表。

每個類別的嚴重性等級可用來判斷內容應遭到封鎖、傳送至仲裁者或自動核准。

Azure AI 內容安全功能包括:

保護文字內容

  • 仲裁文字會掃描四種類別的文字:暴力、仇恨言論、性內容和自我傷害。 系統會針對每個類別傳回從 0 到 6 的嚴重性等級。 此等級有助於排定需要人們立即注意的優先順序,以及其緊急程度。 您也可以建立封鎖清單來掃描您情況的特定字詞。

  • 提示防護是 Unified API,可用來識別和封鎖從輸入到 LLM 的越獄攻擊。 它同時包含使用者輸入和文件。 這些攻擊是會嘗試略過模型內建安全性功能的 LLM 提示。 系統會測試使用者提示,以確保 LLM 的輸入安全。 系統會測試文件,以確保它們不包含內嵌在文字中的不安全指令。

  • 受(版權)保護素材偵測會檢查 AI 產生的文字,以尋找受保護的文字,例如食譜、有著作權的歌曲歌詞或其他原始素材。

  • 據實性偵測可防止 LLM 在 AI 產生的文字中做出不準確的回應。 公用 LLM 會使用訓練當時可用的資料。 不過,資料可以在模型的原始訓練之後引進,或建置在私人資料上。 據實回應是模型輸出以來源資訊為基礎的回應。 非據實回應是模型輸出會因來源資訊而不同的回應。 據實性偵測會在 API 回應中包含「推理」選項。 這會新增 [推理] 欄位,說明任何非據實性偵測。 不過,推理會增加處理時間和成本。

保護影像內容

  • 仲裁影像會掃描四種類別的不當內容:暴力、自我傷害、性與仇恨。 系統會傳回嚴重性等級:安全、低或高。 接著,您可以設定低、中或高的閾值等級。 嚴重性和閾值等級的組合決定會針對每個類別允許或封鎖影像。

  • 仲裁多模式內容會掃描影像和文字,包括使用光學字元辨識 (OCR) 從影像中擷取的文字。 系統會根據四種類別分析內容:暴力、仇恨言論、性內容和自我傷害。

自訂安全解決方案

  • 自訂類別可讓您透過提供正面和負面範例以及訓練模型,來建立自己的類別。 接著,您可以根據您自己的類別定義來掃描內容。

  • 安全系統訊息可協助您撰寫有效的提示,以引導 AI 系統的行為。

限制

Azure AI 內容安全使用 AI 演算法,因此不一定會偵測不當語言。 有時候,它可能會封鎖可接受的語言,因為它依賴演算法和機器學習來偵測有問題的語言。

在部署之前,應先在實際資料上測試及評估 Azure AI 內容安全。 部署之後,您應該繼續監視系統,以查看其正確性表現。

評估正確性

評估 Azure AI 內容安全針對您的情況有多精確時,請根據四個準則比較其表現:

  • 確判為真:正確識別有害內容。
  • 誤判為真:不正確地識別有害內容。
  • 確判為否:正確識別有害內容。
  • 誤判為否:未識別有害內容。

Azure AI 內容安全最適合支援可解決不正確識別案例的人類仲裁者。 當人員將內容新增至網站時,他們不會預期沒有理由將貼文移除。 與使用者溝通內容為何遭到移除或標示為不當,可協助每個人了解允許的內容以及不允許的內容。