識別潛在危害

已完成

負責的生成式 AI 第一個階段是識別可能會影響您規劃解決方案的潛在危害。 此階段中有四個步驟,如下所示:

圖表顯示識別、優先處理、測試及共用潛在危害的步驟。

  1. 識別潛在危害
  2. 優先處理已識別的危害
  3. 測試並確認已優先處理的危害
  4. 記錄並共用已驗證的危害

1:識別潛在危害

與生成式 AI 解決方案相關的潛在危害取決於多個因素,包括用來產生輸出的特定服務和模型,以及用來自訂輸出的任何微調或基礎資料。 在生成式 AI 解決方案中的一些潛在危害類型包括:

  • 產生冒犯性、貶抑性或歧視性的內容。
  • 產生包含與事實違背的內容。
  • 產生鼓勵或支持不合法或非道德行為或做法的內容。

若要完整了解解決方案中服務和模型的已知限制和行為,請參閱可用的文件。 例如,Azure OpenAI 服務包含透明度資訊;您可以用來了解與服務及其所包含模型相關的特定考量。 此外,個別模型開發人員可能會提供文件,例如 GPT-4 模型的 OpenAI 系統卡片

請考慮檢閱 Microsoft 負責任 AI 影響評估指南中的指引,並使用相關聯的負責任 AI 影響評估範本來記錄潛在的危害。

檢閱 您用來協助識別潛在危害的資源資訊和指導方針

2:優先處理危害

針對您所識別的每個潛在危害,請評估其發生的可能性,以及在發生時所產生的影響層級。 然後使用這項資訊來優先處理最可能且最具影響力的危害。 此優先處理可讓您專注於尋找並減輕解決方案中最有害的風險。

優先處理必須考量解決方案的預期用途,以及誤用的可能性,且可能會很主觀。 例如,假設您正在開發智慧型廚房副手,來為主廚和新手廚師提供配方協助。 潛在危害可能包括:

  • 解決方案提供不正確的烹飪時間,造成可能導致生病的未充分加熱食物。
  • 出現提示時,解決方案會提供可能從日常食材製造而成的有害毒物。

雖然這兩個結果都不理想,但您可能會決定解決方案可能有助產生有害毒物,其影響高於可能產生未充分加熱食物的可能性。 不過,假設解決方案的核心使用案例中,您可能也假設所建議不正確烹煮時間的頻率,可能遠高於明確要求有害配方的使用者數目。 最終的優先處理判斷是開發小組的討論主題,其中牽涉到諮詢原則或法律專業人員,以便充分優先處理。

3:測試並確認是否有危害

現在您已擁有優先處理的清單,可以測試解決方案來確認發生危害;以及若發生危害,則是在哪些情況下。 您的測試可能也會顯示您先前所無法識別而可新增至清單的危害。

測試軟體解決方案中潛在危害或弱點的常見方法,是使用「紅隊演練」測試,測試人員小組會在其中刻意探查解決方案是否有弱點,並嘗試產生有害的結果。 先前所討論智慧型廚房副手解決方案的範例測試可能包括要求有害配方或快速配方,其中包含應該徹底加熱的成分。 應記錄並檢閱紅隊演練的成功,以協助判斷使用解決方案時,發生有害輸出的實際可能性。

注意

紅隊演練是一種策略,通常用來尋找安全性弱點,或其他可能危害軟體解決方案完整性的弱點。 藉由擴充這種方法來尋找生成式 AI 中的有害內容,您可以實作建置並補充現有網路安全性做法的負責任 AI 程序。

若要深入了解生成式 AI 的紅隊演練解決方案,請參閱 Azure OpenAI 服務文件中的紅隊演練大型語言模型 (LLM) 簡介

4:記錄及分享危害的詳細資料

當您收集證據以佐證解決方案中有潛在危害時,請記錄詳細資料,並與利害關係人共用。 然後,應維護優先處理的危害清單,並在識別新的危害時加以新增。