在Microsoft保護人工智慧的未來和機器學習

發行項
01/23/2024

由安德魯·馬歇爾、勞爾·羅賈斯、傑·斯托克斯和唐納德·布林克曼

特別感謝馬克·卡特賴特和格雷厄姆·卡拉丁

執行摘要

人工智慧（AI）和機器學習（ML）已經對人們如何工作、社交和生活產生重大影響。隨著以 AI/ML 為建置的產品和服務使用量增加，必須採取特殊動作，不僅要保護您的客戶及其數據，還能保護您的 AI 和演算法免於濫用、巨魔和擷取。本檔分享了一些Microsoft在 AI 上設計產品和作業線上服務所學到的安全性教訓。雖然很難預測這一領域是如何展開的，但我們的結論是，現在有可行的問題要解決。此外，我們發現科技產業必須超越策略性問題，以確保客戶的長期安全及其數據的安全性。

本檔不是關於 AI 型攻擊，甚至是由人類敵人利用的 AI。相反地，我們專注於Microsoft和產業合作夥伴需要解決的問題，以保護 AI 型產品和服務免受高度複雜、創造性和惡意的攻擊，無論是由個別巨魔或整個狼包執行。

本檔完全著重於 AI/ML 空間特有的安全性工程問題，但由於 InfoSec 網域的廣泛本質，因此據瞭解，此處討論的問題和發現與隱私權和道德領域的程度重疊。由於本文件強調科技產業具有戰略重要性的挑戰，本檔的目標對像是全行業的安全性工程領導階層。

我們的早期發現表明：

需要 AI/ML 特定的樞紐處理現有的安全性做法，才能減輕本文件中討論的安全性問題類型。
機器學習模型基本上無法辨別惡意輸入和良性異常數據。定型數據的重要來源衍生自未壓縮、未修改、公用數據集，這些數據集開放給 3^{個 rd-party} 貢獻。當攻擊者可以自由參與數據集時，就不需要入侵數據集。隨著時間的推移，如果數據結構/格式仍然正確，則低信賴度惡意數據會變成高度信賴信任的數據。
鑒於許多可用於深度學習模型中的隱藏分類器/神經元層，因此對 AI/ML 決策流程和演算法的輸出過於信任，而不需要對這些決策的達成方式有重要瞭解。這種模糊化會造成無法「展示您的工作」，並使得在被質疑時難以證明 AI/ML 結果的辯護。
AI/ML 越來越多地用於支持醫學和其他產業的高價值決策流程，因為錯誤決策可能會導致嚴重傷害或死亡。 AI/ML 中缺乏鑑識報告功能，可防止這些高價值結論在法律法庭和輿論法庭上都站不住腳。

本文件的目標是（1）強調安全性工程問題，這是 AI/ML 空間特有的，（2）浮出一些關於新興威脅的初始想法和觀察，（3）分享潛在補救的早期想法。本檔中的一些挑戰是該行業在未來兩年內需要超越的問題，有些是我們今天被迫解決的問題。若未深入調查本文件涵蓋的區域，我們會透過無法信任或瞭解（並視需要修改）數學層級 [7] 的 AI 決策程式，讓未來的 AI 成為黑匣子。從安全性觀點來看，這實際上意味著失去控制權，並偏離Microsoft人工智慧的指導準則 [3， 7]。

新的安全性工程挑戰

傳統軟體攻擊向量仍然很重要，但無法在 AI/ML 威脅環境中提供足夠的涵蓋範圍。技術產業必須藉由建置新的架構，並採用新的方法來解決 AI/ML 型服務設計和作業的差距，以避免與最後一代解決方案對抗下一代問題：

如以下所述，保護開發和作業基礎在保護 AI 及其控制下的數據時，必須納入 Resilience 和 Discretion 的概念。驗證、職責分離、輸入驗證和阻斷服務風險降低等領域需要 AI 特定的樞紐。如果沒有對這些領域的投資，AI/ML 服務會繼續與所有技能層級的對手進行艱苦的戰鬥。
AI 必須能夠辨識他人中的偏見，而不會在與人類本身的互動中產生偏差。完成這項作業需要對偏見、陳規定型觀念、白話和其他文化結構進行集體和進化的理解。這種理解有助於保護 AI 免受社交工程和數據集竄改攻擊。正確實作的系統實際上會從這類攻擊中變得更強，並能夠與其他 AIS 分享其擴充的理解。
機器學習演演算法必須能夠藉由拒絕對結果產生負面影響的定型數據，從良性“黑天鵝”事件 [1] 辨別惡意導入的數據。否則，學習模型一律容易受到攻擊者和巨魔的遊戲影響。
AI 必須具備內建的鑑識功能。這可讓企業為客戶提供其 AI 的透明度和責任，確保其動作不僅可驗證正確，而且具有法律上可防禦性。這些功能也可作為早期形式的「AI 入侵檢測」，讓工程師判斷分類器做出決策的確切時間點、影響數據的數據，以及數據是否值得信任。此領域的數據視覺效果功能正在快速推進，並顯示承諾，協助工程師找出並解決這些複雜問題的根本原因 [10]。
即使人類無法辨識機密資訊，AI 也必須辨識及保護機密資訊。 AI 中的豐富用戶體驗需要大量的原始數據才能定型，因此客戶必須規劃「過度共用」。

以下將詳細討論這些區域，包括威脅和潛在風險降低。

AI 需要新的樞紐以傳統安全設計/安全作業模型：引進復原和自由裁量權

AI 設計工具必須確保敏感數據的機密性、完整性和可用性、AI 系統沒有已知的弱點，並提供保護、偵測和響應系統或用戶數據的惡意行為控制。

防禦惡意攻擊的傳統方式在此新範例中不提供相同的涵蓋範圍，其中語音/視訊/影像型攻擊可以規避目前的篩選和防禦。必須探索新的威脅模型化層面，以防止新的濫用行為利用我們的 AI。這遠遠超出了透過模糊或輸入操作來識別傳統的攻擊面（這些攻擊也有自己的 AI 專屬樞紐）。它需要納入 AI/ML 空間特有的案例。其中的關鍵是 AI 用戶體驗，例如語音、視訊和手勢。與這些體驗相關聯的威脅尚未經過傳統模型化。例如，影片內容現在已量身打造來引發實體效果。此外，研究表明，音頻型攻擊命令可以製作 [9]。

罪犯、確定對手和巨魔的不可預測性、創造力和惡意性要求我們向 AI 灌輸復原和自由裁量權的價值：

復原： 系統應該能夠識別異常行為，並防止在與 AI 系統和特定工作相關的正常行為界限之外操作或強制運作。這些是 AI/ML 空間特有的新攻擊類型。系統應設計為抵制與社區及其創造者持有的當地法律、道德和價值觀相衝突的輸入。這表示為 AI 提供判斷互動何時「關閉腳本」的功能。這可以使用下列方法達成：

找出偏離類似使用者之各種大型叢集所設定規範的個別使用者，例如，似乎輸入太快、回應太快、不睡覺或觸發其他使用者未設定的系統部分的使用者。
識別已知為惡意意圖探查攻擊指標和網路入侵終止鏈結開始的行為模式。
在多個使用者以協調方式行事時隨時辨識;例如，多個用戶都會發出相同無法解釋但刻意製作的查詢、用戶數目突然激增，或 AI 系統特定部分啟用時突然暴增。

此類型的攻擊應該與阻斷服務攻擊相同，因為 AI 可能需要修正錯誤並重新定型，以免再次採用相同的技巧。至關重要的是，能夠識別存在對策的惡意意圖，例如用來擊敗情感分析 API 的人 [4]。

自由裁量權：AI 應該是其可存取之任何資訊的負責任且值得信任的監管人。身為人類，我們無疑會在 AI 關聯性中指派某種程度的信任。在某些時候，這些代理人員將代表我們與其他代理人或其他人類交談。我們必須能夠相信 AI 系統有足夠的自由裁量權，只以受限的形式共用它需要分享的內容，讓其他代理程式可以代表其完成工作。此外，代表我們與個人資料互動的多個代理程式不應該每個代理程式都需要全域存取。涉及多個 AIS 或 Bot 代理程式的任何數據存取案例，都應該將存取的存留期限製為所需的最低範圍。使用者也應該能夠拒絕數據，並拒絕來自特定公司或地區設定的代理程序驗證，就像網頁瀏覽器允許今天封鎖網站一樣。解決此問題需要對代理程式間驗證和數據存取許可權進行新的思考，例如雲端式使用者驗證投資在雲端運算初期所做的投資。

AI 必須能夠辨識他人中的偏見，而不會自行產生偏見

雖然 AI 應該公平且包容，而不會歧視任何特定群體的個人或有效結果，但它需要先天地瞭解偏見才能達成此目的。如果沒有經過訓練來辨識偏見、巨魔或諷刺，AI 可能會被那些尋求廉價笑聲的人所欺騙，或對最壞的客戶造成傷害。

達到此層級的認知要求「好人教 AI 壞事」，因為它實際上需要對文化偏見進行全面且不斷演進的瞭解。 AI 應該能夠辨識過去與使用者有負面互動，並謹慎行事，類似於父母如何教孩子警惕陌生人。若要解決此問題，最好的方式是仔細將 AI 公開給受控制 / 仲裁 / 有限方式的巨魔。如此一來，AI 就可以瞭解良性使用者「踢輪胎」與實際惡意/巨魔之間的差異。 Trolls 為 AI 提供寶貴的訓練數據串流，使其更能抵禦未來的攻擊。

AI 也應該能夠辨識其定型數據集中的偏差。這可能是文化或地區，包含特定群體使用中的白話，或一組特定興趣的主題/觀點。如同惡意導入的定型數據，AI 必須能夠彈性地應對此數據對其本身推斷和扣減的影響。其核心是一個複雜的輸入驗證問題，與界限檢查相似。緩衝區和界限檢查不是處理緩衝區長度和位移，而是來自各種來源的標幟字組。使用單字的交談歷程記錄和內容也是關鍵。就像深度防禦做法是用來在傳統 Web 服務 API 前端上分層保護一樣，應該在偏差辨識和避免技術中運用多層保護。

機器學習演演算法必須能夠辨別良性「黑天鵝」事件的惡意導入數據

許多白皮書都發表在ML模型/分類器竄改和擷取/竊取服務的理論潛力上，攻擊者可以存取訓練數據集，以及瞭解使用中模型的資訊 [2， 3， 6， 7]。此處的過度封存問題在於，所有 ML 分類器都可以被控制定型集數據的攻擊者所欺騙。攻擊者甚至不需要修改現有定型集數據的能力，他們只需要能夠新增數據，並透過 ML 分類器無法辨別真實異常數據的惡意數據，讓輸入在一段時間內變得「受信任」。

此定型數據供應鏈問題讓我們瞭解「決策完整性」的概念– 在分類器行為產生負面影響之前，識別和拒絕惡意導入的訓練數據或使用者輸入的能力。以下是值得信任的訓練數據產生可信任結果/決策的機率較高的理由。雖然訓練和復原不受信任的數據仍然很重要，但該數據的惡意本質應該先加以分析，再成為定型數據高度信賴主體的一部分。如果沒有這類措施，AI 可能會強制過度回應向合法使用者提供巨魔和拒絕服務。

這是特別關心的是，未監督式學習演算法會針對未壓縮或未受信任的數據集進行定型。這表示攻擊者可以引入任何想要的數據，前提是格式有效，且演算法經過訓練，有效地信任該數據點與定型集的其餘部分相同。使用來自攻擊者的足夠精心製作的輸入，定型演算法會失去從高信賴度數據辨別雜訊和異常的能力。

作為此威脅的範例，想像一下世界各地的停止標誌資料庫，以每種語言顯示。由於涉及的影像和語言數量，這非常具有挑戰性。在自動駕駛汽車不再辨識停止標誌之前，對該數據集的惡意貢獻基本上不會被忽視。數據復原和決策完整性風險降低必須在這裡攜手合作，以識別並消除惡意數據所造成的定型損害，以防止它成為學習模型的核心部分。

AI 必須具有內建的鑑識和安全性記錄，以提供透明度和責任

AI 最終將能夠代表我們以代理人員的專業能力行事，協助我們做出高影響力的決策。其中一個範例可能是可協助處理財務交易的 AI。如果 AI 被惡意探索，並以某種方式操作交易，則後果可能從個人到系統性不等。在高價值案例中，AI 需要適當的鑑識和安全性記錄，以提供完整性、透明度、責任，以及在某些情況下，可能會產生民事或刑事責任的證據。

基本 AI 服務需要演算法層級的稽核 / 事件追蹤設施，讓開發人員可以檢查特定分類器的記錄狀態，這可能會導致決策不正確。需要這項功能，才能證明每當被質疑時，AI 產生的決策的正確性和透明度。

事件追蹤設施可以從基本決策資訊的相互關聯開始，例如：

發生最後一個定型事件的時間範圍
最近定型數據集項目的時間戳
用來達成高影響決策的關鍵分類器的權數和信賴等級
決策所涉及的分類器或元件
演演算法達成的最終高價值決策

對於大部分演算法輔助決策而言，這類追蹤會過度完成。不過，能夠識別導致特定結果的數據點和演算法元數據，在高價值決策制定方面有很大的好處。這類功能不僅透過演算法「顯示其工作」的能力來示範可信度和完整性，而且此數據也可用於微調。

AI/ML 所需的另一個鑑識功能是竄改偵測。就像我們需要我們的 AIS 來辨識偏差，而不是容易受到偏見一樣，我們應該具備鑑識功能，以協助工程師偵測和回應這類攻擊。當與數據視覺效果技術 [10] 配對時，這類鑑識功能具有巨大的價值，可讓演算法進行稽核、偵錯和微調，以獲得更有效的結果。

AI 必須保護敏感性資訊，即使人類不這麼做

豐富的體驗需要豐富的數據。人類已經自願投入大量數據，讓 ML 進行訓練。這範圍從平凡的視訊串流佇列內容到用來偵測詐騙的信用卡購買/交易歷程記錄的趨勢。 AI 在處理用戶數據時，應該有根深蒂固的自由裁量權感，一律採取行動來保護它，即使自願由過度共享的公眾。

因為 AI 可以有一組經過驗證的「對等」，才能完成複雜的工作，因此也必須辨識其與這些對等共用的數據的需求。

解決 AI 安全性問題的早期觀察

儘管這個專案處於新階段狀態，但我們相信迄今為止編譯的證據顯示，對下列每個領域進行更深入的調查，是推動我們的產業走向更值得信任且更安全的 AI/ML 產品/服務的關鍵。以下是我們的早期觀察和想法，我們希望在這個空間中看到的所作所為。

可以建立 AI/ML 導向的滲透測試和安全性檢閱機構，以確保我們未來的 AI 共用我們的價值，並符合 Asilomar AI 準則。
1. 這類群組也可以開發可全產業取用的工具和架構，以支援保護其 AI/ML 型服務。
2. 隨著時間的推移，這種專業知識將有機地建立在工程群組內，就像過去10年來傳統安全性專業知識一樣。
可開發訓練，讓企業能夠實現如 AI 大眾化等目標，同時減輕本檔所討論的挑戰。
1. AI 特定的安全性訓練可確保工程師知道其 AI 和其可處置的資源所構成的風險。此數據必須透過目前關於保護客戶數據的訓練來提供。
2. 這可以完成，而不需要讓每個數據科學家成為安全性專家，而是將焦點放在將復原和自由裁量權教育為適用於其 AI 使用案例的開發人員上。
3. 開發人員必須瞭解在整個企業中重複使用的 AI 服務的安全「建置組塊」。需要強調具有子系統的容錯設計，這很容易關閉（例如，影像處理器、文字剖析器）。
ML 分類器及其基礎演算法可以強化並能夠偵測惡意定型數據，而不會污染目前使用中的有效定型數據或扭曲結果。
1. 拒絕負輸入 [5] 等技術需要研究人員周期進行調查。
2. 這項工作涉及數學驗證、程序代碼中的概念證明，以及針對惡意和良性異常數據進行測試。
3. 在這裡，人類抽查/仲裁可能很有説明，特別是在統計異常存在的地方。
4. 可以建立「監督員分類器」，以更普遍地瞭解多個 AIS 之間的威脅。這可大幅改善系統的安全性，因為攻擊者無法再外洩任何特定模型。
5. AIS 可以連結在一起，以識別彼此系統中的威脅
可以建置集中式 ML 稽核/鑑識連結庫，以建立 AI 透明度和可信度的標準。
1. 您也可以建置查詢功能，以稽核和重建 AI 對高業務影響決策的決策。
跨不同文化群體和社交媒體的敵人使用白話，可以持續清查和分析 AI，以偵測和回應巨魔、諷刺等。
1. 面對各種白話，無論是技術、區域還是論壇特定，AIS 都需要有彈性。
2. 此知識主體也可用於內容篩選/卷標/封鎖自動化，以解決仲裁者延展性問題。
3. 此全域詞彙資料庫可以裝載於開發連結庫中，甚至可透過雲端服務 API 公開，以供不同的 AIS 重複使用，確保新的 AIS 受益於舊版的結合智慧。
可以建立「機器學習模糊架構」，讓工程師能夠將各種類型的攻擊插入測試訓練集，以供 AI 評估。
1. 這不僅可以專注於文字白話，還可以關注這些數據類型的影像、語音和手勢數據和排列。

結論

Asilomar AI 準則說明以持續造福人類的方式提供 AI 的複雜性。未來的 AIS 必須與其他 AIS 互動，以提供豐富且吸引人的用戶體驗。這表示從安全性觀點來看，Microsoft「讓 AI 正確」並不夠好，世界必須如此。我們需要產業一致和合作，以更能見度的方式，以類似於我們全球推動數位日內瓦公約 [8] 的方式提出的問題。藉由解決此處所呈現的問題，我們可以開始引導我們的客戶和產業合作夥伴走上真正民主化並增強全人類智慧的道路。

參考書目

[1] 塔萊布，納西姆尼古拉斯（2007）， 黑天鵝：高度不可能的影響，隨機房子， ISBN 978-1400063512

[2] Florian Tramèr、Fan Zhang、Ari Juels、Michael K. Reiter、Thomas Ristenpart、透過預測 API 竊取機器學習模型

[3] 薩蒂亞·納德拉：未來夥伴關係

[4] Claburn、Thomas：谷歌的巨魔摧毀 AI 無法應付錯字

[5] Marco Barreno、Blaine Nelson、Anthony D. Joseph、J.D. Tygar：機器學習的安全性

[6] 沃爾喬弗，娜塔莉：這個人工智慧先驅有幾個顧慮

[7] Conn，Ariel：我們如何將人工智慧與人類價值觀保持一致？

[8] 史密斯，布拉德：需要緊急集體行動，以確保人們安全在線：從上周的網路攻擊中吸取教訓

[9] 尼古拉斯·卡利尼、普拉蒂烏什·米什拉、塔維迪亞、元凱張、米卡·舍爾、克萊盾牌、大衛·瓦格納、溫喬周：隱藏的聲音命令

[10] 費爾南達·維加斯、馬丁·瓦滕貝格、丹尼爾·斯米爾科夫、詹姆斯·韋克斯勒、吉姆博·威爾遜、尼克爾·索拉特、查理斯·尼科爾森、谷歌研究：大局

共用方式為

在Microsoft保護人工智慧的未來和機器學習

執行摘要

新的安全性工程挑戰

AI 需要新的樞紐以傳統安全設計/安全作業模型：引進復原和自由裁量權

AI 必須能夠辨識他人中的偏見，而不會自行產生偏見

機器學習演演算法必須能夠辨別良性「黑天鵝」事件的惡意導入數據

AI 必須具有內建的鑑識和安全性記錄，以提供透明度和責任

AI 必須保護敏感性資訊，即使人類不這麼做

解決 AI 安全性問題的早期觀察

結論

參考書目

意見反應

其他資源

共用方式為

在Microsoft保護人工智慧的未來和 機器學習

執行摘要

新的安全性工程挑戰

AI 需要新的樞紐以傳統安全設計/安全作業模型：引進復原和自由裁量權

AI 必須能夠辨識他人中的偏見，而不會自行產生偏見

機器學習 演演算法必須能夠辨別良性「黑天鵝」事件的惡意導入數據

AI 必須具有內建的鑑識和安全性記錄，以提供透明度和責任

AI 必須保護敏感性資訊，即使人類不這麼做

解決 AI 安全性問題的早期觀察

結論

參考書目

意見反應

其他資源

在Microsoft保護人工智慧的未來和機器學習

機器學習演演算法必須能夠辨別良性「黑天鵝」事件的惡意導入數據