個人化工具的特性和限制
重要
從 2023 年 9 月 20 日起,您將無法建立新的個人化工具資源。 個人化工具服務將於 2026 年 10 月 1 日淘汰。
Azure AI 個人化工具可在許多情節下運作。 若要了解您可以套用個人化工具的地方,請確定您的情節需求符合個人化工具的運作預期。 若要了解是否應該使用個人化工具,以及如何將其整合到您的應用程式中,請參閱個人化工具的使用案例。 您可以針對個人化工具的使用,找到選擇使用案例、設計功能和回報函式的準則和指引。
閱讀本文之前,建議您先了解一些個人化工具運作方式的背景資訊。
選取個人化工具的功能
要將內容個人化,必須要有關於內容和使用者的實用資訊。 就某些應用程式和產業而言,部分使用者功能可能會被直接或間接視為歧視性或非法特性。 請參閱個人化工具整合和負責使用指導方針,評估要與個人化工具搭配使用的功能。
計算個人化工具的回報
個人化工具會根據您的應用程式商務邏輯所提供的回報分數,學習改善動作選擇。 建置完善的回報分數將做為商務目標的短期 Proxy,並繫結至組織的任務。 例如,回報點擊率將使個人化工具積極追求點擊率,而犧牲掉其他一切,即使點擊的項目與使用者或商務成果無關,仍是如此。 相反地,新聞網站可能會想要設定比點擊率更有意義的相關回報,例如「使用者是否真正花時間閱讀內容?」或「使用者是否點擊了相關文章或參考資料?」透過個人化工具,計量將可輕易地密切繫結至回報。 不過,您必須小心,請勿將短期的使用者參與和所需的結果混為一談。
回報分數的非預期結果
即使依據良好立意來建置回報分數,仍可能因為個人化工具對內容的排名方式,產生非預期的後果或意外的結果。
請參考下列範例:
- 依據觀看影片長度的百分比來回報影片內容的個人化工具,可能會使短影片的排名高於長影片。
- 回報社交媒體分享,而不針對分享方式或內容本身進行情感分析,可能會導致冒犯性、未經審核或煽動性的內容獲得較高排名。 這種類型的內容通常能引起大量參與,但極易造成損害。
- 針對使用者不希望改變的使用者介面元素動作進行回報,可能會干擾使用者介面的可用性和可預測性。 例如,變更位置或用途而沒有警告的按鈕可能會讓某些使用者群組難以保持生產力。
請實作下列最佳做法:
- 使用不同的回報方法,對您的系統執行離線實驗,了解相關影響和副作用。
- 評估您的回報函式,自問無關人士可能如何變更解譯,進而導致意外或不想要的結果。
- 封存個人化工具用來運作的資訊和資產,例如模型、學習原則和其他資料,好使結果得以重現。
了解並改善效能的一般指導方針
由於個人化工具是以增強式學習為基礎,並從回報中學習以逐漸做出更好的選擇,因此效能不會以分類器中使用的傳統受監督學習詞彙來衡量,例如精確度和重新叫用。 個人化工具的效能會直接透過回報 API,從您的應用程式收到的回報分數總和進行測量。
當您使用個人化工具時,Azure 入口網站中的產品使用者介面會提供效能資訊,供您監視並採取行動。 效能可以透過下列方式來查看:
我們建議您經常進行離線評估,以保持監督。 這有助於您監視趨勢並確定有效性。 例如,如果回報效能下降,您可以決定暫時將個人化工具置於「新手模式」中。
離線評估中顯示的個人化工具效能估計值:限制
我們會將個人化工具的「效能」定義為在使用期間獲得的回報總計。 離線評估中顯示的個人化工具效能估計值是經計算而得,而非測量。 了解這些估計值的限制是很重要的:
- 估計值是以過去的資料為基礎,因此未來效能可能會隨著世界和使用者變更而有所不同。
- 基準效能的估計值是以概率的方式計算。 基於此原因,基準平均回報的信賴範圍很重要。 預估值的精確度會隨事件增加而提升。 如果您在每個排名呼叫中使用較少的動作數目,效能估計值的信賴度可能增加,因為個人化工具可能會為每個事件選擇其中任何一個動作 (包括基準動作)。
- 個人化工具會以近乎即時的方式定型模型,以改善針對每個事件選擇的動作,因此會影響取得的回報總計。 模型效能會隨著時間而有所不同,依最近的定型資料而定。
- 探索和動作選擇是由個人化工具模型引導的隨機處理程序。 用於這些隨機流程的隨機數會從事件識別碼植入。若要確保探索惡意探索和其他隨機處理程式的重現性,請使用相同的事件識別碼。
- 線上效能可能會受到探索的限制。 降低探索設定會限制收集的資訊量,以掌握不斷變化的趨勢和使用模式,因此平衡取決於每個使用案例。 某些使用案例需要從較高的探索設定開始,之後再逐漸減少 (例如從 30% 開始,逐漸減少至 10%)。
檢查可能不小心會對個人化工具產生偏差的現有模型
您的應用程式可以使用現有的建議、客戶分類和屬性模型輸出,做為個人化工具的輸入。 個人化工具會學習捨棄未參與回報的功能。 檢閱並評估任何傾向模型,判斷是否適合預測回報,並包含可能產生危害副作用的強烈偏差。 例如,尋找可能以有害刻板印象為基礎的建議。 請考慮使用 FairLearn 之類的工具來輔助此流程。
專案生命週期內的主動評量
考慮為小組成員、使用者和企業擁有者建立適當方法,以便回報與負責的使用有關的問題,以及優先實施解決方案的流程。 請考慮將負責使用的工作視為應用程式生命週期中的其他跨領域工作,例如與使用者體驗、安全性或 DevOps 相關的工作。 與負責使用相關的工作及其需求不應該在事後才考量。 在整個應用程式生命週期內都必須討論並實作負責的使用。