Personalizer の特性と制限
重要
2023 年 9 月 20 日以降は、新しい Personalizer リソースを作成できなくなります。 Personalizer サービスは、2026 年 10 月 1 日に廃止されます。
Azure AI Personalizer は、多くのシナリオで機能します。 Personalizer を適用できる状況であるかどうかを知るには、自身のシナリオの要件が、Personalizer が機能するための想定を満たしているかどうかを確認します。 Personalizer を使用する必要があるかどうか、また Personalizer をアプリケーションに統合するにはどうすればよいかを理解するには、Personalizer のユース ケースを参照してください。 Personalizer を使用するためのユース ケースの選択、特徴の設計、報酬関数について基準とガイダンスを確認できます。
この記事を読む前に、Personalizer のしくみについて多少の背景情報を理解しておくことをお勧めします。
Personalizer に使用する特徴の選択
コンテンツのパーソナル化は、コンテンツとユーザーに関する有用な情報を持っていることに依存します。 アプリケーションおよび業種によっては、ユーザーの特徴の一部が直接的または間接的に差別的であると見なされる場合があり、違法となる可能性があることに注意してください。 Personalizer で使用する機能の評価については、Personalizer の統合と責任ある使用のためのガイドラインを参照してください。
Personalizer のリワードの計算
Personalizer では、アプリケーションのビジネス ロジックによって提供される報酬スコアに基づいて、アクションの選択を改善する方法を習得します。 適切に作成された報酬スコアは、組織の使命に結び付いたビジネス目標の短期的な代替目標としての機能を果たします。 たとえば、クリックに対して報酬を与えると、クリックされたものがユーザーの妨げになったり、ビジネス上の成果に結び付かなかったりしても、Personalizer は他のすべてを犠牲にしてクリックを探すようになります。 対照的に、ニュース サイトでは、クリック数よりも意味のあるもの (たとえば "ユーザーはコンテンツを読むのに十分な時間を費やしたか?"、"関連する記事や参考文献をクリックしたか?") に結び付けられた報酬を設定することが必要な場合があります。Personalizer を使用すると、簡単にメトリックと報酬を密接に結び付けることができます。 ただし、短期間のユーザー エンゲージメントと望ましい結果を混同しないように注意する必要があります。
リワード スコアによる意図しない結果
報酬スコアは、最善の意図で構築しても、Personalizer によるコンテンツのランク付け方法のために、予期しない結果や意図しない結果をもたらす可能性があります。
次に例を示します。
- 視聴されたビデオの長さのパーセンテージに基づいたビデオ コンテンツのパーソナル化に報酬を与える場合、おそらく短いビデオの方が長いビデオよりも上位にランク付けされる傾向があります。
- ソーシャル メディアの共有に報酬を与える場合、共有方法やコンテンツ自体の感情分析がなければ、不快なコンテンツ、監視されていないコンテンツ、または扇動的なコンテンツのランク付けにつながる危険性があります。 この種のコンテンツは、多くのエンゲージメントを引き出す傾向にありますが、多くの場合、有害です。
- ユーザーが変更を期待していないユーザー インターフェイス要素に対するアクションに報酬を与えると、ユーザー インターフェイスの使いやすさや予測可能性の妨げになる可能性があります。 たとえば、ボタンの位置や目的が警告なしに変更されると、特定のユーザー グループにとって生産性を維持することが難しくなる場合があります。
これらのベスト プラクティスを実装します。
- 影響と副作用を理解するために、さまざまな報酬方法を使用して、お使いのシステムでオフライン実験を実行します。
- 報酬関数を評価し、何も知らない人がどのようにして違う解釈をして意図しない、または望ましくない結果をもたらす可能性があるかを自問します。
- Personalizer が機能するために使用する情報や資産 (モデル、学習ポリシー、その他のデータなど) をアーカイブして、結果を再現できるようにします。
パフォーマンスを把握して向上させるための一般的なガイドライン
Personalizer は、強化学習に基づいており、報酬から学習して徐々に選択を改善していくため、パフォーマンスは、適合率や再現率などの分類子で使用される従来の教師あり学習用語では測定されません。 Personalizer のパフォーマンスは、報酬 API を介してアプリケーションから受け取る報酬スコアの合計としてそのまま測定されます。
Personalizer を使用する場合、Azure portal の製品ユーザー インターフェイスでパフォーマンス情報が提供されるため、それを監視して対応することができます。 パフォーマンスは、次の方法で確認できます。
- Personalizer がオンライン学習モードの場合、オフライン評価を実行できます。
- Personalizer が徒弟モードの場合、Azure portal の [評価] ウィンドウにパフォーマンス メトリック (イベント模倣および報酬模倣) が表示されます。
監視を維持するために、オフライン評価を頻繁に行うことをお勧めします。 このタスクは、傾向を監視して、有効性を確保するのに役立ちます。 たとえば、報酬パフォーマンスが低下した場合、Personalizer を一時的に徒弟モードにすることを決定できます。
オフライン評価に示される Personalizer の推定パフォーマンス: 制限事項
Personalizer のパフォーマンスを、使用中に取得する報酬の合計として定義します。 オフライン評価に示される Personalizer の推定パフォーマンスは、測定されるのではなく計算されます。 これらの推定値の制限を理解することが重要です。
- 推定値は、過去のデータに基づくため、将来のパフォーマンスは、世界やユーザーの変化に応じて変動する可能性があります。
- ベースライン パフォーマンスの推定値は確立的に計算されます。 このため、ベースライン平均報酬の信頼帯は重要です。 推定値は、イベントが多いほど精度が高まります。 各 Rank 呼び出しで使用するアクションの数が少ない場合、Personalizer はすべてのイベントにそれらのいずれか (ベースライン アクションを含む) を選択する可能性が高くなるため、パフォーマンスの推定値の信頼度が高まります。
- Personalizer は常にほぼリアルタイムでモデルのトレーニングを行い、各イベントに対して選択するアクセションを改善します。その結果、取得される報酬の合計に影響を与えます。 モデルのパフォーマンスは、直近のトレーニング用データに応じて、時間の経過と共に変動します。
- 探索とアクションの選択は、Personalizer モデルによって導かれる確率的プロセスです。 これらの確率的プロセスに使用される乱数は、イベント ID を基に生成されます。探索とエクスプロイト、およびその他の確率的プロセスの再現性を確保するために、同じイベント ID を使用します。
- オンライン パフォーマンスは、探索によって制限される場合があります。 探索の設定を下げると、変化する傾向と使用パターンを常に把握しておくために収集される情報量が制限されるため、バランスは各ユース ケースによって異なります。 一部のユース ケースでは、高い探索設定から始めて、徐々に削減していく (たとえば、30% から始めて 10% まで削減する) ことによって効果が得られます。
既存モデルが誤って Personalizer のバイアスを招く可能性がないかどうかを確認する
アプリケーションでは、既存のレコメンデーション、顧客のセグメント化、傾向モデルの出力を、Personalizer への入力として使用できます。 Personalizer は、報酬に貢献しない特徴は無視することを学習します。 傾向モデルを確認および評価して、それらが報酬の予測に適しているかどうか、副作用として害を生じる可能性がある強力なバイアスが含まれていないかどうかを判断します。 たとえば、有害な固定概念に基づいている可能性があるレコメンデーションを探します。 このプロセスを容易にするために、FairLearn などのツールの使用を検討します。
プロジェクト ライフサイクル中のプロアクティブな評価
チームメンバー、ユーザー、および事業主が、責任ある使用に関する懸念と、それらの解決を優先するプロセスについて報告するためのメソッドを作成することを検討します。 責任ある使用に関するタスクを、アプリケーションのライフサイクルにおける他の分野横断的なタスク (ユーザー エクスペリエンス、セキュリティ、DevOps に関連するタスクなど) とまったく同じように処理することを検討します。 責任ある使用に関連するタスクとその要件は、後から付け足すものではありません。 責任ある使用については、アプリケーションのライフサイクル全体で話し合い、実装する必要があります。