生成 AI アプリケーションの評価
重要
この記事で "(プレビュー)" と付記されている項目は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。
人工知能が急速に進化している状況において、GenAIOps (Generative AI Operations) の統合によって組織が AI アプリケーションを開発してデプロイする方法が変わります。 企業が意思決定の強化、カスタマー エクスペリエンスの向上、イノベーションの推進のために AI にますます依存するようになるにつれ、堅牢な評価フレームワークの重要性はどれだけ強調しても足りないくらいです。 評価は、AI 中心のアプリケーションに対する信頼と信用を構築するための生成 AI ライフサイクルの重要な要素です。 慎重に設計されていない場合、これらのアプリケーションは、捏造された、コンテキストに基づかない、無関係または一貫性のない出力を生成する可能性があり、その結果、カスタマー エクスペリエンスが低下したり、さらに悪いことに、社会的な固定観念を定着させたり、誤った情報を広めたり、組織を悪意のある攻撃にさらしたり、他にもさまざまな悪影響が生じる可能性があります。
エバリュエータは、AI 応答におけるコンテンツ リスクまたは望ましくない動作の頻度と重大度を評価するのに役立つツールです。 適切なエバリュエータを使用して反復的で体系的な評価を実行すると、最初のモデルの選択から運用後の監視まで、チームが AI 開発ライフサイクル全体で応答品質、安全性、またはセキュリティ上の潜在的な懸念を測定し、対処するのに役立ちます。 GenAI Ops ライフサイクル運用環境内での評価。
各段階で効果的な評価戦略を理解して実装することで、組織は AI ソリューションが当初の期待を満たすだけでなく、実際の環境に適応して成功することを保証できます。 AI ライフサイクルの 3 つの重要な段階に評価がどのように適合するかを詳しく見てみましょう
基本モデルの選択
AI ライフサイクルの最初の段階では、適切な基本モデルを選択します。 生成 AI モデルは、機能、長所、制限の点で大きく異なるため、特定のユース ケースに最も適したモデルを特定することが重要です。 基本モデルの評価中は、アプリケーションに関連する一連の基準に対して出力をテストし、さまざまなモデルを比較検討します。
この段階での主な考慮事項は次のとおりです。
- 正確性と品質: モデルは、関連性と一貫性のある応答をどの程度適切に生成しますか?
- 特定のタスクのパフォーマンス: モデルは、ユース ケースに必要な種類のプロンプトとコンテンツを処理できますか? 待ち時間とコストはどうですか?
- バイアスと倫理的な考慮事項: モデルは、有害なステレオタイプを定着させる、または促進する可能性のある出力を生成しますか?
- リスクと安全性: モデルが安全でないコンテンツや悪意のあるコンテンツを生成するリスクはありますか?
Azure AI Foundry のベンチマークを調べて、公開されているデータセットでモデルを評価および比較できます。また、独自のデータでベンチマーク結果を生成し直すこともできます。 あるいは、Azure AI 評価 SDK を使用して、多数の生成 AI 基本モデルのどれかを評価することもできます。モデル エンドポイント評価のサンプルを参照してください。
運用前の評価
ベース モデルを選択した後、次の手順は、AI アプリケーション (AI を利用したチャットボット、検索拡張生成 (RAG) アプリケーション、エージェント型 AI アプリケーション、その他の生成 AI ツールなど) を開発することです。 開発に続いて運用前の評価が始まります。 運用環境にアプリケーションをデプロイする前に、モデルが実際に使用できる状態であることを確認するために、厳格なテストが不可欠です。
運用前の評価には、次のことが含まれます。
- 評価データセットを使用したテスト: これらのデータセットで現実的なユーザー操作をシミュレートして、AI アプリケーションが期待どおりに動作することを確認します。
- エッジ ケースの特定: AI アプリケーションの応答品質が低下したり、望ましくない出力が生成されたりする可能性があるシナリオを見つけます。
- 堅牢性の評価: 品質や安全性が大幅に低下することなく、モデルがさまざまな入力バリエーションを処理できることを確認します。
- 主要メトリックの測定: 応答の根拠性、関連性、安全性などのメトリックを評価して、運用に向けての準備状況を確認します。
運用前の段階は最終的な品質チェックとして機能し、目的とするパフォーマンスや安全基準を満たしていない AI アプリケーションがデプロイされるリスクを軽減します。
- 独自のデータを持ち込む: 独自の評価データを使用して、Azure AI Foundry または Azure AI 評価 SDK でサポートされている生成品質、安全性のエバリュエータやカスタム エバリュエータで運用前の AI アプリケーションを評価し、Azure AI Foundry ポータルを使用して結果を確認できます。
- シミュレーター: 評価データ (テスト データ) を持っていない場合、Azure AI 評価 SDK のシミュレーターは、トピック関連または敵対的クエリの生成に役立ちます。 これらのシミュレーターは、状況に適したクエリまたは攻撃に似たクエリ (エッジ ケース) に対するモデルの応答をテストします。
- 敵対的シミュレーターは、潜在的なセキュリティ上の脅威を模倣するクエリやジェイルブレイクを試みるクエリを注入して、予期しない状況に対しての限界を特定し、それらに備えてモデルを準備するのに役立ちます。
- コンテキストに適したシミュレーターは、ユーザーから予想される一般的な関連性のある会話を生成し、応答の品質をテストします。
または、Azure AI Foundry の評価ウィジェットを使用して生成 AI アプリケーションをテストすることもできます。
満足できる結果が得られたら、AI アプリケーションを運用環境にデプロイできます。
運用後の監視
デプロイ後、AI アプリケーションは運用後の評価フェーズ (オンライン評価または監視とも呼ばれる) に入ります。 この段階では、モデルは実際の製品内に埋め込まれており、実際のユーザー クエリに応答します。 監視によって、モデルが継続して期待どおりに動作し、ユーザーの行動やコンテンツの変化に適応することを確認します。
- 継続的なパフォーマンス追跡: 主要なメトリックを使用して AI アプリケーションの応答を定期的に測定し、一貫した出力品質を確保します。
- インシデント対応: 実際の使用中に発生する可能性のある有害、不公平、または不適切な出力に迅速に対応します。
運用中に AI アプリケーションの動作を継続的に監視することで、高品質なユーザー エクスペリエンスを維持し、発生した問題があれば迅速に対処できます。
まとめ
GenAIOps は、生成 AI アプリケーションをライフサイクル全体にわたって管理するための信頼性が高く反復可能なプロセスを確立することを目的としています。 評価は、基本モデルの選択から運用前テスト、運用後の継続的な監視まで、各段階で重要な役割を果たします。 チームは各ステップでリスクを体系的に測定して対処し、AI システムを改良することで、強力であるだけでなく実環境での使用に対しても信頼できる、安全な生成 AI ソリューションを構築できます。
チート シート:
目的 | プロセス | パラメーター |
---|---|---|
何について評価しますか? | 関連するエバリュエータを特定または構築する | - 品質とパフォーマンス (品質とパフォーマンスのサンプル ノートブック) - 安全とセキュリティ (安全とセキュリティのサンプル ノートブック) - カスタム (カスタム サンプル ノートブック) |
どのようなデータを使用する必要がありますか? | 関連するデータセットをアップロードまたは生成する | 品質とパフォーマンスを測定するための汎用シミュレーター (汎用シミュレーターのサンプル ノートブック) - 安全とセキュリティを測定するための敵対的シミュレーター (敵対的シミュレーターのサンプル ノートブック) |
評価を実施する必要があるリソースは何ですか? | 評価の実行 | - ローカル実行 - リモート クラウド実行 |
モデルまたはアプリのパフォーマンスはどうでしたか? | 分析結果 | 集計スコアの表示、詳細の表示、スコアの詳細、評価実行の比較 |
どのように改善できますか? | モデル、アプリ、またはエバリュエータに変更を加える | - 評価結果が人間のフィードバックに合わない場合は、エバリュエータを調整します。 - 評価結果が人間のフィードバックに合っていたが、品質または安全性のしきい値を満たしていない場合は、対象を絞った軽減策を適用します。 |