ステップ 6. AI エージェントで品質修正を行って評価する
この記事では、根本原因分析に基づいて生成 AI エージェントの品質修正を反復処理して評価する手順について説明します。
AI エージェントの評価の詳細については、「 モザイク AI エージェントの評価とは」を参照してください。
要件
- 根本原因分析に基づいて、取得または生成のいずれかに対する潜在的な修正を特定し、実装して評価します。
- POC アプリケーション (または別のベースライン チェーン) は MLflow 実行にログされ、同じ実行内にエージェント評価の評価が保存されます。
このセクションのサンプル コードは GitHub リポジトリを参照してください。
エージェント評価での期待される結果
上の図は、MLflow のエージェント評価出力を示しています。
AI エージェントを修正、評価、反復処理する方法
すべての種類について、B_quality_iteration/02_evaluate_fixes ノートブックを使用して、結果のチェーンとベースライン構成、POC を評価し、"勝者" を選びます。 このノートブックは、優れた実験を選び、それをレビュー アプリまたは実稼働対応のスケーラブルな REST API にデプロイするのに役立ちます。
- Azure Databricks で、 B_quality_iteration/02_evaluate_fixes ノートブックを開きます。
- 実装している修正の種類に応じて、次を行います。
- データ パイプラインの修正の場合:
- 「ステップ 6 (パイプライン). データ パイプライン修正を実装する」に従って、新しいデータ パイプラインを作成し、結果の MLflow 実行の名前を取得します。
- 実行名を
DATA_PIPELINE_FIXES_RUN_NAMES
変数に追加します。
- チェーン構成の修正の場合:
- チェーン コードの修正の場合:
- 変更したチェーン コード ファイルを作成し、それを B_quality_iteration/chain_code_fixes フォルダーに保存します。 または、そのフォルダーから提供されているチェーン コード修正の 1 つを選びます。
Chain code
ノートブックの セクションの手順に従って、チェーン コード ファイルと、CHAIN_CODE_FIXES
変数に必要な追加のチェーン構成を追加します。
- データ パイプラインの修正の場合:
Run evaluation
セルからノートブックを実行すると、次のことが起こります。- 各修正を評価します。
- 最適な品質/コスト/待機時間のメトリックを使用して修正を決定します。
- 最適なものをレビュー アプリと実稼働対応の REST API にデプロイして、関係者のフィードバックを取得します。