次の方法で共有


ステップ 6. AI エージェントで品質修正を行って評価する

この記事では、根本原因分析に基づいて生成 AI エージェントの品質修正を反復処理して評価する手順について説明します。

POC ワークフロー図、繰り返し手順

AI エージェントの評価の詳細については、「 モザイク AI エージェントの評価とは」を参照してください。

要件

  1. 根本原因分析に基づいて、取得または生成のいずれかに対する潜在的な修正を特定し、実装して評価します。
  2. POC アプリケーション (または別のベースライン チェーン) は MLflow 実行にログされ、同じ実行内にエージェント評価の評価が保存されます。

このセクションのサンプル コードは GitHub リポジトリを参照してください。

エージェント評価での期待される結果

Databricks MLflow でのエージェント評価実行の出力を示すアニメーション GIF。

上の図は、MLflow のエージェント評価出力を示しています。

AI エージェントを修正、評価、反復処理する方法

すべての種類について、B_quality_iteration/02_evaluate_fixes ノートブックを使用して、結果のチェーンとベースライン構成、POC を評価し、"勝者" を選びます。 このノートブックは、優れた実験を選び、それをレビュー アプリまたは実稼働対応のスケーラブルな REST API にデプロイするのに役立ちます。

  1. Azure Databricks で、 B_quality_iteration/02_evaluate_fixes ノートブックを開きます。
  2. 実装している修正の種類に応じて、次を行います。
    • データ パイプラインの修正の場合:
    • チェーン構成の修正の場合:
      • Chain configuration ノートブックの セクションの手順に従って、チェーン構成の修正を CHAIN_CONFIG_FIXES 変数に追加します。
    • チェーン コードの修正の場合:
      • 変更したチェーン コード ファイルを作成し、それを B_quality_iteration/chain_code_fixes フォルダーに保存します。 または、そのフォルダーから提供されているチェーン コード修正の 1 つを選びます。
      • Chain code ノートブックの セクションの手順に従って、チェーン コード ファイルと、CHAIN_CODE_FIXES 変数に必要な追加のチェーン構成を追加します。
  3. Run evaluation セルからノートブックを実行すると、次のことが起こります。
    • 各修正を評価します。
    • 最適な品質/コスト/待機時間のメトリックを使用して修正を決定します。
    • 最適なものをレビュー アプリと実稼働対応の REST API にデプロイして、関係者のフィードバックを取得します。

次のステップ

ステップ 6 (パイプライン). データ パイプライン修正を実装する」に進みます。

< 前: 手順 5.2.デバッグ生成の品質

次へ: 手順 6.1.データ パイプラインを修正する >