次の方法で共有


ステップ 5: 品質の問題の根本原因を特定する

反復ステップが強調されたワークフロー

このセクションのサンプル コードは GitHub リポジトリを参照してください。

想定される時間: 60 分。

要件

概要

品質の問題の最も可能性の高い根本原因は、取得と生成のステップです。 最初に注目する場所を決めるには、前のステップで実行した Mosaic AI Agent Evaluation の LLM ジャッジの出力を使って、アプリの品質に影響を与えることが最も多い根本原因を特定します。

評価セットの各行には、次のようなタグが付けられています。

  • 全体的な評価: 合格または失敗。
  • 根本原因: Improve Retrieval または Improve Generation
  • 根本原因の根拠: その根本原因が選ばれた理由の簡単な説明。

手順

このアプローチは、質問に対するグラウンド トゥルースの応答が評価セットに含まれているかどうかによって異なります。 これらの応答は、expected_response に格納されます。 使用できる expected_response がある場合は、「グラウンド トゥルースを利用できる場合の根本原因分析」の表を使います。 そうでない場合は、「グラウンド トゥルースを利用できない場合の根本原因分析」の表を使います。

  1. B_quality_iteration/01_root_cause_quality_issues ノートブックを開きます。
  2. ユース ケースに関連するセルを実行します (例: expected_response がある場合、またはない場合)
  3. 出力テーブルを確認して、アプリケーションで最も頻繁に発生する根本原因を特定します
  4. 根本原因ごとに次の手順のようにして、さらにデバッグし、可能性のある修正を明らかにします。

グラウンド トゥルースを利用できる場合の根本原因分析

Note

各質問に対してドキュメントを取得する必要がある、人がラベルを付けたグラウンド トゥルースがある場合は、必要に応じて retrieval/llm_judged/chunk_relevance/precision/averageretrieval/ground_truth/document_recall/average のスコアに置き換えることができます。

チャンク関連度精度 現実性 正確さ クエリとの関連性 問題の概要 根本原因 全体的な評価
<50% 失敗 失敗 失敗 取得が低品質です。 Improve Retrieval 失敗
<50% 失敗 失敗 パス LLM は関連する応答を生成しますが、取得が低品質です。 たとえば、LLM は取得を無視し、そのトレーニング知識を使って回答します。 Improve Retrieval 失敗
<50% 失敗 パス 合格または失敗 取得は低品質ですが、それに関係なく LLM は正しい回答を取得します。 Improve Retrieval 失敗
<50% パス 不合格 失敗 応答は取得にグラウンディングされますが、取得は低品質です。 Improve Retrieval 失敗
<50% パス 不合格 パス 取得されたコンテキストにグラウンディングされた関連する応答ですが、取得は予想される回答に関連していない可能性があります。 Improve Retrieval 失敗
<50% 合格 合格 合格または失敗 取得で、LLM が正しく回答するのに十分な情報が検索されます。 なし パス
>50% 失敗 失敗 合格または失敗 非現実的。 Improve Generation 失敗
>50% 失敗 パス 合格または失敗 非現実的。正しいですが、コンテキストに沿わない詳細が生成されます。 Improve Generation 失敗
>50% パス 不合格 失敗 高品質の取得ですが、LLM は関連する応答を提供しません。 Improve Generation 失敗
>50% パス 不合格 パス 高品質の取得で、関連する応答ですが、正しくありません。 Improve Generation 失敗
>50% 合格 合格 合格 問題ありません。 なし パス

グラウンド トゥルースを利用できない場合の根本原因分析

チャンク関連度精度 現実性 クエリとの関連性 問題の概要 根本原因 全体的な評価
<50% 失敗 失敗 取得が低品質です。 Improve Retrieval 失敗
<50% 失敗 パス 取得が低品質です。 Improve Retrieval 失敗
<50% パス 不合格 応答は取得にグラウンディングされますが、取得は低品質です。 Improve Retrieval 失敗
<50% 合格 合格 取得されたコンテキストと関連にグラウンディングされた関連する応答ですが、取得は低品質です。 Improve Retrieval パス
>50% 失敗 失敗 非現実的。 Improve Generation 失敗
>50% 失敗 パス 非現実的。 Improve Generation 失敗
>50% パス 不合格 高品質の取得でグラウンディングされていますが、LLM は関連する応答を提供しません。 Improve Generation 失敗
>50% 合格 合格 高品質の取得で、関連する応答です。 回答が正しいかどうかを知るには、グラウンド トゥルースを収集します。 なし パス

次のステップ

特定した問題をデバッグするには、次のページを参照してください。