ステップ 5: 品質の問題の根本原因を特定する
このセクションのサンプル コードは GitHub リポジトリを参照してください。
想定される時間: 60 分。
要件
- POC の評価結果は MLflow で入手できます。 「ステップ 4. POC の品質を評価する」のとおりにした場合、MLflow で結果を入手できます。
- 前の手順のすべての要件。
概要
品質の問題の最も可能性の高い根本原因は、取得と生成のステップです。 最初に注目する場所を決めるには、前のステップで実行した Mosaic AI Agent Evaluation の LLM ジャッジの出力を使って、アプリの品質に影響を与えることが最も多い根本原因を特定します。
評価セットの各行には、次のようなタグが付けられています。
- 全体的な評価: 合格または失敗。
- 根本原因:
Improve Retrieval
またはImprove Generation
。 - 根本原因の根拠: その根本原因が選ばれた理由の簡単な説明。
手順
このアプローチは、質問に対するグラウンド トゥルースの応答が評価セットに含まれているかどうかによって異なります。 これらの応答は、expected_response
に格納されます。 使用できる expected_response
がある場合は、「グラウンド トゥルースを利用できる場合の根本原因分析」の表を使います。 そうでない場合は、「グラウンド トゥルースを利用できない場合の根本原因分析」の表を使います。
- B_quality_iteration/01_root_cause_quality_issues ノートブックを開きます。
- ユース ケースに関連するセルを実行します (例: expected_response がある場合、またはない場合)
- 出力テーブルを確認して、アプリケーションで最も頻繁に発生する根本原因を特定します
- 根本原因ごとに次の手順のようにして、さらにデバッグし、可能性のある修正を明らかにします。
グラウンド トゥルースを利用できる場合の根本原因分析
Note
各質問に対してドキュメントを取得する必要がある、人がラベルを付けたグラウンド トゥルースがある場合は、必要に応じて retrieval/llm_judged/chunk_relevance/precision/average
を retrieval/ground_truth/document_recall/average
のスコアに置き換えることができます。
チャンク関連度精度 | 現実性 | 正確さ | クエリとの関連性 | 問題の概要 | 根本原因 | 全体的な評価 |
---|---|---|---|---|---|---|
<50% | 失敗 | 失敗 | 失敗 | 取得が低品質です。 | Improve Retrieval |
失敗 |
<50% | 失敗 | 失敗 | パス | LLM は関連する応答を生成しますが、取得が低品質です。 たとえば、LLM は取得を無視し、そのトレーニング知識を使って回答します。 | Improve Retrieval |
失敗 |
<50% | 失敗 | パス | 合格または失敗 | 取得は低品質ですが、それに関係なく LLM は正しい回答を取得します。 | Improve Retrieval |
失敗 |
<50% | パス | 不合格 | 失敗 | 応答は取得にグラウンディングされますが、取得は低品質です。 | Improve Retrieval |
失敗 |
<50% | パス | 不合格 | パス | 取得されたコンテキストにグラウンディングされた関連する応答ですが、取得は予想される回答に関連していない可能性があります。 | Improve Retrieval |
失敗 |
<50% | 合格 | 合格 | 合格または失敗 | 取得で、LLM が正しく回答するのに十分な情報が検索されます。 | なし | パス |
>50% | 失敗 | 失敗 | 合格または失敗 | 非現実的。 | Improve Generation |
失敗 |
>50% | 失敗 | パス | 合格または失敗 | 非現実的。正しいですが、コンテキストに沿わない詳細が生成されます。 | Improve Generation |
失敗 |
>50% | パス | 不合格 | 失敗 | 高品質の取得ですが、LLM は関連する応答を提供しません。 | Improve Generation |
失敗 |
>50% | パス | 不合格 | パス | 高品質の取得で、関連する応答ですが、正しくありません。 | Improve Generation |
失敗 |
>50% | 合格 | 合格 | 合格 | 問題ありません。 | なし | パス |
グラウンド トゥルースを利用できない場合の根本原因分析
チャンク関連度精度 | 現実性 | クエリとの関連性 | 問題の概要 | 根本原因 | 全体的な評価 |
---|---|---|---|---|---|
<50% | 失敗 | 失敗 | 取得が低品質です。 | Improve Retrieval |
失敗 |
<50% | 失敗 | パス | 取得が低品質です。 | Improve Retrieval |
失敗 |
<50% | パス | 不合格 | 応答は取得にグラウンディングされますが、取得は低品質です。 | Improve Retrieval |
失敗 |
<50% | 合格 | 合格 | 取得されたコンテキストと関連にグラウンディングされた関連する応答ですが、取得は低品質です。 | Improve Retrieval |
パス |
>50% | 失敗 | 失敗 | 非現実的。 | Improve Generation |
失敗 |
>50% | 失敗 | パス | 非現実的。 | Improve Generation |
失敗 |
>50% | パス | 不合格 | 高品質の取得でグラウンディングされていますが、LLM は関連する応答を提供しません。 | Improve Generation |
失敗 |
>50% | 合格 | 合格 | 高品質の取得で、関連する応答です。 回答が正しいかどうかを知るには、グラウンド トゥルースを収集します。 | なし | パス |
次のステップ
特定した問題をデバッグするには、次のページを参照してください。