手順 3. 関係者のフィードバックから評価セットをキュレーションする
このセクションのサンプル コードは GitHub リポジトリを参照してください。
想定される時間: 10 - 60 分。 時間は、関係者から提供された応答の品質によって異なります。 応答が整理されていない場合や、無関係なクエリが多く含まれている場合は、データのフィルター処理とクリーニングに時間をかける必要があります。
概要と想定される成果
この手順では、関係者がレビュー アプリを使用して提供したフィードバックで評価セットをブートストラップします。 質問だけで評価セットをブートストラップできるため、関係者がフィードバックを提供する代わりにアプリとチャットするだけでもこの手順に従うことができることに注意してください。
エージェント評価評価セットのスキーマについては、 Agent Evaluation 入力スキーマを参照してください。 このスキーマのフィールドは、このセクションの残りの部分で参照します。
この手順の最後で、次を含む評価セットを取得できます。
- サムアップ 👍 を含む要求:
request
: ユーザーが入力したもの。expected_response
: ユーザーが編集した応答。 ユーザーが応答を編集しなかった場合、その応答はモデルによって生成されます。
- サムダウン 👎 を含む要求:
request
: ユーザーが入力したもの。expected_response
: ユーザーが編集した応答。 ユーザーが応答を編集しなかった場合、その応答は null 値になります。
- フィードバックのない要求 (サムアップ 👍 またはサムダウン 👎 なし)
request
: ユーザーが入力したもの。
ユーザーが、すべての要求に対して retrieved_context
からチャンクのサムアップ 👍 を選択した場合、そのチャンクの doc_uri
は質問の expected_retrieved_context
に含まれます。
重要
Databricks では、評価セットを開始するために少なくとも 30 個の質問を含めることを推奨しています。 "良い" 評価セットの内容については、「評価セットの詳細」をご覧ください。
要件
- 関係者が POC を使用し、フィードバックを提供しました。
- 前の手順のすべての要件。
手順
- 04_create_evaluation_set ノートブックを開き、[すべて実行] をクリックします。
- 評価セットを調べて、含まれているデータを理解します。 評価セットには、代表的で困難な質問が含まれていることを確認する必要があります。 必要に応じて評価セットを調整します。
- 既定では、評価セットは 00_global_config notebook の
EVALUATION_SET_FQN
で構成した Delta テーブルに保存されます。
次のステップ
評価セットができたので、それを使用して POC アプリの品質、コスト、待機時間を評価します。 「手順 4.POC の品質を評価する」を参照してください。