次の方法で共有


"品質" の定義: 評価セット

この記事では、評価セットについてと、それらがアプリケーションの品質を確保するのにどのように役立つかについて説明します。

評価セットとは?

品質を測定するために、Databricks では、人間がラベル付けした評価セットを作成することを推奨しています。 評価セットは、クエリのキュレーションされた代表的なセットであり、信頼できる回答と共に、(必要に応じて) 取得する必要がある適切なサポート ドキュメントを提供します。 評価セットがエンド ユーザーの想定事項と要件を正確に反映するためには、このプロセスでの人間の入力が不可欠となります。

人手によるラベルをキュレーションすることは、時間のかかるプロセスになり得ます。 作業を開始するには、質問のみを含む評価セットを作成し、時間の経過に合わせ現実の応答を追加します。 Mosaic AI エージェントの評価 は、現実の結果なしでチェーンの品質を評価できますが、現実の結果が使用可能なのであれば、回答の正確性などの追加のメトリックを計算できます。

適切な評価セットの要素

適切な評価セットには、次の特性を持ちます。

  • 代表: アプリケーションにおいて運用環境で発生するさまざまな要求を正確に反映します。
  • 難易: モデルの機能を効果的にテストするために、困難で多様なケースが包含されます。 理想的には、プロンプト挿入を試みる質問や、LLM から不適切な応答を生成しようとする質問などの敵対的なサンプルを含めます。
  • 継続的に更新: 運用環境でのアプリケーションの使用方法、インデックス付きデータの性質の変化、およびアプリケーション要件の変更を反映するように、セットを定期的に更新する必要があります。

Databricks では、評価セット内に、少なくとも 30 個の質問 (理想的には 100 から 200 個) を推奨しています。 最良な評価セットは、時間の経過とともに、数千件の質問を含むまでに成長します。

トレーニング、テスト、および検証のセット

オーバーフィットを回避するために、Databricks では、評価セットをトレーニング、テスト、検証セットに分割することを推奨しています。

  • トレーニング セット: 質問の 70% まで。 初期のパスに使用して、すべての実験を評価し、可能性が最も高いものを識別します。
  • テスト セット: 質問の約 20% まで。 トレーニング セットから、最もパフォーマンスの高かった実験を評価するために使用されます。
  • 検証セット: 質問の約 10% まで。 実験を運用環境にデプロイする前の、最終的な検証チェックに使用されます。

Mosaic AI エージェント評価 は、アプリケーションの出力に関するフィードバックを提供する利害関係者向けに、Web ベースのチャット インターフェイスを提供するので、評価セットを作成するのに役立ちます。 チェーンの出力と利害関係者のフィードバックは Delta Tables に保存され、評価セット内にキュレーションできます。 サンプル コードの実践的な使用手順については、このクックブックの実装セクションで、「評価セットのキュレーション」を参照してください。

< 前へ: RAG 品質 を評価する

次へ: パフォーマンスの > を評価する