ステップ 4: POC の品質を評価する
このセクションのサンプル コードについては、GitHub リポジトリを参照してください。
想定される時間: 5 から 60 分。 時間は、評価セット内の質問の数によって異なります。 100 問の場合、評価には約 5 分かかります。
概要と想定される結果
この手順では、キュレーションした評価セットを使用して POC アプリを評価し、ベースラインの品質、コスト、待機時間を確立します。 評価結果は、品質問題の根本原因を特定するために次の手順で使用されます。
評価は、Mosaic AI エージェント評価を使用して行われ、このクックブックのメトリック セクションで概説されている品質、コスト、待機時間のあらゆる側面を包括的に確認できます。
集計されたメトリックと評価セット内の各質問の評価は MLflow にログされます。 詳細については、「評価出力」を参照してください。
要件
- 評価セットを使用できます。
- 前の手順のすべての要件。
手順
- 選んだ POC ディレクトリ内の
05_evaluate_poc_quality
ノートブックを開き、[すべて実行] をクリックします。 - ノートブックまたは MLflow を使用して評価結果を確認します。 結果が品質要件を満たしている場合は、[デプロイと監視] に直接スキップできます。 POC アプリケーションは Databricks 上に構築されているため、スケーラブルで実稼働対応の REST API にすぐにデプロイできます。
次のステップ
この POC の品質のベースライン評価を使用して、品質上の問題の根本原因を特定し、それらの問題を繰り返し修正してアプリを改善します。 「手順 5.品質の問題の根本原因を特定する」を参照してください。