ステップ 4: POC の品質を評価する

[アーティクル]
02/04/2025

評価ステップが強調表示されたワークフロー

このセクションのサンプルコードについては、GitHub リポジトリを参照してください。

想定される時間: 5 から 60 分。時間は、評価セット内の質問の数によって異なります。 100 問の場合、評価には約 5 分かかります。

概要と想定される結果

この手順では、キュレーションした評価セットを使用して POC アプリを評価し、ベースラインの品質、コスト、待機時間を確立します。評価結果は、品質問題の根本原因を特定するために次の手順で使用されます。

評価は、Mosaic AI エージェント評価を使用して行われ、このチュートリアルのメトリックセクションで概説されている品質、コスト、待機時間のあらゆる側面を包括的に確認できます。

集計されたメトリックと評価セット内の各質問の評価は MLflow にログされます。詳細については、「評価出力」を参照してください。

要件

評価セットを使用できます。
前の手順のすべての要件。

手順

選んだ POC ディレクトリ内の 05_evaluate_poc_quality ノートブックを開き、[すべて実行] をクリックします。
ノートブックまたは MLflow を使用して評価結果を確認します。結果が品質要件を満たしている場合は、「デプロイと監視」に直接スキップできます。 POC アプリケーションは Databricks 上に構築されているため、スケーラブルで実稼働対応の REST API にすぐにデプロイできます。

次のステップ

この POC の品質のベースライン評価を使用して、品質上の問題の根本原因を特定し、それらの問題を繰り返し修正してアプリを改善します。「手順 5.品質の問題の根本原因を特定する」を参照してください。

< 前へ: ステップ 3. 評価セットをキュレーションする

次へ: ステップ 5. 品質問題の根本原因を特定する >