次の方法で共有


ステップ 4: POC の品質を評価する

評価ステップが強調表示されたワークフロー

このセクションのサンプル コードについては、GitHub リポジトリを参照してください。

想定される時間: 5 から 60 分。 時間は、評価セット内の質問の数によって異なります。 100 問の場合、評価には約 5 分かかります。

概要と想定される結果

この手順では、キュレーションした評価セットを使用して POC アプリを評価し、ベースラインの品質、コスト、待機時間を確立します。 評価結果は、品質問題の根本原因を特定するために次の手順で使用されます。

評価は、Mosaic AI エージェント評価を使用して行われ、このクックブックのメトリック セクションで概説されている品質、コスト、待機時間のあらゆる側面を包括的に確認できます。

集計されたメトリックと評価セット内の各質問の評価は MLflow にログされます。 詳細については、「評価出力」を参照してください。

要件

  • 評価セットを使用できます。
  • 前の手順のすべての要件。

手順

  1. 選んだ POC ディレクトリ内の 05_evaluate_poc_quality ノートブックを開き、[すべて実行] をクリックします。
  2. ノートブックまたは MLflow を使用して評価結果を確認します。 結果が品質要件を満たしている場合は、[デプロイと監視] に直接スキップできます。 POC アプリケーションは Databricks 上に構築されているため、スケーラブルで実稼働対応の REST API にすぐにデプロイできます。

次のステップ

この POC の品質のベースライン評価を使用して、品質上の問題の根本原因を特定し、それらの問題を繰り返し修正してアプリを改善します。 「手順 5.品質の問題の根本原因を特定する」を参照してください。