Genie スペースでベンチマークを使用する

[アーティクル]
12/20/2024

この記事では、ベンチマークを使用して Genie スペースの正確性を評価する方法について説明します。

概要

ベンチマークを使用すると、Genie の全体的な応答の正確性を評価するために実行できるテスト質問のセットを作成できます。よく寄せられるユーザーの質問をカバーするよう、ベンチマークのセットが適切に設計されることで、Genie スペースを調整する際の正確性の評価に役立ちます。

ベンチマークの質問は、新しい会話として実行されます。スレッド化された Genie 会話と同じコンテキストは含まれません。各質問は、指定された SQL 関数と SQL 関数の例を含め、スペースで定義されている命令を使用して、新しいクエリとして処理されます。

9 つの質問に関する正確なベンチマーク例を報告します。

ベンチマークの質問を追加する

ベンチマークの質問は、ユーザーによって寄せられる一般的な質問についてのさまざまな言い方を反映している必要があります。これらを使用して、質問の言い回しや異なる質問形式のバリエーションに対する Genie の応答を確認できます。

ベンチマークの質問を作成する際、必要に応じて、結果セットが正しい回答である SQL クエリを含めることができます。ベンチマークの実行中に、SQL クエリの結果セットと Genie によって生成された結果セットを比較することで、正確性が評価されます。

ベンチマークの質問を追加するには、次の手順を実行してください。

Genie スペースの左側のサイドバーにあるをクリックします。
[質問] タブをクリックし、その後 [Add benchmark] (ベンチマークの追加) をクリックします。
[質問] フィールドに、テストするベンチマークの質問を入力します。
(オプション) 入力した質問に正確に回答する SQL ステートメントを入力します。

Note

この手順は推奨されています。この例の SQL ステートメントを含む質問のみが、正確性について自動で評価されます。 SQL の回答を含まない質問については、手動でレビューを行いスコアリングする必要があります。
(省略可能)実行をクリックしてクエリを実行し、結果を表示します。
編集が完了したら、[Add benchmark (ベンチマークの追加)] をクリックします。
保存後に質問を更新するには、鉛筆アイコンをクリックして [Update question (質問を更新)] ダイアログを開きます。

ベンチマークを使用して代替の質問の言い回しをテストする

Genie スペースの正確性を評価する際は、現実的なシナリオを反映するようにテストを構成することが重要です。ユーザーは、異なる言い方で同じ質問をすることがあります。 Databricks では、同じ質問における複数の言い回しを追加し、ベンチマークテストで同じ例の SQL を使用して、正確性を完全に評価することが推奨されます。多くの Genie スペースで、同じ質問の言い回しが 2～4 パターン含まれている必要があります。

ベンチマークの質問を実行する

Genie スペースで少なくとも CAN EDIT アクセス許可を持つユーザーは、いつでもベンチマーク実行を作成できます。これは、すべてのベンチマークの質問で自動的に評価されます。各ベンチマークの質問を評価するには、まず質問を Genie に送信し、次に Genie の結果をベンチマークと比較します。各ベンチマークには、次のいずれかのラベルが適用されます。

Good (良好): Genie によって生成されたクエリ結果が、提供された SQL Answer (SQL 回答) の結果と一致する場合、応答はこのラベルでマークされます。応答がGood (良好)としてマークされている場合、並べ替え順序や列名に関係なく、行の値が正確に一致することを意味します。
Needs review (要確認): Genie が正確性を評価できない場合、または Genie によって生成されたクエリ結果が、提供された SQL Answer (SQL 回答)の結果と一致しない場合、応答はこのラベルでマークされます。生成された応答または提供された SQL 回答のテーブルディメンションに予期しない変更がある場合、質問はレビュー対象としてマークされることがあります。 SQL Answer (SQL 回答) を含まないベンチマークの質問は、手動でレビューする必要があります。
Bad (不良): 応答が自動で Bad (不良) としてラベル付けされることはありません。 Genie によって生成されたクエリ結果が、提供された SQL Answer (SQL 回答) の結果セットと一致しない場合、質問は Needs review (要確認) としてマークされます。これらのベンチマークをレビューする際に Genie によって生成されたクエリ結果が質問に答えていないと思われる場合、結果を Bad (不良) としてマークできます。

すべてのベンチマークの質問を実行するには：

画面の左側近くにある Genie スペースのサイドバーで [ベンチマーク] をクリックします。
[実行ベンチマーク] をクリックしてテストの実行を開始します。

Note

このページを閉じると、ベンチマークの実行が自動的に一時停止されます。ページを再度開くと、テストを再開できます。

ベンチマークの評価にアクセスする

ベンチマークの評価すべてにアクセスして、Genie スペースの正確性を時間の経過とともに追跡できます。 Genie スペースの左側のサイドバーでをクリックすると、評価実行のタイムスタンプ付きリストが [評価] タブに表示されます。評価実行が見つからない場合は、「ベンチマークの質問を追加」または「ベンチマークの質問を実行」を参照してください。

次のテキストで説明されている [評価] の画面。

[評価] タブには、評価の概要とそのパフォーマンスが次のカテゴリで報告されます。

[評価名]: 評価実行がいつ行われたかを示すタイムスタンプ。タイムスタンプをクリックすると、その評価の詳細が表示されます。 [実行ステータス]: 評価が完了したか、一時停止したか、失敗したかを示します。評価実行に定義済みの SQL 回答がないベンチマークの質問が含まれている場合、この列ではレビュー対象としてマークされます。 [正確性]: ベンチマークの質問すべての正確性が数値で評価されます。手動のレビューを必要とする評価実行では、正確性の測定はこれらの質問がレビューされた後にのみ表示されます。 [作成者]: 評価を実行したユーザーの名前を示します。

個々の評価をレビューする

個々の評価をレビューして、各応答の詳細を確認できます。質問の評価を編集して、手動のレビューが必要な項目を更新できます。

個々の評価をレビューするには:

画面の左側近くにある Genie スペースのサイドバーで [ベンチマーク] をクリックします。
Evaluation name 列の評価のタイムスタンプをクリックして、そのテストの実行についての詳細ビューを開きます。
画面の左側付近にある質問をクリックすると、関連する詳細が表示されます。評価の詳細画面を使用して、次の手順を実行します。
モデル出力応答とグラウンドトゥルース応答を確認して比較します。

Note

これらの応答の結果は、評価の詳細に 1 週間表示されます。 1 週間後、結果は表示されなくなります。生成された SQL ステートメントと SQL ステートメントの例はそのまま残ります。
ラベルのをクリックして評価を編集します。

各結果を良好または不良としてマークして、この評価の正確なスコアを取得します。

次の方法で共有