在 Genie 空間中使用基準
重要
這項功能處於公開預覽狀態。
本文說明如何使用基準以評估 Genie 空間的正確度。
基準可讓您建立一組測試問題,您可以執行這些問題以評估 Genie 的整體回覆正確度。 設計完善的一組基準,內容涵蓋最常被問到的使用者問題,可協助您在精簡 Genie 空間時評估其正確性。
新增基準問題
基準問題應該反映使用者所提問常見問題的不同語法方式。 您可以使用它們檢查 Genie 對問題語法或不同問題形式變化的回覆。
建立基準問題時,您可以選擇性地包括其結果集為正確答案的 SQL 查詢。 在基準執行期間,會藉由比較 SQL 查詢的結果集與 Genie 所產生的結果集以評估正確性。
若要加入基準問題,請執行下列步驟:
按一下 Genie 空間中左側邊欄的 。
按一下問題索引標籤,然後按一下新增基準。
在問題欄位中,輸入要測試的基準問題。
(選擇性)輸入正確回答您所輸入問題的 SQL 陳述式。
注意
此步驟是建議步驟。 只有包括此範例 SQL 陳述式的問題才會自動評估正確性。 不包括 SQL 答案 的任何問題都需要手動檢閱才能評分。
(選擇性)按一下預覽以執行查詢並檢視結果。
當您完成編輯時,請按一下新增基準。
若要在儲存後更新問題,請按一下 鉛筆圖示以開啟更新問題對話方塊。
使用基準以測試替代問題語法
評估 Genie 空間的正確性時,請務必建構測試以反映實際案例。 使用者可能會以不同方式詢問相同的問題。 Databricks 建議在相同問題中加入的多個種語法,並在基準測試中使用相同的範例 SQL,以完整評估正確性。 多數 Genie 空間應該包括 2 - 4 個相同問題的語法。
執行基準問題
至少擁有 Genie 空間中 CAN EDIT 權限的使用者可以隨時建立基準執行,這樣會自動評估所有基準問題。 為了評估每個基準問題,我們會先將問題提交至 Genie,然後將 Genie 結果與基準比較。 下列其中一個標籤會套用至每個基準:
- 良好:當 Genie 產生的查詢結果符合所提供 SQL 答案的結果時,回覆會以這個標籤標示。 當回覆標示為良好時,表示資料列值完全相符,不論排序順序或資料欄名稱為何。
- 需要檢閱:當 Genie 無法評估正確性或是 Genie 產生的查詢結果與提供的 SQL 答案的結果不符時,回覆會標示為此標籤。 如果在產生的回覆或提供的 SQL 答案中資料表維度發生非預期的變更,可能會將問題標示為檢閱。 任何不包含 SQL 答案的基準問題都必須手動檢閱。
- 不良:絕對不會將回覆自動標示為不良。 如果 Genie 產生的查詢結果不符合提供 SQL 答案的結果集,會將問題標示為需要檢閱。 當您檢閱這些基準時,如果您認為 Genie 產生的查詢結果不會回答問題,可以將結果標示為不良。
若要執行所有基準問題:
- 按一下畫面左側附近 Genie 空間側邊欄中的 基準。
- 按一下執行基準以開始測試回合。
注意
如果您關閉此頁面,基準回合就會自動暫停。 您可以在重新開啟頁面時繼續測試。
存取基準評估
您可以存取所有基準評估,以追蹤一段時間的 Genie 空間中的正確度。 當您在 Genie 空間的左側側邊欄中按一下 時,評估回合的時間戳記清單會出現在評估索引標籤中。如果找不到評估回合,請參閱新增基準問題或執行基準問題。
評估索引標籤會顯示評估的概觀,以及它們在下列類別中報告的效能:
評估名稱:指出評估回合在何時發生的時間戳記。 按一下時間戳記以查看該評估的詳細資料。 執行狀態:指出評估是否已完成、暫停或不成功。 如果評估回合包括沒有預先定義 SQL 答案的基準問題,則會在此資料欄中標示為檢閱。 正確性:所有基準問題當中的正確性數值評估。 針對需要手動檢閱的評估回合,正確性度量值只會在已經檢閱這些問題之後出現。 建立者:指出執行評估的使用者名稱。
檢閱個別評估
您可以檢閱個別評估,詳細查看每個回覆。 您可以編輯任何問題的評定,並且更新需要手動檢閱的任何項目。
若要檢閱個別評估:
按一下畫面左側附近 Genie 空間側邊欄中的 基準。
在評估名稱資料欄中按一下任何評估的時間戳記,開啟該測試回合的詳細檢視。
按一下畫面左側附近的問題,以查看相關的詳細資料。 使用評估詳細資料畫面以執行後續步驟。
檢閱並比較模型輸出回應與基準真相回應。
注意
這些回覆的結果會出現在評估詳細資料一週的時間。 一週之後就不會再顯示結果。 產生的 SQL 陳述式和範例 SQL 陳述式會維持不變。
按一下標籤上的 以編輯評定。
將每個結果標示為良好或不良,以取得此評估的準確分數。