共用方式為


在 Genie 空間中使用基準

重要

這項功能處於公開預覽狀態

本文說明如何使用基準以評估 Genie 空間的正確度。

基準可讓您建立一組測試問題,您可以執行這些問題以評估 Genie 的整體回覆正確度。 設計完善的一組基準,內容涵蓋最常被問到的使用者問題,可協助您在精簡 Genie 空間時評估其正確性。

針對許多問題回報正確性的範例基準。

新增基準問題

基準問題應該反映使用者所提問常見問題的不同語法方式。 您可以使用它們檢查 Genie 對問題語法或不同問題形式變化的回覆。

建立基準問題時,您可以選擇性地包括其結果集為正確答案的 SQL 查詢。 在基準執行期間,會藉由比較 SQL 查詢的結果集與 Genie 所產生的結果集以評估正確性。

若要加入基準問題,請執行下列步驟:

  1. 按一下 Genie 空間中左側邊欄的 基準圖示

  2. 按一下問題索引標籤,然後按一下新增基準

  3. 問題欄位中,輸入要測試的基準問題。

  4. (選擇性)輸入正確回答您所輸入問題的 SQL 陳述式。

    注意

    此步驟是建議步驟。 只有包括此範例 SQL 陳述式的問題才會自動評估正確性。 不包括 SQL 答案 的任何問題都需要手動檢閱才能評分。

  5. (選擇性)按一下預覽以執行查詢並檢視結果。

  6. 當您完成編輯時,請按一下新增基準

  7. 若要在儲存後更新問題,請按一下 編輯圖示 鉛筆圖示以開啟更新問題對話方塊。

使用基準以測試替代問題語法

評估 Genie 空間的正確性時,請務必建構測試以反映實際案例。 使用者可能會以不同方式詢問相同的問題。 Databricks 建議在相同問題中加入的多個種語法,並在基準測試中使用相同的範例 SQL,以完整評估正確性。 多數 Genie 空間應該包括 2 - 4 個相同問題的語法。

執行基準問題

至少擁有 Genie 空間中 CAN EDIT 權限的使用者可以隨時建立基準執行,這樣會自動評估所有基準問題。 為了評估每個基準問題,我們會先將問題提交至 Genie,然後將 Genie 結果與基準比較。 下列其中一個標籤會套用至每個基準:

  • 良好:當 Genie 產生的查詢結果符合所提供 SQL 答案的結果時,回覆會以這個標籤標示。 當回覆標示為良好時,表示資料列值完全相符,不論排序順序或資料欄名稱為何。
  • 需要檢閱:當 Genie 無法評估正確性或是 Genie 產生的查詢結果與提供的 SQL 答案的結果不符時,回覆會標示為此標籤。 如果在產生的回覆或提供的 SQL 答案中資料表維度發生非預期的變更,可能會將問題標示為檢閱。 任何不包含 SQL 答案的基準問題都必須手動檢閱。
  • 不良:絕對不會將回覆自動標示為不良。 如果 Genie 產生的查詢結果不符合提供 SQL 答案的結果集,會將問題標示為需要檢閱。 當您檢閱這些基準時,如果您認為 Genie 產生的查詢結果不會回答問題,可以將結果標示為不良

若要執行所有基準問題:

  1. 按一下畫面左側附近 Genie 空間側邊欄中的基準圖示 基準
  2. 按一下執行基準以開始測試回合。

注意

如果您關閉此頁面,基準回合就會自動暫停。 您可以在重新開啟頁面時繼續測試。

存取基準評估

您可以存取所有基準評估,以追蹤一段時間的 Genie 空間中的正確度。 當您在 Genie 空間的左側側邊欄中按一下 基準圖示 時,評估回合的時間戳記清單會出現在評估索引標籤中。如果找不到評估回合,請參閱新增基準問題執行基準問題

評估畫面,如下列文字所述。

評估索引標籤會顯示評估的概觀,以及它們在下列類別中報告的效能:

評估名稱:指出評估回合在何時發生的時間戳記。 按一下時間戳記以查看該評估的詳細資料。 執行狀態:指出評估是否已完成、暫停或不成功。 如果評估回合包括沒有預先定義 SQL 答案的基準問題,則會在此資料欄中標示為檢閱。 正確性:所有基準問題當中的正確性數值評估。 針對需要手動檢閱的評估回合,正確性度量值只會在已經檢閱這些問題之後出現。 建立者:指出執行評估的使用者名稱。

檢閱個別評估

您可以檢閱個別評估,詳細查看每個回覆。 您可以編輯任何問題的評定,並且更新需要手動檢閱的任何項目。

若要檢閱個別評估:

  1. 按一下畫面左側附近 Genie 空間側邊欄中的 基準圖示 基準

  2. 評估名稱資料欄中按一下任何評估的時間戳記,開啟該測試回合的詳細檢視。

    顯示單一評估回合結果的畫面。所有問題都會列在左側。如果適用,則會在右側顯示模型輸出和基準真相輸出的個別問題。

  3. 按一下畫面左側附近的問題,以查看相關的詳細資料。 使用評估詳細資料畫面以執行後續步驟。

  4. 檢閱並比較模型輸出回應與基準真相回應。

    注意

    這些回覆的結果會出現在評估詳細資料一週的時間。 一週之後就不會再顯示結果。 產生的 SQL 陳述式和範例 SQL 陳述式會維持不變。

  5. 按一下標籤上的 編輯圖示 以編輯評定。

    將每個結果標示為良好不良,以取得此評估的準確分數。