共用方式為


步驟 3: 從項目關係人意見反應策劃評估集

已醒目提示評估集的 工作流程

如需本節中的範例程式碼,請參閱 GitHub 存放庫

預期時間:10 - 60 分鐘。 時間會根據您的利害關係人所提供的回覆品質而有所不同。 如果回覆混亂或包含許多無關的查詢,您將需要花更多時間篩選和清除資料。

概觀和預期的結果

此步驟會利用檢閱應用程式中利害關係者提供的意見反應,建立評估集的初始框架。 請注意,您可以從只包含問題的內容啟動評估集,因此即使項目關係人只是與應用程式聊天,而非提供意見反應,您仍然可以遵循此步驟。

如需代理程式評估評估集的架構,請參閱 代理程式評估輸入架構。 本節其餘部分會參考此架構中的欄位。

在此步驟結束時,您將會有包含下列項目的評估集:

  • 大拇指豎起的要求 👍:
    • request:由使用者輸入。
    • expected_response:由使用者編輯的回覆。 如果使用者未編輯回覆,則為模型所產生的回覆。
  • 大拇指朝下的要求 👎:
    • request:由使用者輸入。
    • expected_response:由使用者編輯的回覆。 如果使用者未編輯回覆,則回覆為 null。
  • 沒有意見反應的要求 (沒有豎起大拇指 👍 或大拇指朝下 👎)
    • request:由使用者輸入。

針對所有要求,如果使用者從 👍 中選取區塊的豎起大拇指 retrieved_context,則區塊的 doc_uri 會包含在 expected_retrieved_context 問題中。

重要

Databricks 建議您的評估集應包含至少 30 個問題以便開始。 閱讀 評估集深入探討,以深入了解什麼是「良好」評估集。

需求

  • 利害關係人已使用您的 POC 並提供意見反應。
  • 先前步驟的所有需求。

指示

  1. 開啟 04_create_evaluation_set筆記本,然後按下 [全部執行]
  2. 檢查評估集以瞭解包含的數據。 您必須驗證評估集是否包含一組具代表性且具有挑戰性的問題。 視需要調整評估資料集。
  3. 根據預設,您的評估集會儲存至 00_global_config NotebookEVALUATION_SET_FQN 中所設定的 Delta 資料表。

後續步驟

既然您已經有評估集,請使用它來評估POC應用程式的品質、成本和延遲。 請參閱步驟 4. 評估 POC 的品質

< 上一步:步驟 2。部署POC並收集意見反應

下一步:步驟 4。評估POC品質 >