步驟 3: 從項目關係人意見反應策劃評估集
已醒目提示評估集的
如需本節中的範例程式碼,請參閱 GitHub 存放庫。
預期時間:10 - 60 分鐘。 時間會根據您的利害關係人所提供的回覆品質而有所不同。 如果回覆混亂或包含許多無關的查詢,您將需要花更多時間篩選和清除資料。
概觀和預期的結果
此步驟會利用檢閱應用程式中利害關係者提供的意見反應,建立評估集的初始框架。 請注意,您可以從只包含問題的內容啟動評估集,因此即使項目關係人只是與應用程式聊天,而非提供意見反應,您仍然可以遵循此步驟。
如需代理程式評估評估集的架構,請參閱 代理程式評估輸入架構。 本節其餘部分會參考此架構中的欄位。
在此步驟結束時,您將會有包含下列項目的評估集:
- 大拇指豎起的要求 👍:
-
request
:由使用者輸入。 -
expected_response
:由使用者編輯的回覆。 如果使用者未編輯回覆,則為模型所產生的回覆。
-
- 大拇指朝下的要求 👎:
-
request
:由使用者輸入。 -
expected_response
:由使用者編輯的回覆。 如果使用者未編輯回覆,則回覆為 null。
-
- 沒有意見反應的要求 (沒有豎起大拇指 👍 或大拇指朝下 👎)
-
request
:由使用者輸入。
-
針對所有要求,如果使用者從 👍 中選取區塊的豎起大拇指 retrieved_context
,則區塊的 doc_uri
會包含在 expected_retrieved_context
問題中。
重要
Databricks 建議您的評估集應包含至少 30 個問題以便開始。 閱讀 評估集深入探討,以深入了解什麼是「良好」評估集。
需求
- 利害關係人已使用您的 POC 並提供意見反應。
- 先前步驟的所有需求。
指示
- 開啟 04_create_evaluation_set筆記本,然後按下 [全部執行]。
- 檢查評估集以瞭解包含的數據。 您必須驗證評估集是否包含一組具代表性且具有挑戰性的問題。 視需要調整評估資料集。
- 根據預設,您的評估集會儲存至 00_global_config Notebook中
EVALUATION_SET_FQN
中所設定的 Delta 資料表。
後續步驟
既然您已經有評估集,請使用它來評估POC應用程式的品質、成本和延遲。 請參閱步驟 4. 評估 POC 的品質。