步驟 3: 從利害關係人意見反應策劃評估集
如需本節中的範例程式碼,請參閱 GitHub 存放庫。
預期時間:10 - 60 分鐘。 時間會根據您的利害關係人所提供的回覆品質而有所不同。 如果回覆混亂或包含許多無關的查詢,您將需要花更多時間篩選和清除資料。
概觀和預期的結果
此步驟會啟動評估集,其中包含利害關係人透過使用檢閱應用程式所提供的意見反應。 請注意,您可以啟動只包含問題的評估集,因此即使您的利害關係人只與應用程式聊天,也提供意見反應,您也可以遵循此步驟。
如需代理程式評估評估集的架構,請參閱 代理程式評估輸入架構。 本節其餘部分會參考此結構描述中的欄位。
在此步驟結束時,您將會有包含下列項目的評估集:
- 大拇指豎起的要求 👍:
request
:由使用者輸入。expected_response
:由使用者編輯的回覆。 如果使用者未編輯回覆,則為模型所產生的回覆。
- 大拇指朝下的要求 👎:
request
:由使用者輸入。expected_response
:由使用者編輯的回覆。 如果使用者未編輯回覆,則回覆為 null。
- 沒有意見反應的要求 (沒有豎起大拇指 👍 或大拇指朝下 👎)
request
:由使用者輸入。
針對所有要求,如果使用者從 retrieved_context
中選取區塊的豎起大拇指 👍,則區塊的 doc_uri
會包含在 expected_retrieved_context
問題中。
重要
Databricks 建議評估集包含至少 30 個問題以開始使用。 閱讀評估集深入探討,以深入了解什麼是「良好」評估集。
需求
- 利害關係人已使用您的 POC 並提供意見反應。
- 先前步驟的所有需求。
指示
- 開啟 04_create_evaluation_set筆記本,然後按下 [全部執行]。
- 檢查評估集以瞭解包含的資料。 您必須驗證評估集是否包含一組具代表性且具有挑戰性的問題。 視需要調整評估集。
- 根據預設,您的評估集會儲存至 00_global_config 筆記本中以
EVALUATION_SET_FQN
設定的 Delta 資料表。
後續步驟
既然您已經有評估集,請使用它來評估 POC 應用程式的品質、成本和延遲。 請參閱步驟 4. 評估 POC 的品質。