共用方式為


定義「品質」:評估集

本文說明評估集及其如何協助確保應用程式的品質。

什麼是評估集?

為了測量品質,Databricks 建議建立人為標記的評估集。 評估集是一組策劃且具代表性的查詢,連同基準真實答案及需檢索的正確支援檔(選擇性地)。 人類輸入在這個程序中非常重要,因為它可確保評估集能準確地反映終端使用者的期望和需求。

策展人類標籤可能是一個耗時的程式。 您可以從建立一個僅包含問題的評估集開始,並隨著時間的推移添加確實的回應。 馬賽克 AI 代理程式評估 可以評估您的鏈結品質,但沒有地面真相,不過,如果地面真相可用,它會計算其他計量,例如答案正確性。

良好評估集的元素

良好的評估集具有下列特性:

  • 代表: 準確地反映應用程式在生產環境中遇到的各種要求。
  • 挑戰: 集合應包含困難且多樣化的案例,以有效測試模型的功能。 在理想情況下,它包含對抗範例,例如嘗試提示插入的問題,或嘗試從 LLM 產生不當響應的問題。
  • 持續更新: 必須定期更新此集合,以反映應用程式在生產環境中使用的方式、索引數據的變更本質,以及應用程式需求的任何變更。

Databricks 建議評估題目集至少包含 30 個問題,理想上是 100 到 200 個。 最佳評估集會隨著時間成長,以包含1,000個問題。

定型、測試和驗證集

為了避免過度擬合,Databricks 建議將您的數據集分割成訓練集、測試集和驗證集:

  • 訓練集:含有約 ~70% 的問題。 用於初始階段來評估每個實驗,以識別最高的潛在實驗。
  • 測試集: ~20% 的問題。 用於評估訓練集中表現最佳的實驗。
  • 驗證集: 大約 10 個問題%。 用於將實驗部署到生產環境之前的最終驗證檢查。

馬賽克 AI 代理評估協助您建立評估集,透過網頁聊天介面讓利益相關者對應用程式的輸出提供意見反饋。 鏈條的輸出和利益關係人的意見反應會儲存在 Delta 數據表中,然後可以編入評估集。 如需範例程式代碼的實作指示,請參閱本操作手冊的實作一節中 策劃評估集

< 上一頁:評估 RAG 品質

下一步:評估效能 >