評估驅動開發工作流程
本節將逐步引導您完成 Databricks 建議的開發工作流程,以建置、測試及部署高品質的 RAG 應用程式:評估驅動開發。 此工作流程是以馬賽克研究小組建議的最佳做法為基礎,以建置和評估高品質的 RAG 應用程式。 Databricks 建議下列評估驅動工作流程:
- 定義需求。
- 收集項目關係人關於快速概念證明的意見反應(POC)。
- 評估POC的品質。
- 反覆診斷並修正質量問題。
- 部署至生產環境
- 在生產環境中監視。
評估驅動開發有兩個核心概念:
-
類似於您每年設定商務目標的方式,您需要定義使用案例的高品質意義。 馬賽克 AI 代理程式評估提供一組建議的計量可供使用,其中最重要的是答案正確性或正確性 - RAG 應用程式是否提供正確的答案?
評估集:客觀測量計量。
若要客觀測量品質,您需要評估集,其中包含由人類驗證的已知良好答案的問題。 本指南會逐步引導您完成開發和反覆精簡此評估集的程式。
錨定計量和評估集可提供下列優點:
- 您可以在開發期間反覆且自信地精簡應用程式的品質,而不再猜測變更是否導致改善。
- 當您自信地表示,當您能夠自信地陳述應用程式時,與商務項目關係人保持一致會變得更加直接,「我們知道我們的應用程式正確回答我們業務最關鍵的問題,而且不會幻覺」。
如需說明評估驅動工作流程的逐步解說,請從 必要條件:收集需求開始。