评估驱动的开发工作流

项目
08/19/2024

本部分将指导你完成 Databricks 建议的用于生成、测试和部署高质量 RAG 应用程序的开发工作流：评估驱动的开发。此工作流基于 Mosaic 研究团队建议的用于生成和评估高质量的 RAG 应用程序的最佳做法。 Databricks 建议使用以下评估驱动的工作流：

定义要求。
收集有关快速概念证明 (POC) 的利益干系人反馈。
评估 POC 的质量。
以迭代方式诊断和修复质量问题。
部署到生产。
在生产环境中监视。

评估驱动的开发工作流

评估驱动的开发有两个核心概念：

指标：定义高质量的含义。

与每年设置业务目标的方式类似，需要定义高质量对于你的用例意味着什么。 Mosaic AI 代理评估提供了一组建议的指标，其中最重要的指标是答案准确性或正确度，即 RAG 应用程序是否提供了正确的答案。
评估集：客观地衡量指标。

为了客观地衡量质量，需要一个评估集，其中应包含由人类验证的已知正确答案的问题。本指南将指导你完成开发和迭代优化此评估集的过程。

根据指标和评估集对齐可提供以下优势：

可以在开发过程中自信地以迭代方式优化应用程序的质量，不再猜测更改是否促成了改进。
当你可以自信地说：“我们知道我们的应用程序正确地回答了我们业务中最关键的问题，并且这不是幻觉”时，与业务利益干系人就应用程序的生产就绪情况进行协调就会变得更加简单。

有关评估驱动工作流的分步演练，请从先决条件：收集要求开始。