步骤 6。 在 AI 代理上生成和评估质量修复

本文指导你完成基于根本原因分析循环访问和评估生成 AI 代理中的质量修复的步骤。

POC 工作流关系图,迭代步骤

有关评估 AI 代理的详细信息,请参阅 什么是马赛克 AI 代理评估?

要求

  1. 根据根本原因分析,你确定了要实现和评估的潜在检索生成修补程序。
  2. POC 应用程序(或其他基线链)记录到 MLflow 运行中,代理评估评估存储在同一运行中。

有关本部分中的示例代码,请参阅 GitHub 存储库

代理评估中的预期结果

显示 Databricks MLflow 中代理评估运行的输出的动画 GIF。

上图显示了 MLflow 中的代理评估输出。

如何修复、评估和迭代 AI 代理

对于所有类型,请使用 B_quality_iteration/02_evaluate_fixes 笔记本来评估生成的链与基线配置和 POC 的对比,并选取“更优者”。 此笔记本可帮助你选取更优的试验并将其部署到评审应用或生产就绪且可缩放的 REST API。

  1. 在 Azure Databricks 中,打开 B_quality_iteration/02_evaluate_fixes 笔记本。
  2. 根据要实现的修补程序类型:
    • 对于数据管道修补程序:
    • 对于链配置修补程序:
      • 按照 02_evaluate_fixes 笔记本的 Chain configuration 部分中的说明,将链配置修补程序添加到 CHAIN_CONFIG_FIXES 变量。
    • 对于链代码修补程序:
      • 创建修改后的链代码文件,并将其保存到 B_quality_iteration/chain_code_fixes 文件夹中。 或者,从该文件夹中选择提供的链代码修补程序之一。
      • 按照 02_evaluate_fixes 笔记本的 Chain code 部分中的说明,将链代码文件和任何额外的必需链配置添加到 CHAIN_CODE_FIXES 变量。
  3. Run evaluation 单元格运行笔记本时,会发生以下情况:
    • 评估每个修补程序。
    • 使用最佳质量/成本/延迟指标确定修补程序。
    • 将最佳修补程序部署到评审应用和生产就绪 REST API,以获取利益干系人的反馈。

下一步

继续执行步骤 6(管道)。实施数据管道修补程序

< 上一步:步骤 5.2。调试生成质量

下一步:步骤 6.1。修复数据管道 >