浏览变体和监视选项
在生产期间,需要优化和部署流。 最后,需要监视流,以了解何时需要改进流。
可以通过使用“变体”来优化流,可以将流部署到“终结点”,还可以通过评估关键指标来监视流。
浏览变体
提示流“变体”是具有不同设置的工具节点的版本。 目前,只有 LLM 工具支持变体,其中变体可以表示不同的提示内容或连接设置。 使用变体,用户可以自定义完成特定任务的方法,例如汇总新闻文章。
使用变体的一些好处包括:
- 提高 LLM 生成内容的质量:创建 LLM 节点的各种变体有助于找到高质量内容的最佳提示和设置。
- 节省时间和精力:使用变体,可以轻松管理和比较不同的提示版本、简化历史跟踪并减少提示优化工作量。
- 提高工作效率:它们简化了 LLM 节点的优化工作,加快了变体的创建和管理,从而缩短了时间。
- 便于轻松比较:变体支持并行结果比较,因此有助于根据数据驱动决策选择最有效的变体。
将流部署到终结点
如果对流的性能感到满意,则可以选择将其部署到“联机终结点”。 终结点是可从任何应用程序调用的 URL。 对联机终结点进行 API 调用时,可以预期(几乎)即时响应。
将流部署到联机终结点后,提示流会生成 URL 和密钥,以便可以安全地将流与其他应用程序或业务流程集成。 调用终结点时,将会运行流,并实时返回输出。 因此,将流部署到终结点可以(例如)生成希望在另一个应用程序中返回的聊天或 copilot 响应。
监视评估指标
在提示流中,监视评估指标是了解 LLM 应用程序性能的关键,从而确保它们满足实际预期并交付准确的结果。
要了解应用程序是否满足实际需求,可以收集最终用户反馈并评估应用程序的有用性。 了解应用程序性能是否良好的另一种方法是将 LLM 预测与预期或真值响应进行比较,以衡量准确度和相关性。 评估 LLM 的预测对于保持 LLM 应用程序可靠且有效至关重要。
指标
用于在提示流中监视评估的每个关键指标都可提供对 LLM 性能的独特见解:
- 根基性:度量 LLM 应用程序的输出与输入源或数据库的一致性。
- 关联性:评估 LLM 应用程序的输出与给定输入的相关程度。
- 连贯性:评估 LLM 应用程序文本的逻辑流和可读性。
- 流畅性:评估 LLM 应用程序输出的语法和语言准确度。
- 相似性:量化 LLM 应用程序的输出与基本真相之间的上下文和语义匹配程度。
根基性、关联性、连贯性、流畅性和相似性等指标是质量保证的关键,可确保与 LLM 应用程序的交互准确有效。 每当 LLM 应用程序未按预期执行时,都需要还原回到试验阶段,以迭代方式探索如何改进流。