了解大型语言模型 (LLM) 应用的开发生命周期
在了解如何使用提示流之前,让我们探索一下大型语言模型 (LLM) 应用程序的开发生命周期。
生命周期包含以下阶段:
- 初始化:定义用例并设计解决方案。
- 试验:使用小型数据集开发流和进行测试。
- 评估和优化:使用较大的数据集评估流。
- 生产:部署和监视流和应用程序。
在评估和优化以及生产期间,你可能会发现解决方案需要改进。 你可以还原到试验阶段,持续开发你的流,直到对结果感到满意。
让我们详细探讨这些阶段。
初始化
假设你想要设计和开发一个 LLM 应用程序来对新闻文章进行分类。 在开始创建任何内容之前,你需要定义要作为输出的类别。 你需要了解典型的新闻文章是什么样的、如何将文章作为输入呈现给你的应用程序,以及应用程序如何生成所需的输出。
换句话说,在初始化期间,你需要:
- 定义目标
- 收集示例数据集
- 生成基本提示
- 设计流
要设计、开发和测试 LLM 应用程序,你需要一个用作输入的示例数据集。 示例数据集是代表最终应作为输入由你的 LLM 应用程序分析的数据的一小部分。
收集或创建示例数据集时,应确保数据的多样性,以涵盖各种方案和边缘情况。 还应从数据集中删除任何隐私敏感信息,以避免任何漏洞。
试验
你收集了新闻文章的示例数据集,并确定了希望文章划分的类别。 你设计了一个将新闻文章作为输入的流,并使用 LLM 对文章进行分类。 要测试你的流是否能生成预期的输出,你需要让它针对你的示例数据集运行。
试验阶段是一个迭代过程,在此期间,你 (1) 针对示例数据集运行该流。 然后 (2) 评估提示的性能。 如果你 (3) 对结果感到满意,则可以继续评估和优化。 如果你认为有改进的空间,则可以 (4) 通过更改提示或流本身来修改流。
评估和优化
如果你基于示例数据集对分类新闻文章的流的输出感到满意,则可以针对较大的数据集评估流的性能。
通过在较大的数据集上测试流,你可以评估 LLM 应用程序推广到新数据的方式。 在评估期间,你可以确定需优化或调整的潜在瓶颈或领域。
编辑流时,应先针对较小的数据集运行该流,然后再针对较大的数据集运行它。 使用较小的数据集测试流时,可以更快地响应任何问题。
当你的 LLM 应用程序在处理各种方案时都看起来稳定和可靠后,可以决定将 LLM 应用程序推到生产环境。
生产
最后,你的新闻文章分类应用程序对生产就绪。
在生产期间,你需要:
- 优化分类传入的文章的流,提升效率和有效性。
- 将流部署到终结点。 调用终结点时,将触发流以运行,并生成所需的输出。
- 通过收集使用情况数据和最终用户反馈来监视解决方案的性能。 通过了解应用程序的性能,你可以在必要时改进流。
探索完整的开发生命周期
现在你已了解 LLM 应用程序开发生命周期的每个阶段,可以探索完整的概览了: