你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
在 Azure AI Studio 操场中手动评估提示
重要
本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款。
开始使用提示工程时,应逐一测试不同的输入,以评估提示的有效性,这可能会耗费大量时间。 这是因为检查内容筛选器是否正常工作、响应是否准确等非常重要。
为了简化此过程,可以在 Azure AI Studio 中使用手动评估,这是一种评估工具,支持针对单个接口中的测试数据持续循环访问和评估提示。 还可以对输出(即模型的响应)进行手动评分,有助于增加提示的置信度。
手动评估可帮助你开始了解提示的性能,并循环访问提示,以确保达到所需的置信度。
在本文中学习如何:
- 生成手动评估结果
- 对模型响应进行评分
- 循环访问提示并重新评估
- 保存和比较结果
- 使用内置指标进行评估
先决条件
若要生成手动评估结果,需要准备好以下各项:
采用以下格式之一的测试数据集:csv 或 jsonl。 如果你没有可用的数据集,我们还允许你从 UI 手动输入数据。
以下其中一种模型的部署:GPT 3.5 模型、GPT 4 模型或 Davinci 模型。 若要详细了解如何创建部署,请参阅“部署模型”。
注意
目前,仅聊天和完成任务类型支持 Azure OpenAI 模型手动评估。
生成手动评估结果
从“操场”中,选择“手动评估”,可开始根据测试数据和提示手动查看模型响应的过程。 提示会自动转换为“手动评估”,现在只需添加要用于评估提示的测试数据。
可以使用“输入”列中的文本框手动完成此操作。
还可以“导入数据”以选择项目中以前的现有数据集之一,或者上传 CSV 或 JSONL 格式的数据集。 加载数据后,系统会提示你相应地映射列。 完成并选择“导入”后,以下列中会相应地填充数据。
注意
可以将多达 50 个输入行添加到手动评估中。 如果测试数据的输入行超过 50 行,我们将上传输入列中的前 50 行。
添加数据后,可以“运行”,以使用模型响应来填充输出列。
对模型响应进行评分
可以为每个响应提供大拇指向上或向下评分来评估提示输出。 根据提供的评分,可以在概览摘要中查看这些响应的分数。
循环访问提示并重新评估
根据摘要,可能需要对提示进行更改。 可以使用上面的提示控件编辑提示设置。 这可以是更新系统消息、更改模型或编辑参数。
进行编辑后,可以选择重新运行全部项以更新整个表,或重点重新运行第一次不符合预期的特定行。
保存和比较结果
填充结果后,可以“保存结果”以与团队共享进度,或者稍后从你中断的地方继续进行人工评估。
还可以通过保存结果并在“手动评估”下的“评估”选项卡中查看结果来比较不同手动评估中的大拇指向上和向下评分。
后续步骤
详细了解如何评估生成式 AI 应用程序:
详细了解危害缓解技术。