你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

如何在 Azure AI Foundry 门户中查看评估结果

项目
12/18/2024

Azure AI Foundry 门户评估页是一个通用型中心，它不仅允许可视化和评估结果，还可以充当用于优化、故障排除和选择适合部署需求的理想 AI 模型的控制中心。它是 Azure AI Foundry 项目中以数据为依据进行决策和增强性能的一站式解决方案。你可以无缝访问和解释来自各种源的结果，包括流、操场快速测试会话、评估提交 UI、SDK。这种灵活性确保你能够以最适合工作流和首选项的方式与结果进行交互。

在查看评估结果后，你可以深入了解全面的检查。这包括不仅可以查看单个结果，还可以在多次评估运行之间比较这些结果。这样可以识别趋势、模式和差异，从而深入了解 AI 系统在不同条件下的性能。

在本文中学习如何：

查看评估结果和指标。
比较评估结果。
了解内置评估指标。
提高性能。
查看评估结果和指标。

查找评估结果

提交评估后，可以导航到“评估”页面，在运行列表中找到提交的评估运行。

可以在运行列表中监视和管理评估运行。通过灵活地使用列编辑器修改列以及实施筛选器，可以自定义和创建自己的运行列表版本。此外，还可以快速查看各个运行的聚合评估指标，从而支持你执行快速比较。

提示

若要查看使用 promptflow-evals SDK 或 azure-ai-evaluation 版本 1.0.0b1、1.0.0b2、1.0.0b3 中的任意版本运行的评估，请启用“显示所有运行”切换开关以找到该运行。

若要更深入地了解如何派生评估指标，可以选择“详细了解指标”选项来访问全面的说明。此详细资源提供了对评估过程中所用指标的计算和解释的宝贵见解。

可以选择特定的运行，以进入运行详细信息页。在这里，你可以访问全面的信息，包括评估详细信息，例如测试数据集、任务类型、提示、温度等。此外，你还可以查看与每个数据示例关联的指标。指标分数图表以视觉方式呈现如何在整个数据集中为每个指标分布分数。

指标仪表板图表

我们将按照“AI 质量（AI 辅助）”、“风险和安全”、“AI 质量 (NLP)”以及“自定义”（如果适用）对不同类型的指标细分聚合视图。可以查看评估数据集中分数的分布，并查看每个指标的聚合分数。

对于“AI 质量（AI 辅助）”，我们通过计算每个指标的所有分数的平均值进行聚合。如果你计算 Groundedness Pro，则输出是二进制值，因此聚合分数即为通过率，计算方法为 (true 值数/实例数) x 100。
对于风险和安全指标，我们通过计算每个指标的缺陷率来进行聚合。
- 对于内容有害指标，缺陷率定义为测试数据集中超过严重性等级阈值的实例占整个数据集的百分比。默认情况下，阈值设置为“中等”。
- 在计算受保护或面临间接攻击的材料的缺陷率时，缺陷率是基于输出结果为“true”（即有缺陷）的实例所占的百分比，计算公式如下：缺陷率 =（有缺陷实例数量/总实例数量）× 100。
对于“AI 质量 (NLP)”指标，我们将显示 0 到 1 之间的指标分布直方图。我们通过计算每个指标的所有分数的平均值进行聚合。
对于自定义指标，可以选择“添加自定义图表”，以创建包含所选指标的自定义图表，或查看针对所选输入参数的指标。

还可以通过更改图表类型来自定义内置指标的现有图表。

详细指标结果表

在指标详细信息表格中，可以全面检查每个数据示例。在这里，你可以仔细审查生成的输出及其相应的评估指标分数。此级别的详细信息可让你做出数据驱动的决策并采取特定操作来提高模型的性能。

基于评估指标的一些潜在操作项可能包括：

模式识别：通过筛选数值和指标，可以向下钻取分数较低的示例。调查这些示例，以确定模型的响应中的定期模式或问题。例如，你可能会注意到，当模型在特定主题上生成内容时，通常分数较低。
模型优化：使用评分较低的示例中的见解改进系统提示指令或微调模型。如果观察到一致的问题（例如连贯性或相关性），还可以相应地调整模型的训练数据或参数。
列自定义：列编辑器可让你创建表格的自定义视图，着重于与评估目标最相关的指标和数据。这可以简化分析，帮助你更有效地发现趋势。
关键字搜索：搜索框允许你在生成的输出中查找特定字词或短语。这可用于找出与特定主题或关键字相关的问题或模式，并专门解决这些问题。

指标详细信息表格提供大量数据，可指导模型改进工作，从识别模式到自定义视图，以便基于发现的问题有效分析和优化模型。

下面是问题解答方案的指标结果的一些示例：