你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

如何在 Azure AI Foundry 门户中对模型进行基准检验

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

本文将介绍如何使用 Azure AI Foundry 门户中的模型基准检验工具比较模型和数据集之间的基准。 你还将学习如何分析基准检验结果并使用数据执行基准检验。 基准检验可以帮助你就哪些模型符合特定用例或应用程序的要求做出明智的决定。

先决条件

通过模型目录访问模型基准

Azure AI 支持对流行且最常用的精选模型进行模型基准检验。 按照以下步骤,使用详细的基准检验结果直接从 Azure AI Foundry 模型目录中比较和选择模型:

  1. 登录到 Azure AI Foundry
  2. 如果你尚未进入项目,请先选择它。
  3. 从左侧导航窗格中选择“模型目录”。
  1. 选择你感兴趣的模型。 例如,选择 gpt-4o。 此操作将打开模型的概述页面。

    提示

    在模型目录中,可以使用“集合”筛选器并选择“基准检验结果”来显示提供基准检验的模型。 这些模型有一个看起来像直方图的“基准检验”图标。

  2. 转到“基准检验”选项卡,以检查模型的基准检验结果。

    显示 gpt-4o“基准检验”选项卡的屏幕截图。

  3. 返回模型目录的主页。

  4. 在模型目录的主页上选择“比较模型”,探索支持基准检验的模型,查看其指标,并分析不同模型的优劣。 此分析有助于选择最符合要求的模型。

    显示模型目录主页上的“模型比较”按钮的屏幕截图。

  5. 选择所需的任务并指定感兴趣的维度,例如 AI 质量与成本,以评估不同模型的优劣。

  6. 可以切换到列表视图,以访问每个模型的更详细结果。

    显示基准比较视图示例的屏幕截图。

分析基准检验结果

在特定模型的“基准检验”选项卡中时,可以收集大量信息以更好地理解和解释基准检验结果,包括:

  • 高级聚合分数:这些 AI 质量、成本、延迟和吞吐量的分数让你可以快速了解模型性能。

  • 比较图表:这些图表显示模型与相关模型相比的相对情况。

  • 指标比较表:此表显示每个指标的详细结果。

    显示 gpt-4o“基准检验”选项卡的屏幕截图。

默认情况下,Azure AI Foundry 会显示各种指标和数据集的平均指数,让你可以大致了解模型性能。

若要访问特定指标和数据集的基准检验结果,请执行以下操作:

  1. 选择图表上的展开按钮。 弹出式比较图表将显示详细信息,并且能够更灵活地进行比较。

    显示选择用于详细比较图表的展开按钮的屏幕截图。

  2. 根据你的特定场景,选择感兴趣的指标并选择不同的数据集。 有关用于计算结果的公共数据集的指标和说明的更详细定义,请选择阅读更多

    显示具有特定指标和数据集的比较图表的屏幕截图。

使用你的数据评估基准检验结果

前面的部分显示了 Microsoft 使用公共数据集计算的基准检验结果。 但是,可以尝试使用你的数据重新生成同一组指标。

  1. 返回到模型卡片中的“基准检验”选项卡。

  2. 选择“使用自己的数据尝试”以使用你自己的数据评估模型。 根据你自己的数据进行评估可帮助你了解模型在特定场景中的表现。

    显示选择用于使用你自己的数据进行评估的按钮的屏幕截图。