次の方法で共有


Azure AI Foundry ポータルでモデルをベンチマークする方法

重要

この記事で "(プレビュー)" と付記されている項目は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

この記事では、Azure AI Foundry ポータル内のモデル ベンチマーク ツールを使用し、モデルとデータセットの間でベンチマークを比較する方法について説明します。 ベンチマークの結果を分析し、自分のデータでベンチマークを実行する方法についても学習します。 ベンチマークは、特定のユース ケースまたはアプリケーションの要件を満たすモデルに関して、情報を得たうえで意思決定するために役立ちます。

前提条件

  • 有効な支払い方法を持つ Azure サブスクリプション。 無料または試用版の Azure サブスクリプションは機能しません。 Azure サブスクリプションを持っていない場合は、始めるために有料の Azure アカウントを作成してください。

  • Azure AI Foundry プロジェクト

モデル カタログを使用してモデル ベンチマークにアクセスする

Azure AI は、普及しており、最も頻繁に使用されている一部のモデルのモデル ベンチマークをサポートしています。 ベンチマークの詳細な結果を使用し、Azure AI Foundry モデル カタログからモデルを直接比較して選択するには、次の手順に従います。

  1. Azure AI Foundry にサインインします
  2. プロジェクトを開いていない場合、プロジェクトを選択します。
  3. 左側のナビゲーション ウィンドウから [モデル カタログ] を選択します。
  1. 関心のあるモデルまでスクロールして選択します。 たとえば、gpt-4o を選択します。 この操作でモデルの概要ページが開きます。

    ヒント

    モデル カタログから、コレクション フィルターを使用し、ベンチマーク結果を選択することで、ベンチマークが使用可能なモデルを表示できます。 これらのモデルには、ヒストグラムのようなベンチマーク アイコンがあります。

  2. ベンチマーク タブに移動し、モデルのベンチマーク結果を確認します。

    gpt-4o のベンチマーク タブを示すスクリーンショット。

  3. モデル カタログのホームページに戻ります。

  4. モデル カタログのホームページで [モデルの比較] を選択し、ベンチマーク サポートのあるモデルを探し、そのメトリックを表示し、さまざまなモデル間のトレードオフを分析します。 この分析により、要件に最適なモデルが選択の際にわかります。

    モデル カタログのメイン ページの [モデル比較] ボタンを示すスクリーンショット。

  5. 目的のタスクを選択し、AI 品質に対するコストなど、関心範囲を指定し、さまざまなモデル間のトレードオフを評価します。

  6. リスト ビューに切り替えると、各モデルの結果がさらに詳しく表示されます。

    ベンチマーク比較ビューの例を示すスクリーンショット。

ベンチマーク結果の分析

特定のモデルの [ベンチマーク] タブを開いているとき、ベンチマーク結果をより良く理解し、解釈できるよう、広範囲の情報を収集できます。

  • 高レベルの集計スコア: AI 品質、コスト、待機時間、スループットに関するこれらのスコアからは、モデルのパフォーマンスの概要が簡単にわかります。

  • 比較グラフ: これらのグラフには、関連するモデルとの比較でモデルの相対位置が表示されます。

  • メトリック比較表: この表は各メトリックの詳細な結果を示します。

    gpt-4o のベンチマーク タブを示すスクリーンショット。

既定では、Azure AI Foundry では、さまざまなメトリックとデータセットの平均インデックスが表示され、モデル パフォーマンスの概要が提供されます。

特定のメトリックとデータセットのベンチマーク結果にアクセスするには:

  1. グラフ上の展開ボタンを選択します。 ポップアップ比較グラフには詳細情報が表示され、さらに柔軟な比較が可能になります。

    詳細な比較グラフを選択する展開ボタンを示すスクリーンショット。

  2. 目的のメトリックを選択し、特定のシナリオに基づいてさまざまなデータセットを選択します。 結果の計算に使用されるパブリック データセットのメトリックと説明の詳細な定義については、詳細情報を選択してください。

    特定のメトリックとデータセットを含む比較グラフを示すスクリーンショット。

データを使用してベンチマーク結果を評価する

前のセクションでは、パブリック データセットを使用して Microsoft によって計算されたベンチマーク結果を示しました。 ただし、データと同じメトリック セットを再生成してみることができます。

  1. モデル カードの [ベンチマーク] タブに戻ります。

  2. [独自のデータで試す] を選択し、自分のデータでモデルを評価します。 自分のデータで評価すると、特定のシナリオにおけるモデルのパフォーマンスがわかります。

    独自のデータで評価するために選択するボタンを示すスクリーンショット。