評価を実行して結果を表示する

[アーティクル]
02/08/2025

重要

この記事では、AI アプリケーションの開発時に評価を実行し、結果を表示する方法について説明します。運用トラフィックでデプロイされたエージェントの品質を監視する方法については、「運用トラフィックでエージェントの品質を監視する方法を参照してください。

エージェントを評価するには、評価セットを指定する必要があります。少なくとも、評価セットとは、キュレーションされた評価要求のセットや、エージェントのユーザーによるトレースから取得できるアプリケーションへの一連の要求のことです。詳細については、「評価セットおよびエージェント評価入力スキーマを参照してください。

評価を実行する

評価を実行するには、MLflow API の mlflow.evaluate() メソッドを使い、model_type に databricks-agent を指定して、Databricks と組み込み AI ジャッジで Agent Evaluation を有効にします。

次の例では、グローバルガイドライン AI ジャッジ向けのグローバル対応ガイドラインのセットを指定します。これにより、応答がガイドラインに準拠していない場合に評価は失敗します。この方法でエージェントを評価するために、要求ごとのラベルを収集する必要はありません。

import mlflow
from mlflow.deployments import get_deploy_client

# The guidelines below will be used to evaluate any response of the agent.
global_guidelines = [
  "If the request is unrelated to Databricks, the response must should be a rejection of the request",
  "If the request is related to Databricks, the response must should be concise",
  "If the request is related to Databricks and question about API, the response must have code",
  "The response must be professional."
]

eval_set = [{
  "request": {"messages": [{"role": "user", "content": "What is the difference between reduceByKey and groupByKey in Databricks Spark?"}]}
}, {
  "request": "What is the weather today?",
}]

# Define a very simple system-prompt agent.
@mlflow.trace(span_type="AGENT")
def llama3_agent(messages):
  SYSTEM_PROMPT = """
    You are a chatbot that answers questions about Databricks.
    For requests unrelated to Databricks, reject the request.
  """
  return get_deploy_client("databricks").predict(
    endpoint="databricks-meta-llama-3-3-70b-instruct",
    inputs={"messages": [{"role": "system", "content": SYSTEM_PROMPT}, *messages]}
  )

# Evaluate the Agent with the evaluation set and log it to the MLFlow run "system_prompt_v0".
with mlflow.start_run(run_name="system_prompt_v0") as run:
  mlflow.evaluate(
    data=eval_set,
    model=lambda request: llama3_agent(**request),
    model_type="databricks-agent",
    evaluator_config={
      "databricks-agent": {
        "global_guidelines": global_guidelines
      }
    }
  )

この例では、グラウンドトゥルースラベルを必要としない次のジャッジを実行します。ガイドライン準拠、クエリとの関連性、安全性。

エージェントとリトリーバーを使用する場合、次のジャッジが実行されます。根拠性、チャンクの関連性

mlflow.evaluate() では、各評価レコードの待機時間とコストメトリックも計算され、特定の実行のすべての入力にわたって結果が集計されます。これらは評価結果と呼ばれます。評価の結果は、モデルパラメーターなどの他のコマンドによってログされる情報と共に、それを含む実行でログされます。 MLflow 実行の外部で mlflow.evaluate() を呼び出すと、新しい実行が作成されます。

グラウンドトゥルースラベルを使用して評価する

次の例では、行ごとのグラウンドトゥルースラベル expected_facts と guidelines を指定します。それぞれ正確性とガイドラインのジャッジを実行します。個々の評価は、行ごとのグラウンドトゥルースラベルを使って個別に処理されます。

%pip install databricks-agents
dbutils.library.restartPython()

import mlflow
from mlflow.types.llm import ChatCompletionResponse, ChatCompletionRequest
from mlflow.deployments import get_deploy_client
import dataclasses

eval_set = [{
  "request": "What is the difference between reduceByKey and groupByKey in Databricks Spark?",
  "expected_facts": [
    "reduceByKey aggregates data before shuffling",
    "groupByKey shuffles all data",
  ],
  "guidelines": ["The response must be concice and show a code snippet."]
}, {
  "request": "What is the weather today?",
  "guidelines": ["The response must reject the request."]
}]

# Define a very simple system-prompt agent.
@mlflow.trace(span_type="AGENT")
def llama3_agent(messages):
  SYSTEM_PROMPT = """
    You are a chatbot that answers questions about Databricks.
    For requests unrelated to Databricks, reject the request.
  """
  return get_deploy_client("databricks").predict(
    endpoint="databricks-meta-llama-3-3-70b-instruct",
    inputs={"messages": [{"role": "system", "content": SYSTEM_PROMPT}, *messages]}
  )

# Evaluate the agent with the evaluation set and log it to the MLFlow run "system_prompt_v0".
with mlflow.start_run(run_name="system_prompt_v0") as run:
  mlflow.evaluate(
    data=eval_set,
    model=lambda request: llama3_agent(**request),
    model_type="databricks-agent"
  )

この例では、次に加えて、上記と同じジャッジを実行します。正確性、関連性、安全

取得コンポーネントでエージェントを使用する場合は、次のジャッジが実行されます。コンテキストの十分さ

要件

Azure AI 搭載の AI 支援機能をワークスペースで有効にする必要があります。

評価実行に入力を提供する

評価実行に対して入力を指定するには、次の 2 つの方法があります。

前に生成された出力を指定して、評価セットと比較します。 このオプションは、既に運用環境にデプロイされているアプリケーションからの出力を評価する場合、または評価構成間で評価結果を比較する場合に推奨されます。

このオプションでは、次のコードに示すように評価セットを指定します。評価セットには、以前に生成された出力が含まれている必要があります。詳細な例については、「 Example: 以前に生成された出力をエージェント評価に渡す方法を参照してください。
```
evaluation_results = mlflow.evaluate(
    data=eval_set_with_chain_outputs_df,  # pandas DataFrame with the evaluation set and application outputs
    model_type="databricks-agent",
)
```
アプリケーションを入力引数として渡します。mlflow.evaluate()評価セット内の入力ごとにアプリケーションを呼び出し、生成された各出力の品質評価とその他のメトリックを報告します。このオプションは、MLflow トレースが有効になっている MLflow を使ってアプリケーションがログされている場合、またはアプリケーションがノートブックの Python 機能として実装されている場合に推奨されます。アプリケーションが Databricks の外部で開発された場合、または Databricks の外部にデプロイされている場合は、このオプションは推奨されません。

このオプションでは、次のコードに示すように、関数呼び出しで評価セットとアプリケーションを指定します。詳細な例については、「 Example: アプリケーションを Agent Evaluation に渡す方法」を参照してください。
```
evaluation_results = mlflow.evaluate(
    data=eval_set_df,  # pandas DataFrame containing just the evaluation set
    model=model,  # Reference to the MLflow model that represents the application
    model_type="databricks-agent",
)
```

評価セットスキーマの詳細については、「 Agent Evaluation 入力スキーマを参照してください。

評価の出力

エージェント評価では、 mlflow.evaluate() からの出力がデータフレームとして返され、これらの出力も MLflow 実行に記録されます。出力は、ノートブック内で、または対応する MLflow 実行のページから検査できます。

ノートブックの出力を確認する

次のコードは、ノートブックから評価実行の結果を確認する方法のいくつかの例を示しています。

%pip install databricks-agents pandas
dbutils.library.restartPython()

import mlflow
import pandas as pd

###
# Run evaluation
###
evaluation_results = mlflow.evaluate(..., model_type="databricks-agent")

###
# Access aggregated evaluation results across the entire evaluation set
###
results_as_dict = evaluation_results.metrics
results_as_pd_df = pd.DataFrame([evaluation_results.metrics])

# Sample usage
print(f"The percentage of generated responses that are grounded: {results_as_dict['response/llm_judged/groundedness/percentage']}")

###
# Access data about each question in the evaluation set
###

per_question_results_df = evaluation_results.tables['eval_results']

# Show information about responses that are not grounded
per_question_results_df[per_question_results_df["response/llm_judged/groundedness/rating"] == "no"].display()

per_question_results_dfデータフレームには、入力スキーマ内のすべての列と、各要求に固有のすべての評価結果が含まれます。計算結果の詳細については、「エージェント評価によって品質、コスト、待機時間を評価する方法を参照してください。

MLflow UI を使用して出力を確認する

評価結果は MLflow UI でも確認できます。 MLflow UI にアクセスするには、ノートブックの右側のサイドバーにある実験アイコン、対応する実行の順にクリックするか、mlflow.evaluate() を実行したノートブックセルのセル結果に表示されるリンクをクリックします。

1 回の実行の評価結果を確認する

このセクションでは、個々の実行の評価結果を確認する方法について説明します。実行間で結果を比較するには、「実行全体の比較結果を比較するを参照してください。

LLM審査委員による品質評価の概要

要求ごとのジャッジ評価は、 databricks-agents バージョン 0.3.0 以降で利用できます。

評価セット内の各要求の LLM 判定品質の概要を表示するには、[MLflow 実行] ページの [ 評価結果 ] タブをクリックします。このページには、各評価実行の概要一覧が表示されます。詳細については、実行の [評価 ID] をクリックします。

overview_judges

この概要では、要求ごとに異なるジャッジの評価、これらの評価に基づく各要求の品質合格/失敗状態、失敗した要求の根本原因を示します。テーブル内の行をクリックすると、次のような要求の詳細ページが表示されます。

モデルの出力: エージェントアプリから生成された応答とそのトレース (含まれている場合)。
想定される出力: 各要求に対して想定される応答。
詳細な評価: このデータに対する LLM ジャッジの評価。 [詳細を表示する] をクリックすると、ジャッジによる正当性の根拠が表示されます。

details_judges

評価セット全体の集計結果

完全な評価セット全体で集計された結果を表示するには、[ Overview ] タブ (数値の場合) または [ Model メトリック タブ (グラフの場合) をクリックします。

評価メトリック、値

評価メトリック、グラフ

実行間で評価結果を比較する

複数の実行に関する評価結果を比較し、エージェントアプリケーションが変更にどのように応答するかを確認することが重要です。結果を比較すると、変更が品質にプラスの影響を与えているかどうかを理解し、変化する動作をトラブルシューティングするのに役立ちます。

実行間で要求ごとの結果を比較する

複数の実行に関する個々の要求のデータを比較するには、[実験] ページの [評価] タブをクリックします。表に評価セット内の各質問が示されます。表示する列を選択するには、ドロップダウンメニューを使います。

評価セット内の個々の質問

実行間で集計された結果を比較する

[実験] ページから同じ集計結果にアクセスできます。これにより、異なる実行間で結果を比較することもできます。 [実験] ページにアクセスするには、ノートブックの右側のサイドバーにある実験アイコンをクリックするか、mlflow.evaluate() を実行したノートブックセルのセル結果に表示されるリンクをクリックします。

[実験] ページでをクリックします。これにより、選択した実行の集計結果を視覚化し、過去の実行と比較できます。

集計結果

どのジャッジが実行されているか

既定では、各評価レコードに対して、モザイク AI エージェント評価は、レコードに存在する情報に最も一致するジャッジのサブセットを適用します。具体的には、次のように使用します。

レコードにグラウンドトゥルースの応答が含まれる場合、Agent Evaluation は context_sufficiency、groundedness、correctness、safety、guideline_adherence の各ジャッジを適用します。
レコードにグラウンドトゥルースの応答が含まれない場合、Agent Evaluation は chunk_relevance、groundedness、relevance_to_query、safety、guideline_adherence の各ジャッジを適用します。

詳細については、以下を参照してください。

組み込みのジャッジのサブセットを実行する
カスタム AI ジャッジ
エージェント評価による品質、コスト、待機時間の評価方法

LLMジャッジの信頼と安全に関する情報については、LLMのジャッジを推進するモデルに関する情報を参照してください。

例: アプリケーションをエージェント評価に渡す方法

アプリケーションを mlflow_evaluate()に渡すには、 model 引数を使用します。 model引数にアプリケーションを渡すための 5 つのオプションがあります。

Unity カタログに登録されているモデル。
現在の MLflow 実験でログに記録された MLflow モデル。
ノートブックに読み込まれる PyFunc モデル。
ノートブック内のローカル関数。
デプロイされたエージェントエンドポイント。

各オプションを示すコード例については、次のセクションを参照してください。

オプション 1. Unity カタログに登録されているモデル

%pip install databricks-agents pandas
dbutils.library.restartPython()

import mlflow
import pandas as pd

evaluation_results = mlflow.evaluate(
    data=eval_set_df,  # pandas DataFrame with just the evaluation set
    model = "models:/catalog.schema.model_name/1"  # 1 is the version number
    model_type="databricks-agent",
)

オプション 2. 現在の MLflow 実験でログに記録された MLflow モデル

%pip install databricks-agents pandas
dbutils.library.restartPython()

import mlflow
import pandas as pd

# In the following lines, `6b69501828264f9s9a64eff825371711` is the run_id, and `chain` is the artifact_path that was
# passed with mlflow.xxx.log_model(...).
# If you called model_info = mlflow.langchain.log_model() or mlflow.pyfunc.log_model(), you can access this value using `model_info.model_uri`.
evaluation_results = mlflow.evaluate(
    data=eval_set_df,  # pandas DataFrame with just the evaluation set
    model = "runs:/6b69501828264f9s9a64eff825371711/chain"
    model_type="databricks-agent",
)

方法 3. ノートブックに読み込まれる PyFunc モデル

%pip install databricks-agents pandas
dbutils.library.restartPython()

import mlflow
import pandas as pd

evaluation_results = mlflow.evaluate(
    data=eval_set_df,  # pandas DataFrame with just the evaluation set
    model = mlflow.pyfunc.load_model(...)
    model_type="databricks-agent",
)

オプション 4: ノートブックのローカル関数

この関数は、次のように書式設定された入力を受け取ります。

{
  "messages": [
    {
      "role": "user",
      "content": "What is MLflow?",
    }
  ],
  ...
}

この関数は、次の 3 つのサポートされている形式のいずれかで値を返す必要があります。

モデルの応答を含むプレーン文字列。

ChatCompletionResponse形式のディクショナリ。次に例を示します。

{
  "choices": [
    {
      "message": {
        "role": "assistant",
        "content": "MLflow is a machine learning toolkit.",
      },
     ...
    }
  ],
  ...,
}

StringResponseなどの{ "content": "MLflow is a machine learning toolkit.", ... }形式のディクショナリ。

次の例では、ローカル関数を使用して基礎モデルエンドポイントをラップし、評価します。

  %pip install databricks-agents pandas
  dbutils.library.restartPython()

  import mlflow
  import pandas as pd

  def model(model_input):
    client = mlflow.deployments.get_deploy_client("databricks")
    return client.predict(endpoint="endpoints:/databricks-meta-llama-3-1-405b-instruct", inputs={"messages": model_input["messages"]})

  evaluation_results = mlflow.evaluate(
    data=eval_set_df,  # pandas DataFrame with just the evaluation set
    model = model
    model_type="databricks-agent",
  )

オプション 5. デプロイされたエージェントエンドポイント

このオプションは、 databricks.agents.deploy を使用してデプロイされたエージェントエンドポイントと、 databricks-agents SDK バージョン 0.8.0 以降を使用する場合にのみ機能します。基盤モデルまたは古い SDK バージョンの場合は、オプション 4 を使用してモデルをローカル関数でラップします。

%pip install databricks-agents pandas
dbutils.library.restartPython()

import mlflow
import pandas as pd

# In the following lines, `endpoint-name-of-your-agent` is the name of the agent endpoint.
evaluation_results = mlflow.evaluate(
    data=eval_set_df,  # pandas DataFrame with just the evaluation set
    model = "endpoints:/endpoint-name-of-your-agent"
    model_type="databricks-agent",
)

アプリケーションが `mlflow_evaluate()` 呼び出しに含まれるときに評価セットを渡す方法

次のコードでは、 data は評価セットを持つ pandas DataFrame です。これらは簡単な例です。詳細については、 input スキーマを参照してください。

# You do not have to start from a dictionary - you can use any existing pandas or Spark DataFrame with this schema.

# Minimal evaluation set
bare_minimum_eval_set_schema = [
    {
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
    }]

# Complete evaluation set
complete_eval_set_schema = [
    {
        "request_id": "your-request-id",
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "expected_retrieved_context": [
            {
                # In `expected_retrieved_context`, `content` is optional, and does not provide any additional functionality.
                "content": "Answer segment 1 related to What is the difference between reduceByKey and groupByKey in Spark?",
                "doc_uri": "doc_uri_2_1",
            },
            {
                "content": "Answer segment 2 related to What is the difference between reduceByKey and groupByKey in Spark?",
                "doc_uri": "doc_uri_2_2",
            },
        ],
        "expected_response": "There's no significant difference.",
    }]

# Convert dictionary to a pandas DataFrame
eval_set_df = pd.DataFrame(bare_minimum_eval_set_schema)

# Use a Spark DataFrame
import numpy as np
spark_df = spark.table("catalog.schema.table") # or any other way to get a Spark DataFrame
eval_set_df = spark_df.toPandas()

例: 以前に生成された出力をエージェント評価に渡す方法

このセクションでは、 mlflow_evaluate() 呼び出しで以前に生成された出力を渡す方法について説明します。必要な評価セットスキーマについては、 Agent Evaluation 入力スキーマを参照してください。

次のコードでは、 data は、アプリケーションによって生成された評価セットと出力を含む pandas DataFrame です。これらは簡単な例です。詳細については、 input スキーマを参照してください。

%pip install databricks-agents pandas
dbutils.library.restartPython()

import mlflow
import pandas as pd

evaluation_results = mlflow.evaluate(
    data=eval_set_with_app_outputs_df,  # pandas DataFrame with the evaluation set and application outputs
    model_type="databricks-agent",
)

# You do not have to start from a dictionary - you can use any existing pandas or Spark DataFrame with this schema.

# Minimum required input
bare_minimum_input_schema = [
    {
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "response": "reduceByKey aggregates data before shuffling, whereas groupByKey shuffles all data, making reduceByKey more efficient.",
    }]

# Input including optional arguments
complete_input_schema  = [
    {
        "request_id": "your-request-id",
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "expected_retrieved_context": [
            {
                # In `expected_retrieved_context`, `content` is optional, and does not provide any additional functionality.
                "content": "Answer segment 1 related to What is the difference between reduceByKey and groupByKey in Spark?",
                "doc_uri": "doc_uri_2_1",
            },
            {
                "content": "Answer segment 2 related to What is the difference between reduceByKey and groupByKey in Spark?",
                "doc_uri": "doc_uri_2_2",
            },
        ],
        "expected_response": "There's no significant difference.",
        "response": "reduceByKey aggregates data before shuffling, whereas groupByKey shuffles all data, making reduceByKey more efficient.",
        "retrieved_context": [
            {
                # In `retrieved_context`, `content` is optional. If provided, the Databricks Context Relevance LLM Judge is executed to check the `content`'s relevance to the `request`.
                "content": "reduceByKey reduces the amount of data shuffled by merging values before shuffling.",
                "doc_uri": "doc_uri_2_1",
            },
            {
                "content": "groupByKey may lead to inefficient data shuffling due to sending all values across the network.",
                "doc_uri": "doc_uri_6_extra",
            },
        ],
        "guidelines": [
          "The response must be in English",
        ]
    }]

# Convert dictionary to a pandas DataFrame
eval_set_with_app_outputs_df = pd.DataFrame(bare_minimum_input_schema)

# Use a Spark DataFrame
import numpy as np
spark_df = spark.table("catalog.schema.table") # or any other way to get a Spark DataFrame
eval_set_with_app_outputs_df = spark_df.toPandas()

例: カスタム関数を使用して LangGraph からの応答を処理する

LangGraph エージェント (特にチャット機能を持つエージェント) は、1 回の推論呼び出しで複数のメッセージを返すことができます。エージェントの応答を、Agent Evaluation がサポートする形式に変換するのはユーザーの責任です。

1 つの方法は、 custom 関数を使用して応答を処理することです。次の例は、LangGraph モデルから最後のチャットメッセージを抽出するカスタム関数を示しています。この関数は、 mlflow.evaluate() で 1 つの文字列応答を返すために使用されます。これは、 ground_truth 列と比較できます。

このコード例では、次の前提条件を想定しています。

モデルは、{"messages": [{"role": "user", "content": "hello"}} という形式の入力を受け入れます。
モデルは、["response 1", "response 2"] という形式の文字列のリストを返します。

次のコードは、"response 1nresponse2" という形式で、連結された応答をジャッジに送信します。

import mlflow
import pandas as pd
from typing import List

loaded_model = mlflow.langchain.load_model(model_uri)
eval_data = pd.DataFrame(
    {
        "inputs": [
            "What is MLflow?",
            "What is Spark?",
        ],
        "expected_response": [
            "MLflow is an open-source platform for managing the end-to-end machine learning (ML) lifecycle. It was developed by Databricks, a company that specializes in big data and machine learning solutions. MLflow is designed to address the challenges that data scientists and machine learning engineers face when developing, training, and deploying machine learning models.",
            "Apache Spark is an open-source, distributed computing system designed for big data processing and analytics. It was developed in response to limitations of the Hadoop MapReduce computing model, offering improvements in speed and ease of use. Spark provides libraries for various tasks such as data ingestion, processing, and analysis through its components like Spark SQL for structured data, Spark Streaming for real-time data processing, and MLlib for machine learning tasks",
        ],
    }
)

def custom_langgraph_wrapper(model_input):
    predictions = loaded_model.invoke({"messages": model_input["messages"]})
    # Assuming `predictions` is a list of strings
    return predictions.join("\n")

with mlflow.start_run() as run:
    results = mlflow.evaluate(
        custom_langgraph_wrapper,  # Pass the function defined above
        data=eval_data,
        model_type="databricks-agent",
    )

print(results.metrics)

メトリックを含むダッシュボードを作成する

エージェントの品質を反復処理する場合は、時間の経過と共に品質がどのように向上したかを示すダッシュボードを関係者と共有することができます。 MLflow 評価実行からメトリックを抽出し、値を Delta テーブルに保存して、ダッシュボードを作成できます。

次の例は、ノートブックで最新の評価実行からメトリック値を抽出して保存する方法を示しています。

uc_catalog_name = "catalog"
uc_schema_name = "schema"
table_name = "results"

eval_results = mlflow.evaluate(
    model=logged_agent_info.model_uri, # use the logged Agent
    data=evaluation_set, # Run the logged Agent for all queries defined above
    model_type="databricks-agent", # use Agent Evaluation
)

# The `append_metrics_to_table function` is defined below
append_metrics_to_table("<identifier-for-table>", eval_results.metrics, f"{uc_catalog_name}.{uc_schema_name}.{table_name}")

次の例は、MLflow 実験で保存した過去の実行のメトリック値を抽出して保存する方法を示しています。

import pandas as pd

def get_mlflow_run(experiment_name, run_name):
  runs = mlflow.search_runs(experiment_names=[experiment_name], filter_string=f"run_name = '{run_name}'", output_format="list")

  if len(runs) != 1:
    raise ValueError(f"Found {len(runs)} runs with name {run_name}. {run_name} must identify a single run. Alternatively, you can adjust this code to search for a run based on `run_id`")

   return runs[0]

run = get_mlflow_run(experiment_name ="/Users/<user_name>/db_docs_mlflow_experiment", run_name="evaluation__2024-10-09_02:27:17_AM")

# The `append_metrics_to_table` function is defined below
append_metrics_to_table("<identifier-for-table>", run.data.metrics, f"{uc_catalog_name}.{uc_schema_name}.{table_name}")

これで、このデータを使用してダッシュボードを作成できるようになりました。

次のコードでは、前の例で使用した関数 append_metrics_to_table を定義します。

# Definition of `append_metrics_to_table`

def append_metrics_to_table(run_name, mlflow_metrics, delta_table_name):
  data = mlflow_metrics.copy()

  # Add identifying run_name and timestamp
  data["run_name"] = run_name
  data["timestamp"] = pd.Timestamp.now()

  # Remove metrics with error counts
  data = {k: v for k, v in mlflow_metrics.items() if "error_count" not in k}

  # Convert to a Spark DataFrame(
  metrics_df = pd.DataFrame([data])
  metrics_df_spark = spark.createDataFrame(metrics_df)

  # Append to the Delta table
  metrics_df_spark.write.mode("append").saveAsTable(delta_table_name)

LLM ジャッジをサポートするモデルに関する情報

LLM ジャッジではサードパーティのサービスを使用して、Microsoft が運営する Azure OpenAI などの、GenAI アプリケーションを評価する場合があります。
Azure OpenAI の場合、Databricks は不正使用の監視をオプトアウトしているため、Azure OpenAI ではプロンプトや応答が格納されません。
欧州連合 (EU) ワークスペースの場合、LLM ジャッジは EU でホストされているモデルを使用します。他のすべてのリージョンでは、米国でホストされているモデルが使用されます。
Azure の AI 搭載 AI アシスタント機能を無効にすると、LLM ジャッジが Azure AI 搭載モデルを呼び出せなくなります。
LLM ジャッジに送信されるデータは、モデルトレーニングには使用されません。
LLM ジャッジは、お客様が RAG アプリケーションを評価するのを支援することを目的としています。LLM ジャッジの出力は、LLM のトレーニング、改善、微調整には使用しないでください。

次の方法で共有

評価を実行して結果を表示する

評価を実行する

グラウンドトゥルースラベルを使用して評価する

要件

評価実行に入力を提供する

評価の出力

ノートブックの出力を確認する

MLflow UI を使用して出力を確認する

1 回の実行の評価結果を確認する

LLM審査委員による品質評価の概要

評価セット全体の集計結果

実行間で評価結果を比較する

実行間で要求ごとの結果を比較する

実行間で集計された結果を比較する

どのジャッジが実行されているか

例: アプリケーションをエージェント評価に渡す方法

オプション 1. Unity カタログに登録されているモデル

オプション 2. 現在の MLflow 実験でログに記録された MLflow モデル

方法 3. ノートブックに読み込まれる PyFunc モデル

オプション 4: ノートブックのローカル関数

オプション 5. デプロイされたエージェントエンドポイント

アプリケーションが `mlflow_evaluate()` 呼び出しに含まれるときに評価セットを渡す方法

例: 以前に生成された出力をエージェント評価に渡す方法

例: カスタム関数を使用して LangGraph からの応答を処理する

メトリックを含むダッシュボードを作成する

LLM ジャッジをサポートするモデルに関する情報

フィードバック

その他のリソース

次の方法で共有

評価を実行して結果を表示する

評価を実行する

グラウンド トゥルース ラベルを使用して評価する

要件

評価実行に入力を提供する

評価の出力

ノートブックの出力を確認する

MLflow UI を使用して出力を確認する

1 回の実行の評価結果を確認する

LLM審査委員による品質評価の概要

評価セット全体の集計結果

実行間で評価結果を比較する

実行間で要求ごとの結果を比較する

実行間で集計された結果を比較する

どのジャッジが実行されているか

例: アプリケーションをエージェント評価に渡す方法

オプション 1. Unity カタログに登録されているモデル

オプション 2. 現在の MLflow 実験でログに記録された MLflow モデル

方法 3. ノートブックに読み込まれる PyFunc モデル

オプション 4: ノートブックのローカル関数

オプション 5. デプロイされたエージェント エンドポイント

アプリケーションが mlflow_evaluate() 呼び出しに含まれるときに評価セットを渡す方法

例: 以前に生成された出力をエージェント評価に渡す方法

例: カスタム関数を使用して LangGraph からの応答を処理する

メトリックを含むダッシュボードを作成する

LLM ジャッジをサポートするモデルに関する情報

フィードバック

その他のリソース

グラウンドトゥルースラベルを使用して評価する

オプション 5. デプロイされたエージェントエンドポイント

アプリケーションが `mlflow_evaluate()` 呼び出しに含まれるときに評価セットを渡す方法