Condividi tramite


Eseguire una valutazione e visualizzare i risultati

Importante

Questa funzionalità è disponibile in anteprima pubblica.

Questo articolo descrive come eseguire una valutazione e visualizzare i risultati durante lo sviluppo dell'applicazione di intelligenza artificiale. Per informazioni su come monitorare la qualità degli agenti distribuiti nel traffico di produzione, vedere Come monitorare la qualità dell'agente nel traffico di produzione.

Per valutare un agente, è necessario specificare un set di valutazione. Come minimo, un set di valutazione è un insieme di richieste all'applicazione che può provenire da un set curato di richieste specifiche per la valutazione o dai registri esistenti degli utenti dell'agente. Il set di valutazione può opzionalmente includere etichette ground-truth: expected_facts o expected_response per ogni richiesta di input. Se vengono fornite etichette di veridicità, Valutazione dell'agente può calcolare metriche di qualità aggiuntive, ad esempio correttezza e sufficienza contestuale. Lo scopo del set di valutazione è quello di misurare e prevedere le prestazioni dell'applicazione agentic testandolo su domande rappresentative.

Per altri dettagli, vedere Evaluation sets, Agent Evaluation Input Schemae giudici di intelligenza artificiale predefiniti.

Per iniziare, installare il pacchetto databricks-agents da PyPi.

%pip install databricks-agents
dbutils.library.restartPython()

Eseguire una valutazione

Per eseguire una valutazione, usare il metodo mlflow.evaluate() dall'API MLflow, specificando il come per abilitare La valutazione dell'agente in Databricks e giudici di intelligenza artificiale predefiniti.

mlflow.evaluate() calcola anche la latenza e le metriche dei costi per ogni record di valutazione, aggregando i risultati in tutti gli input per una determinata esecuzione. Questi vengono definiti risultati della valutazione. I risultati della valutazione vengono registrati nell'esecuzione di inclusione, insieme alle informazioni registrate da altri comandi, ad esempio i parametri del modello. Se si chiama mlflow.evaluate() all'esterno di un'esecuzione MLflow, viene creata una nuova esecuzione.

Gli esempi seguenti valutano questo agente del prompt di sistema di Databricks:

import mlflow
import dataclasses

SYSTEM_PROMPT = """
You are a chatbot that answers questions about Databricks.

If a user asks a question about a topic unrelated to Databricks, reject the request.
"""

deploy_client = mlflow.deployments.get_deploy_client("databricks")

# Define the agent as a function that calls the model serving endpoint for the Llama 3.1 model.
@mlflow.trace(name="chain", span_type="CHAIN")
def llama3_agent(request: dict) -> mlflow.types.llm.ChatCompletionResponse:
  return deploy_client.predict(
    endpoint="databricks-meta-llama-3-1-70b-instruct",
    inputs={"messages": [{"role": "system", "content": SYSTEM_PROMPT}, *request["messages"]]}
  )

Valutare senza etichette di veridicità

L'esempio seguente specifica un set di linee guida di risposta globali per le linee guida globali del giudice di intelligenza artificiale che causano un fallimento della valutazione quando le risposte non aderiscono alle linee guida. Non è necessario raccogliere etichette per richiesta per valutare l'agente con questo approccio.

In questo esempio vengono eseguite le valutazioni seguenti che non necessitano di etichette di riferimento:

Se si utilizza un agente con un modulo di recupero, vengono eseguiti i seguenti controlli:

import mlflow

# Global guidelines can be specified to run for all requests.
global_guidelines = [
  "If the request is unrelated to Databricks, the response must should be a rejection of the request",
  "If the request is related to Databricks, the response must should be concise",
  "If the request is related to Databricks and question about API, the response must have code",
  "The response must be professional."
]

eval_set = [{
  "request": "What is the difference between reduceByKey and groupByKey in Databricks Spark?",
}, {
  "request": "What is the weather today?",
}]

# Evaluate the Agent with the evaluation set and log it to the MLFlow run "system_prompt_v0".
with mlflow.start_run(run_name="system_prompt_v0") as run:
  mlflow.evaluate(
    data=eval_set,
    model=llama3_agent,
    model_type="databricks-agent",
    evaluator_config={
      "databricks-agent": {
        "global_guidelines": global_guidelines
      }
    }
  )

Valutare con etichette di verità di base

Nell'esempio seguente vengono specificate etichette di verità per riga: e che eseguiranno rispettivamente il di correttezza e le linee guida giudici. Le singole valutazioni vengono trattate separatamente usando le etichette di verità per riga.

Questo approccio può essere usato con l'approccio Valutazione senza etichette di verità di base.

Questo esempio eseguirà gli stessi criteri di valutazione sopra menzionati, oltre ai seguenti:

Se si utilizza un agente con un sistema di recupero, viene eseguito il seguente processo:

  • Sufficienza del contesto
import mlflow
from mlflow.types.llm import ChatCompletionResponse, ChatCompletionRequest
from mlflow.deployments import get_deploy_client
import dataclasses

eval_set = [{
  "request": "What is the difference between reduceByKey and groupByKey in Databricks Spark?",
  "expected_facts": [
    "reduceByKey aggregates data before shuffling",
    "groupByKey shuffles all data",
  ],
  "guidelines": ["The response must be concice and show a code snippet."]
}, {
  "request": "What is the weather today?",
  "guidelines": ["The response must reject the request."]
}]

# Evaluate the agent with the evaluation set and log it to the MLFlow run "system_prompt_v0".
with mlflow.start_run(run_name="system_prompt_v0") as run:
  mlflow.evaluate(
    data=eval_set,
    model=llama3_agent,
    model_type="databricks-agent"
  )

Requisiti

Per l'area di lavoro è necessario abilitare le funzionalità di assistenza AI di Azure basato su intelligenza artificiale.

Fornire dati a un'esecuzione di valutazione

Esistono due modi per fornire input a un'esecuzione di valutazione:

  • Fornire output generati in precedenza da confrontare con il set di valutazione. Questa opzione è consigliata se si vogliono valutare gli output di un'applicazione già implementata nell'ambiente di produzione o se si vogliono confrontare i risultati della valutazione tra configurazioni di valutazione.

    Con questa opzione, si specifica un set di valutazione come illustrato nel codice seguente. Il set di valutazione deve includere output generati in precedenza. Per esempi più dettagliati, vedere Esempio: Come passare output generati in precedenza alla valutazione dell'agente.

    evaluation_results = mlflow.evaluate(
        data=eval_set_with_chain_outputs_df,  # pandas DataFrame with the evaluation set and application outputs
        model_type="databricks-agent",
    )
    
  • Passare l'applicazione come argomento di input. mlflow.evaluate() effettua chiamate nell'applicazione per valutare ogni input nel set di valutazione e segnala valutazioni della qualità e altre metriche per ogni output generato. Questa opzione è consigliata se l'applicazione è stata registrata usando MLflow con MLflow Tracing abilitato o se l'applicazione viene implementata come funzione Python in un notebook. Questa opzione non è consigliata se l'applicazione è stata sviluppata all'esterno di Databricks o viene implementata all'esterno di Databricks.

    Con questa opzione, è possibile specificare il set di valutazione e l'applicazione nella chiamata di funzione, come illustrato nel codice seguente. Per esempi più dettagliati, vedere Esempio: Come passare un'applicazione alla valutazione dell'agente.

    evaluation_results = mlflow.evaluate(
        data=eval_set_df,  # pandas DataFrame containing just the evaluation set
        model=model,  # Reference to the MLflow model that represents the application
        model_type="databricks-agent",
    )
    

Per informazioni dettagliate sullo schema del set di valutazione, vedere schema di input di valutazione dell'agente .

Output di valutazione

Agent Evaluation restituisce gli output da mlflow.evaluate() come dataframe e registra anche questi output nell'esecuzione di MLflow. È possibile esaminare gli output nel notebook o nella pagina dell'esecuzione MLflow corrispondente.

Esaminare l'output nel notebook

Il seguente codice illustra alcuni esempi di come esaminare i risultati di un'esecuzione di valutazione nel notebook.

%pip install databricks-agents pandas
dbutils.library.restartPython()

import mlflow
import pandas as pd

###
# Run evaluation
###
evaluation_results = mlflow.evaluate(..., model_type="databricks-agent")

###
# Access aggregated evaluation results across the entire evaluation set
###
results_as_dict = evaluation_results.metrics
results_as_pd_df = pd.DataFrame([evaluation_results.metrics])

# Sample usage
print(f"The percentage of generated responses that are grounded: {results_as_dict['response/llm_judged/groundedness/percentage']}")

###
# Access data about each question in the evaluation set
###

per_question_results_df = evaluation_results.tables['eval_results']

# Show information about responses that are not grounded
per_question_results_df[per_question_results_df["response/llm_judged/groundedness/rating"] == "no"].display()

Il dataframe per_question_results_df include tutte le colonne nello schema di input e tutti i risultati di valutazione specifici di ogni richiesta. Per altri dettagli sui risultati calcolati, vedere Come vengono valutati la qualità, i costi e la latenza dalla valutazione dell'agente.

Esaminare l'output usando l'interfaccia utente di MLflow

I risultati della valutazione sono disponibili anche nell’interfaccia utente di MLflow. Per accedere all'interfaccia utente di MLflow, fare clic sull'icona Esperimento Icona Esperimento nella barra laterale destra del notebook e poi sull'esecuzione corrispondente oppure fare clic sui collegamenti visualizzati nei risultati della cella per la cella del notebook in cui è stato eseguito mlflow.evaluate().

Esaminare i risultati della valutazione per una singola esecuzione

Questa sezione descrive come esaminare i risultati della valutazione per una singola esecuzione. Per confrontare i risultati tra le esecuzioni, vedere Confrontare i risultati della valutazione tra le esecuzioni.

Panoramica delle valutazioni di qualità dei giudici LLM

Le valutazioni dei giudici per richiesta sono disponibili nella databricks-agents versione 0.3.0 e successive.

Per visualizzare una panoramica della qualità valutata dall'LLM di ogni richiesta del set di valutazione, fare clic sulla scheda Risultati valutazione nella pagina Esecuzione MLflow. Questa pagina mostra una tabella riepilogativa di ogni corsa di valutazione. Per altri dettagli, fare clic sull'ID di valutazione di un'esecuzione.

overview_judges

Questa panoramica mostra le valutazioni di giudici diversi per ogni richiesta, lo stato di qualità pass/fail di ogni richiesta in base a queste valutazioni e la causa radice delle richieste non riuscite. Facendo clic su una riga nella tabella si passerà alla pagina dei dettagli per la richiesta che include quanto segue:

  • Output del modello: risposta generata dall'app agentic e dalla relativa traccia, se inclusa.
  • Output previsto: risposta prevista per ciascuna richiesta.
  • Valutazioni dettagliate: le valutazioni dei giudici LLM su questi dati. Fare clic su Visualizza dettagli per visualizzare le motivazioni fornite dai giudici.

details_judges

Risultati aggregati nel set di valutazione completo

Per visualizzare i risultati aggregati nel set di valutazione completo, fare clic sulla scheda panoramica (per i valori numerici) o sulla scheda metriche del modello (per i grafici).

metriche di valutazione, valori

metriche di valutazione, grafici

Confrontare i risultati della valutazione tra le esecuzioni

È importante confrontare i risultati della valutazione tra le esecuzioni per vedere in che modo l'applicazione agentic risponde alle modifiche. Il confronto dei risultati consente di comprendere se le modifiche influiscono positivamente sulla qualità o se consentono di risolvere i problemi di modifica del comportamento.

Confrontare i risultati per richiesta tra esecuzioni

Per confrontare i dati per ogni singola richiesta nelle varie esecuzioni, fare clic sulla scheda Valutazione nella pagina Esperimento. Una tabella mostra ogni domanda nel set di valutazione. Usare i menu a discesa per selezionare le colonne da visualizzare.

domande individuali nel set di valutazione

Confrontare i risultati aggregati tra le esecuzioni

È possibile accedere agli stessi risultati aggregati dalla pagina Esperimento, che consente anche di confrontare i risultati tra esecuzioni diverse. Per accedere alla pagina Esperimento, fare clic sull'icona Esperimento Icona Esperimento nella barra laterale destra del notebook oppure fare clic sui collegamenti visualizzati nei risultati per la cella del notebook in cui è stato eseguito mlflow.evaluate().

Nella pagina Esperimento fare clic su icona del grafico di visualizzazione. In questo modo è possibile visualizzare i risultati aggregati per l'esecuzione selezionata e confrontarsi con le esecuzioni precedenti.

Risultati aggregati

Quali giudici sono eseguiti

Per impostazione predefinita, per ogni record di valutazione, Mosaic AI Agent Evaluation applica il subset di giudici che meglio corrisponde alle informazioni presenti nel record. In particolare:

  • Se il record include una risposta alla verità, Agent Evaluation applica i giudici context_sufficiency, groundedness, correctness, safetye guideline_adherence.
  • Se il record non include una risposta alla verità, Agent Evaluation applica i giudici chunk_relevance, groundedness, relevance_to_query, safetye guideline_adherence.

Per altri dettagli, vedere:

Per informazioni sulla fiducia e sulla sicurezza dei giudici LLM, vedere Informazioni sui modelli che alimentano i giudici LLM.

Esempio: Come passare un'applicazione alla valutazione dell'agente

Per passare un'applicazione a mlflow_evaluate(), usare l'argomento model . Sono disponibili 5 opzioni per passare un'applicazione nell'argomento model .

  • Modello registrato in Unity Catalog.
  • Modello registrato MLflow nell'esperimento MLflow corrente.
  • Modello PyFunc caricato nel notebook.
  • Funzione locale nel notebook.
  • Endpoint dell'agente distribuito.

Vedere le sezioni seguenti per esempi di codice che illustrano ogni opzione.

Opzione 1. Modello registrato nel catalogo unity

%pip install databricks-agents pandas
dbutils.library.restartPython()

import mlflow
import pandas as pd

evaluation_results = mlflow.evaluate(
    data=eval_set_df,  # pandas DataFrame with just the evaluation set
    model = "models:/catalog.schema.model_name/1"  # 1 is the version number
    model_type="databricks-agent",
)

Opzione 2. Modello registrato MLflow nell'esperimento MLflow corrente

%pip install databricks-agents pandas
dbutils.library.restartPython()

import mlflow
import pandas as pd

# In the following lines, `6b69501828264f9s9a64eff825371711` is the run_id, and `chain` is the artifact_path that was
# passed with mlflow.xxx.log_model(...).
# If you called model_info = mlflow.langchain.log_model() or mlflow.pyfunc.log_model(), you can access this value using `model_info.model_uri`.
evaluation_results = mlflow.evaluate(
    data=eval_set_df,  # pandas DataFrame with just the evaluation set
    model = "runs:/6b69501828264f9s9a64eff825371711/chain"
    model_type="databricks-agent",
)

Opzione 3. Modello PyFunc caricato nel notebook

%pip install databricks-agents pandas
dbutils.library.restartPython()

import mlflow
import pandas as pd

evaluation_results = mlflow.evaluate(
    data=eval_set_df,  # pandas DataFrame with just the evaluation set
    model = mlflow.pyfunc.load_model(...)
    model_type="databricks-agent",
)

Opzione 4. Funzione locale nel notebook

La funzione riceve un input formattato come segue:

{
  "messages": [
    {
      "role": "user",
      "content": "What is MLflow?",
    }
  ],
  ...
}

La funzione deve restituire un valore in uno dei tre formati supportati seguenti:

  • Stringa normale contenente la risposta del modello.

  • Dizionario in ChatCompletionResponse formato. Ad esempio:

    {
      "choices": [
        {
          "message": {
            "role": "assistant",
            "content": "MLflow is a machine learning toolkit.",
          },
         ...
        }
      ],
      ...,
    }
    
  • Dizionario in StringResponse formato, ad esempio { "content": "MLflow is a machine learning toolkit.", ... }.

L'esempio seguente usa una funzione locale per eseguire il wrapping di un endpoint del modello di base e valutarlo:

  %pip install databricks-agents pandas
  dbutils.library.restartPython()

  import mlflow
  import pandas as pd

  def model(model_input):
    client = mlflow.deployments.get_deploy_client("databricks")
    return client.predict(endpoint="endpoints:/databricks-meta-llama-3-1-405b-instruct", inputs={"messages": model_input["messages"]})

  evaluation_results = mlflow.evaluate(
    data=eval_set_df,  # pandas DataFrame with just the evaluation set
    model = model
    model_type="databricks-agent",
  )

Opzione 5. Endpoint agente distribuito

Questa opzione funziona solo quando si usano gli endpoint agente distribuiti con databricks.agents.deploy e con databricks-agents la versione 0.8.0 dell'SDK o versioni successive. Per i modelli di base o le versioni precedenti dell'SDK, usare l'opzione 4 per eseguire il wrapping del modello in una funzione locale.

%pip install databricks-agents pandas
dbutils.library.restartPython()

import mlflow
import pandas as pd

# In the following lines, `endpoint-name-of-your-agent` is the name of the agent endpoint.
evaluation_results = mlflow.evaluate(
    data=eval_set_df,  # pandas DataFrame with just the evaluation set
    model = "endpoints:/endpoint-name-of-your-agent"
    model_type="databricks-agent",
)

Come superare il set di valutazione quando l'applicazione è inclusa nella chiamata mlflow_evaluate()

Nel codice seguente data è un dataframe pandas con il set di valutazione. Questi sono semplici esempi. Per informazioni dettagliate, vedere lo schema di input al.

# You do not have to start from a dictionary - you can use any existing pandas or Spark DataFrame with this schema.

# Minimal evaluation set
bare_minimum_eval_set_schema = [
    {
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
    }]

# Complete evaluation set
complete_eval_set_schema = [
    {
        "request_id": "your-request-id",
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "expected_retrieved_context": [
            {
                # In `expected_retrieved_context`, `content` is optional, and does not provide any additional functionality.
                "content": "Answer segment 1 related to What is the difference between reduceByKey and groupByKey in Spark?",
                "doc_uri": "doc_uri_2_1",
            },
            {
                "content": "Answer segment 2 related to What is the difference between reduceByKey and groupByKey in Spark?",
                "doc_uri": "doc_uri_2_2",
            },
        ],
        "expected_response": "There's no significant difference.",
    }]

# Convert dictionary to a pandas DataFrame
eval_set_df = pd.DataFrame(bare_minimum_eval_set_schema)

# Use a Spark DataFrame
import numpy as np
spark_df = spark.table("catalog.schema.table") # or any other way to get a Spark DataFrame
eval_set_df = spark_df.toPandas()

Esempio: Come passare output generati in precedenza alla valutazione dell'agente

Questa sezione descrive come passare gli output generati in precedenza nella mlflow_evaluate() chiamata. Per lo schema del set di valutazione richiesto, vedere schema di input di valutazione dell'agente .

Nel codice seguente data è un dataframe pandas con il set di valutazione e gli output generati dall'applicazione. Questi sono semplici esempi. Per informazioni dettagliate, vedere lo schema di input al.

%pip install databricks-agents pandas
dbutils.library.restartPython()

import mlflow
import pandas as pd

evaluation_results = mlflow.evaluate(
    data=eval_set_with_app_outputs_df,  # pandas DataFrame with the evaluation set and application outputs
    model_type="databricks-agent",
)

# You do not have to start from a dictionary - you can use any existing pandas or Spark DataFrame with this schema.

# Minimum required input
bare_minimum_input_schema = [
    {
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "response": "reduceByKey aggregates data before shuffling, whereas groupByKey shuffles all data, making reduceByKey more efficient.",
    }]

# Input including optional arguments
complete_input_schema  = [
    {
        "request_id": "your-request-id",
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "expected_retrieved_context": [
            {
                # In `expected_retrieved_context`, `content` is optional, and does not provide any additional functionality.
                "content": "Answer segment 1 related to What is the difference between reduceByKey and groupByKey in Spark?",
                "doc_uri": "doc_uri_2_1",
            },
            {
                "content": "Answer segment 2 related to What is the difference between reduceByKey and groupByKey in Spark?",
                "doc_uri": "doc_uri_2_2",
            },
        ],
        "expected_response": "There's no significant difference.",
        "response": "reduceByKey aggregates data before shuffling, whereas groupByKey shuffles all data, making reduceByKey more efficient.",
        "retrieved_context": [
            {
                # In `retrieved_context`, `content` is optional. If provided, the Databricks Context Relevance LLM Judge is executed to check the `content`'s relevance to the `request`.
                "content": "reduceByKey reduces the amount of data shuffled by merging values before shuffling.",
                "doc_uri": "doc_uri_2_1",
            },
            {
                "content": "groupByKey may lead to inefficient data shuffling due to sending all values across the network.",
                "doc_uri": "doc_uri_6_extra",
            },
        ],
        "guidelines": [
          "The response must be in English",
        ]
    }]

# Convert dictionary to a pandas DataFrame
eval_set_with_app_outputs_df = pd.DataFrame(bare_minimum_input_schema)

# Use a Spark DataFrame
import numpy as np
spark_df = spark.table("catalog.schema.table") # or any other way to get a Spark DataFrame
eval_set_with_app_outputs_df = spark_df.toPandas()

Esempio: usare una funzione personalizzata per elaborare le risposte da LangGraph

Gli agenti LangGraph, in particolare quelli con funzionalità di chat, possono restituire più messaggi per una singola chiamata di inferenza. È responsabilità dell'utente convertire la risposta dell'agente in un formato supportato da Agent Evaluation.

Un approccio consiste nell'usare una funzione personalizzata per elaborare la risposta. L'esempio seguente mostra una funzione personalizzata che estrae l'ultimo messaggio di chat da un modello LangGraph. Questa funzione viene quindi usata in mlflow.evaluate() per restituire una singola risposta stringa, che può essere confrontata con la colonna ground_truth.

Il codice di esempio presuppone quanto segue:

  • Il modello accetta input nel formato {"messages": [{"role": "user", "content": "hello"}]}.
  • Il modello restituisce un elenco di stringhe nel formato ["response 1", "response 2"].

Il codice seguente invia le risposte concatenate al giudice in questo formato: "risposta 1nresponse2"

import mlflow
import pandas as pd
from typing import List

loaded_model = mlflow.langchain.load_model(model_uri)
eval_data = pd.DataFrame(
    {
        "inputs": [
            "What is MLflow?",
            "What is Spark?",
        ],
        "expected_response": [
            "MLflow is an open-source platform for managing the end-to-end machine learning (ML) lifecycle. It was developed by Databricks, a company that specializes in big data and machine learning solutions. MLflow is designed to address the challenges that data scientists and machine learning engineers face when developing, training, and deploying machine learning models.",
            "Apache Spark is an open-source, distributed computing system designed for big data processing and analytics. It was developed in response to limitations of the Hadoop MapReduce computing model, offering improvements in speed and ease of use. Spark provides libraries for various tasks such as data ingestion, processing, and analysis through its components like Spark SQL for structured data, Spark Streaming for real-time data processing, and MLlib for machine learning tasks",
        ],
    }
)

def custom_langgraph_wrapper(model_input):
    predictions = loaded_model.invoke({"messages": model_input["messages"]})
    # Assuming `predictions` is a list of strings
    return predictions.join("\n")

with mlflow.start_run() as run:
    results = mlflow.evaluate(
        custom_langgraph_wrapper,  # Pass the function defined above
        data=eval_data,
        model_type="databricks-agent",
    )

print(results.metrics)

Creare un dashboard con le metriche

Quando si esegue l'iterazione sulla qualità dell'agente, è possibile condividere un dashboard con gli stakeholder che illustrano come la qualità è migliorata nel tempo. È possibile estrarre le metriche dalle esecuzioni di valutazione di MLflow, salvare i valori in una tabella Delta e creare un dashboard.

L'esempio seguente illustra come estrarre e salvare i valori delle metriche dall'esecuzione della valutazione più recente nel notebook:

uc_catalog_name = "catalog"
uc_schema_name = "schema"
table_name = "results"

eval_results = mlflow.evaluate(
    model=logged_agent_info.model_uri, # use the logged Agent
    data=evaluation_set, # Run the logged Agent for all queries defined above
    model_type="databricks-agent", # use Agent Evaluation
)

# The `append_metrics_to_table function` is defined below
append_metrics_to_table("<identifier-for-table>", eval_results.metrics, f"{uc_catalog_name}.{uc_schema_name}.{table_name}")

L'esempio seguente illustra come estrarre e salvare i valori delle metriche per le esecuzioni precedenti salvate nell'esperimento MLflow.

import pandas as pd

def get_mlflow_run(experiment_name, run_name):
  runs = mlflow.search_runs(experiment_names=[experiment_name], filter_string=f"run_name = '{run_name}'", output_format="list")

  if len(runs) != 1:
    raise ValueError(f"Found {len(runs)} runs with name {run_name}. {run_name} must identify a single run. Alternatively, you can adjust this code to search for a run based on `run_id`")

   return runs[0]

run = get_mlflow_run(experiment_name ="/Users/<user_name>/db_docs_mlflow_experiment", run_name="evaluation__2024-10-09_02:27:17_AM")

# The `append_metrics_to_table` function is defined below
append_metrics_to_table("<identifier-for-table>", run.data.metrics, f"{uc_catalog_name}.{uc_schema_name}.{table_name}")

È ora possibile creare un dashboard usando questi dati.

Il codice seguente definisce la funzione append_metrics_to_table usata negli esempi precedenti.

# Definition of `append_metrics_to_table`

def append_metrics_to_table(run_name, mlflow_metrics, delta_table_name):
  data = mlflow_metrics.copy()

  # Add identifying run_name and timestamp
  data["run_name"] = run_name
  data["timestamp"] = pd.Timestamp.now()

  # Remove metrics with error counts
  data = {k: v for k, v in mlflow_metrics.items() if "error_count" not in k}

  # Convert to a Spark DataFrame(
  metrics_df = pd.DataFrame([data])
  metrics_df_spark = spark.createDataFrame(metrics_df)

  # Append to the Delta table
  metrics_df_spark.write.mode("append").saveAsTable(delta_table_name)

Informazioni sui modelli che alimentano i giudici LLM

  • I giudici LLM possono usare servizi di terze parti per valutare le applicazioni GenAI, tra cui Azure OpenAI gestito da Microsoft.
  • Per Azure OpenAI, Databricks ha rifiutato esplicitamente il monitoraggio degli abusi, quindi non vengono archiviate richieste o risposte con Azure OpenAI.
  • Per le aree di lavoro dell'Unione europea (UE), i giudici LLM usano modelli ospitati nell'UE. Tutte le altre aree usano modelli ospitati negli Stati Uniti.
  • La disabilitazione delle funzioni di assistenza intelligenza artificiale di Azure basato su intelligenza artificiale impedisce al giudice LLM di richiamare i modelli AI di Azure.
  • I dati inviati al giudice LLM non vengono usati per il training del modello.
  • I giudici LLM hanno lo scopo di aiutare i clienti a valutare le proprie applicazioni RAG e i loro output non devono essere usati per formare, migliorare o ottimizzare un LLM.