Condividi tramite


Benchmark del modello nel portale di Azure AI Foundry

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Nel portale di Azure AI Foundry è possibile confrontare i benchmark tra modelli e set di dati disponibili nel settore per decidere quale soddisfa lo scenario aziendale. È possibile accedere direttamente ai risultati dettagliati del benchmarking all'interno del catalogo dei modelli. Se si hanno già modelli in mente o si stanno esplorando i modelli, i dati di benchmarking in Intelligenza artificiale di Azure consentono di prendere decisioni informate in modo rapido ed efficiente.

L'intelligenza artificiale di Azure supporta il benchmarking dei modelli per i modelli selezionati più diffusi e usati più di frequente. I modelli supportati hanno un'icona di benchmark simile a un istogramma. È possibile trovare questi modelli nel catalogo dei modelli usando il filtro Raccolte e selezionando Risultati benchmark. È quindi possibile usare la funzionalità di ricerca per trovare modelli specifici.

Screenshot che mostra come filtrare i modelli di benchmark nella home page del catalogo di modelli.

I benchmark del modello consentono di prendere decisioni informate sulla sostenibilità dei modelli e dei set di dati prima di avviare qualsiasi processo. I benchmark sono un elenco curato dei modelli con migliori prestazioni per un' attività, in base a un confronto completo delle metriche di benchmarking. Azure AI Foundry offre i benchmark seguenti per i modelli, in base alle raccolte di cataloghi dei modelli:

  • Benchmark tra modelli di linguaggio di grandi dimensioni e modelli di linguaggio di piccole dimensioni
  • Benchmark tra modelli di incorporamento

Benchmarking di SMS e SMS

I benchmark del modello valutano IMS e i contratti di servizio nelle categorie seguenti: qualità, prestazioni e costi. I benchmark vengono aggiornati regolarmente man mano che vengono aggiunte nuove metriche e set di dati ai modelli esistenti e nuovi modelli al catalogo dei modelli.

Qualità

L'intelligenza artificiale di Azure valuta la qualità delle vm e dei contratti di servizio tra varie metriche raggruppate in due categorie principali: accuratezza e metriche assistita da richieste:

Per la metrica di accuratezza:

Metrico Descrizione
Precisione I punteggi di accuratezza sono disponibili a livello di set di dati e di modello. A livello di set di dati, il punteggio è il valore medio di una metrica di accuratezza calcolata su tutti gli esempi nel set di dati. La metrica di accuratezza usata è exact-match in tutti i casi, ad eccezione del set di dati HumanEval che usa una pass@1 metrica. La corrispondenza esatta confronta il testo generato dal modello con la risposta corretta in base al set di dati, segnalando uno se il testo generato corrisponde esattamente alla risposta e zero in caso contrario. La metrica pass@1 misura la proporzione di soluzioni di modello che superano un set di unit test in un'attività di generazione di codice. A livello di modello, il punteggio di accuratezza è la media dei punteggi di accuratezza a livello di set di dati per ogni modello.

Per le metriche basate su richiesta:

Metrico Descrizione
Coerenza La coerenza valuta la capacità del modello linguistico di produrre output fluido, capace di scorrere in modo naturale e simile al linguaggio umano.
Fluency La scorrevolezza valuta la correttezza linguistica della risposta fornita dall'intelligenza artificiale generativa. Valuta il livello di conformità del testo generato alle regole grammaticali e alle strutture sintattiche, nonché l'utilizzo appropriato del vocabolario, che consentono di fornire risposte linguisticamente corrette e naturali.
GPTSimilarity La somiglianza di GPT è una misura che quantifica l'analogia tra una frase (o un documento) di dati reali di riferimento e la frase di stima generata da un modello di intelligenza artificiale. La metrica viene calcolata per primo calcolo degli incorporamenti a livello di frase, usando l'API incorporamenti sia per la verità sul terreno che per la stima del modello. Gli embedding sono rappresentazioni vettoriali ad alta dimensionalità delle frasi, di cui catturano il significato semantico e il contesto.
Base La base misura l'allineamento delle risposte generate dal modello linguistico con le informazioni provenienti dall'origine di input.
Rilevanza La rilevanza misura fino a che punto in le risposte generate dal modello linguistico sono pertinenti e direttamente correlate alle domande poste.

Azure per intelligenza artificiale visualizza anche l'indice di qualità come indicato di seguito:

Indice Descrizione
Indice di qualità L'indice di qualità viene calcolato ridimensionando GPTSimilarity tra zero e uno, seguito dalla media con metriche di accuratezza. I valori più elevati dell'indice di qualità sono migliori.

L'indice di qualità rappresenta il punteggio medio della metrica primaria applicabile (accuratezza, GPTSimilarity ridimensionata) su 15 set di dati standard e viene fornito su una scala da zero a uno.

L'indice di qualità costituisce due categorie di metriche:

  • Accuratezza (ad esempio, corrispondenza esatta o pass@k). È compreso tra zero e uno.
  • Metriche basate su prompt ,ad esempio GPTSimilarity, groundedness, coerenza, fluenza e pertinenza. È compreso tra uno e cinque.

La stabilità del valore dell'indice di qualità fornisce un indicatore della qualità complessiva del modello.

Prestazioni

Le metriche delle prestazioni vengono calcolate come aggregazione per 14 giorni, in base a 24 percorsi (due richieste per trail) inviate ogni giorno con un intervallo di un'ora tra ogni trail. Per ogni richiesta all'endpoint del modello vengono usati i parametri predefiniti seguenti:

Parametro Valore Applicabile per
Paese Stati Uniti orientali/Stati Uniti orientali 2 API serverless e Azure OpenAI
Limite di velocità dei token al minuto (TPM) 30k (180 RPM basato su Azure OpenAI)
N/D (API serverless)
Per i modelli OpenAI di Azure, la selezione è disponibile per gli utenti con intervalli di limiti di frequenza in base al tipo di distribuzione (standard, globale, standard globale e così via).
Per le API serverless, questa impostazione è astratta.
Numero di richieste Due richieste in un trail per ogni ora (24 sentieri al giorno) API serverless, Azure OpenAI
Numero di percorsi/piste 14 giorni con 24 sentieri al giorno per 336 corse API serverless, Azure OpenAI
Lunghezza prompt/contesto Lunghezza moderata API serverless, Azure OpenAI
Numero di token elaborati (moderato) Rapporto 80:20 per i token di input e output, ovvero 800 token di input a 200 token di output. API serverless, Azure OpenAI
Numero di richieste simultanee Una (le richieste vengono inviate in sequenza una dopo l'altra) API serverless, Azure OpenAI
Dati Sintetico (richieste di input preparate dal testo statico) API serverless, Azure OpenAI
Paese Stati Uniti orientali/Stati Uniti orientali 2 API serverless e Azure OpenAI
Tipo di distribuzione Standard Applicabile solo per Azure OpenAI
Streaming Vero Si applica alle API serverless e ad Azure OpenAI. Per i modelli distribuiti tramite il calcolo gestito, impostare max_token = 1 per replicare lo scenario di streaming, che consente di calcolare metriche come il tempo totale al primo token (TTFT) per il calcolo gestito.
Tokenizer Pacchetto Tiktoken (Azure OpenAI)
Hugging Face model ID (API serverless)
Hugging Face model ID (API serverless di Azure)

Le prestazioni delle vm e dei contratti di servizio vengono valutate nelle metriche seguenti:

Metrico Descrizione
Media latenza Tempo medio in secondi impiegato per l'elaborazione di una richiesta, calcolata su più richieste. Per calcolare questa metrica, viene inviata una richiesta all'endpoint ogni ora, per due settimane e viene calcolata la media.
Latenza P50 50° valore percentile (mediano) di latenza (il tempo impiegato tra la richiesta e quando si riceve l'intera risposta con un codice riuscito). Ad esempio, quando si invia una richiesta all'endpoint, il 50% delle richieste viene completato in secondi "x", con "x" come misurazione della latenza.
Latenza P90 90° valore percentile di latenza (il tempo impiegato tra la richiesta e quando si riceve l'intera risposta con un codice riuscito). Ad esempio, quando si invia una richiesta all'endpoint, il 90% delle richieste viene completato in secondi "x", con "x" come misurazione della latenza.
Latenza P95 95° valore percentile di latenza (il tempo impiegato tra la richiesta e quando si riceve l'intera risposta con un codice riuscito). Ad esempio, quando si invia una richiesta all'endpoint, il 95% delle richieste viene completato in secondi "x", con "x" come misurazione della latenza.
Latenza P99 99° valore percentile di latenza (il tempo impiegato tra la richiesta e quando si riceve l'intera risposta con un codice riuscito). Ad esempio, quando si invia una richiesta all'endpoint, il 99% delle richieste viene completato in secondi "x", con "x" come misurazione della latenza.
Velocità effettiva GTPS I token generati al secondo (GTPS) sono il numero di token di output generati al secondo dal momento in cui la richiesta viene inviata all'endpoint.
Velocità effettiva TTPS I token totali al secondo (TTPS) sono il numero di token totali elaborati al secondo, inclusi sia dal prompt di input che dai token di output generati.
Latenza TTFT Il tempo totale per il primo token (TTFT) è il tempo impiegato per il primo token nella risposta da restituire dall'endpoint quando lo streaming è abilitato.
Tempo tra i token Questa metrica è il tempo tra i token ricevuti.

Azure per intelligenza artificiale visualizza anche gli indici delle prestazioni per latenza e velocità effettiva come indicato di seguito:

Indice Descrizione
Indice di latenza Tempo medio per il primo token. I valori inferiori sono migliori.
Indice della velocità effettiva Token generati media al secondo. I valori superiori sono migliori.

Per le metriche delle prestazioni, ad esempio la latenza o la velocità effettiva, il tempo per il primo token e i token generati al secondo offrono un migliore senso generale delle prestazioni e del comportamento tipici del modello. Aggiorniamo i nostri numeri di prestazioni con cadenza regolare.

Costo

I calcoli dei costi sono stime per l'uso di un endpoint modello LLM o SLM ospitato nella piattaforma di intelligenza artificiale di Azure. L'intelligenza artificiale di Azure supporta la visualizzazione dei costi delle API serverless e dei modelli OpenAI di Azure. Poiché questi costi sono soggetti a modifiche, aggiorniamo i calcoli dei costi a cadenza regolare.

Il costo delle vm e dei contratti di servizio viene valutato nelle metriche seguenti:

Metrico Descrizione
Costo per token di input Costo per la distribuzione dell'API serverless per 1 milione di token di input
Costo per token di output Costo per la distribuzione dell'API serverless per 1 milione di token di output
Costo stimato Costo per la somma del costo per token di input e costo per token di output, con un rapporto di 3:1.

Azure per intelligenza artificiale visualizza anche l'indice dei costi come indicato di seguito:

Indice Descrizione
Indice dei costi Costo stimato. I valori inferiori sono migliori.

Benchmarking dei modelli di incorporamento

I benchmark del modello valutano l'incorporamento dei modelli in base alla qualità.

Qualità

La qualità dei modelli di incorporamento viene valutata nelle metriche seguenti:

Metrico Descrizione
Precisione L'accuratezza è la proporzione di stime corrette tra il numero totale di stime elaborate.
Punteggio F1 F1 Score è la media ponderata della precisione e del richiamo, dove il valore migliore è uno (precisione perfetta e richiamo) e il peggiore è zero.
Precisione media media (MAP) MAP valuta la qualità dei sistemi di classificazione e di raccomandazione. Misura sia la pertinenza degli elementi suggeriti sia il livello di qualità del sistema nel posizionare elementi più rilevanti nella parte superiore. I valori possono variare da zero a uno e più alto è map, meglio è che il sistema possa posizionare gli elementi pertinenti in alto nell'elenco.
Guadagno cumulativo scontato normalizzato (NDCG) NDCG valuta la capacità di un algoritmo di Machine Learning di ordinare gli elementi in base alla pertinenza. Confronta le classificazioni con un ordine ideale in cui tutti gli elementi rilevanti si trovano nella parte superiore dell'elenco, dove k è la lunghezza dell'elenco durante la valutazione della qualità della classificazione. Nei benchmark k=10, indicati da una metrica di ndcg_at_10, ovvero vengono esaminati i primi 10 elementi.
Precisione La precisione misura correttamente la capacità del modello di identificare le istanze di una determinata classe. Precisione mostra la frequenza con cui un modello di Machine Learning è corretto durante la stima della classe di destinazione.
Correlazione di Spearman La correlazione spearman basata sulla somiglianza del coseno viene calcolata calcolando prima la somiglianza del coseno tra le variabili, quindi classificando questi punteggi e usando i ranghi per calcolare la correlazione Spearman.
Misura V La misura V è una metrica usata per valutare la qualità del clustering. La misura V viene calcolata come media armonica di omogeneità e completezza, garantendo un equilibrio tra i due per un punteggio significativo. I punteggi possibili si trovano tra zero e uno, con un'etichetta perfettamente completa.

Calcolo dei punteggi

Singoli punteggi

I risultati del benchmark provengono da set di dati pubblici comunemente usati per la valutazione del modello linguistico. Nella maggior parte dei casi, i dati sono ospitati nei repository GitHub gestiti dai creatori o dai curatori dei dati. Le pipeline di valutazione di Azure per Intelligenza artificiale scaricano i dati dalle fonti originarie, estraggono richieste da ogni riga di esempio, generano risposte del modello e quindi calcolano le metriche di accuratezza pertinenti.

La costruzione di prompt segue le procedure consigliate per ogni set di dati, come specificato nel documento che introduce i set di dati e gli standard del settore. Nella maggior parte dei casi, ogni richiesta contiene diversi scatti, ovvero diversi esempi di domande complete e risposte per prime il modello per l'attività. Le pipeline di valutazione creano scatti eseguendo il campionamento di domande e risposte da una porzione dei dati destinati alla valutazione.