Benchmark del modello nel portale di Azure AI Foundry
Importante
Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.
Nel portale di Azure AI Foundry è possibile confrontare i benchmark tra modelli e set di dati disponibili nel settore per decidere quale soddisfa lo scenario aziendale. È possibile accedere direttamente ai risultati dettagliati del benchmarking all'interno del catalogo dei modelli. Se si hanno già modelli in mente o si stanno esplorando i modelli, i dati di benchmarking in Intelligenza artificiale di Azure consentono di prendere decisioni informate in modo rapido ed efficiente.
L'intelligenza artificiale di Azure supporta il benchmarking dei modelli per i modelli selezionati più diffusi e usati più di frequente. I modelli supportati hanno un'icona di benchmark simile a un istogramma. È possibile trovare questi modelli nel catalogo dei modelli usando il filtro Raccolte e selezionando Risultati benchmark. È quindi possibile usare la funzionalità di ricerca per trovare modelli specifici.
I benchmark del modello consentono di prendere decisioni informate sulla sostenibilità dei modelli e dei set di dati prima di avviare qualsiasi processo. I benchmark sono un elenco curato dei modelli con migliori prestazioni per un' attività, in base a un confronto completo delle metriche di benchmarking. Azure AI Foundry offre i benchmark seguenti per i modelli, in base alle raccolte di cataloghi dei modelli:
- Benchmark tra modelli di linguaggio di grandi dimensioni e modelli di linguaggio di piccole dimensioni
- Benchmark tra modelli di incorporamento
Benchmarking di SMS e SMS
I benchmark del modello valutano IMS e i contratti di servizio nelle categorie seguenti: qualità, prestazioni e costi. I benchmark vengono aggiornati regolarmente man mano che vengono aggiunte nuove metriche e set di dati ai modelli esistenti e nuovi modelli al catalogo dei modelli.
Qualità
L'intelligenza artificiale di Azure valuta la qualità delle vm e dei contratti di servizio tra varie metriche raggruppate in due categorie principali: accuratezza e metriche assistita da richieste:
Per la metrica di accuratezza:
Metrico | Descrizione |
---|---|
Precisione | I punteggi di accuratezza sono disponibili a livello di set di dati e di modello. A livello di set di dati, il punteggio è il valore medio di una metrica di accuratezza calcolata su tutti gli esempi nel set di dati. La metrica di accuratezza usata è exact-match in tutti i casi, ad eccezione del set di dati HumanEval che usa una pass@1 metrica. La corrispondenza esatta confronta il testo generato dal modello con la risposta corretta in base al set di dati, segnalando uno se il testo generato corrisponde esattamente alla risposta e zero in caso contrario. La metrica pass@1 misura la proporzione di soluzioni di modello che superano un set di unit test in un'attività di generazione di codice. A livello di modello, il punteggio di accuratezza è la media dei punteggi di accuratezza a livello di set di dati per ogni modello. |
Per le metriche basate su richiesta:
Metrico | Descrizione |
---|---|
Coerenza | La coerenza valuta la capacità del modello linguistico di produrre output fluido, capace di scorrere in modo naturale e simile al linguaggio umano. |
Fluency | La scorrevolezza valuta la correttezza linguistica della risposta fornita dall'intelligenza artificiale generativa. Valuta il livello di conformità del testo generato alle regole grammaticali e alle strutture sintattiche, nonché l'utilizzo appropriato del vocabolario, che consentono di fornire risposte linguisticamente corrette e naturali. |
GPTSimilarity | La somiglianza di GPT è una misura che quantifica l'analogia tra una frase (o un documento) di dati reali di riferimento e la frase di stima generata da un modello di intelligenza artificiale. La metrica viene calcolata per primo calcolo degli incorporamenti a livello di frase, usando l'API incorporamenti sia per la verità sul terreno che per la stima del modello. Gli embedding sono rappresentazioni vettoriali ad alta dimensionalità delle frasi, di cui catturano il significato semantico e il contesto. |
Base | La base misura l'allineamento delle risposte generate dal modello linguistico con le informazioni provenienti dall'origine di input. |
Rilevanza | La rilevanza misura fino a che punto in le risposte generate dal modello linguistico sono pertinenti e direttamente correlate alle domande poste. |
Azure per intelligenza artificiale visualizza anche l'indice di qualità come indicato di seguito:
Indice | Descrizione |
---|---|
Indice di qualità | L'indice di qualità viene calcolato ridimensionando GPTSimilarity tra zero e uno, seguito dalla media con metriche di accuratezza. I valori più elevati dell'indice di qualità sono migliori. |
L'indice di qualità rappresenta il punteggio medio della metrica primaria applicabile (accuratezza, GPTSimilarity ridimensionata) su 15 set di dati standard e viene fornito su una scala da zero a uno.
L'indice di qualità costituisce due categorie di metriche:
- Accuratezza (ad esempio, corrispondenza esatta o
pass@k
). È compreso tra zero e uno. - Metriche basate su prompt ,ad esempio GPTSimilarity, groundedness, coerenza, fluenza e pertinenza. È compreso tra uno e cinque.
La stabilità del valore dell'indice di qualità fornisce un indicatore della qualità complessiva del modello.
Prestazioni
Le metriche delle prestazioni vengono calcolate come aggregazione per 14 giorni, in base a 24 percorsi (due richieste per trail) inviate ogni giorno con un intervallo di un'ora tra ogni trail. Per ogni richiesta all'endpoint del modello vengono usati i parametri predefiniti seguenti:
Parametro | Valore | Applicabile per |
---|---|---|
Paese | Stati Uniti orientali/Stati Uniti orientali 2 | API serverless e Azure OpenAI |
Limite di velocità dei token al minuto (TPM) | 30k (180 RPM basato su Azure OpenAI) N/D (API serverless) |
Per i modelli OpenAI di Azure, la selezione è disponibile per gli utenti con intervalli di limiti di frequenza in base al tipo di distribuzione (standard, globale, standard globale e così via). Per le API serverless, questa impostazione è astratta. |
Numero di richieste | Due richieste in un trail per ogni ora (24 sentieri al giorno) | API serverless, Azure OpenAI |
Numero di percorsi/piste | 14 giorni con 24 sentieri al giorno per 336 corse | API serverless, Azure OpenAI |
Lunghezza prompt/contesto | Lunghezza moderata | API serverless, Azure OpenAI |
Numero di token elaborati (moderato) | Rapporto 80:20 per i token di input e output, ovvero 800 token di input a 200 token di output. | API serverless, Azure OpenAI |
Numero di richieste simultanee | Una (le richieste vengono inviate in sequenza una dopo l'altra) | API serverless, Azure OpenAI |
Dati | Sintetico (richieste di input preparate dal testo statico) | API serverless, Azure OpenAI |
Paese | Stati Uniti orientali/Stati Uniti orientali 2 | API serverless e Azure OpenAI |
Tipo di distribuzione | Standard | Applicabile solo per Azure OpenAI |
Streaming | Vero | Si applica alle API serverless e ad Azure OpenAI. Per i modelli distribuiti tramite il calcolo gestito, impostare max_token = 1 per replicare lo scenario di streaming, che consente di calcolare metriche come il tempo totale al primo token (TTFT) per il calcolo gestito. |
Tokenizer | Pacchetto Tiktoken (Azure OpenAI) Hugging Face model ID (API serverless) |
Hugging Face model ID (API serverless di Azure) |
Le prestazioni delle vm e dei contratti di servizio vengono valutate nelle metriche seguenti:
Metrico | Descrizione |
---|---|
Media latenza | Tempo medio in secondi impiegato per l'elaborazione di una richiesta, calcolata su più richieste. Per calcolare questa metrica, viene inviata una richiesta all'endpoint ogni ora, per due settimane e viene calcolata la media. |
Latenza P50 | 50° valore percentile (mediano) di latenza (il tempo impiegato tra la richiesta e quando si riceve l'intera risposta con un codice riuscito). Ad esempio, quando si invia una richiesta all'endpoint, il 50% delle richieste viene completato in secondi "x", con "x" come misurazione della latenza. |
Latenza P90 | 90° valore percentile di latenza (il tempo impiegato tra la richiesta e quando si riceve l'intera risposta con un codice riuscito). Ad esempio, quando si invia una richiesta all'endpoint, il 90% delle richieste viene completato in secondi "x", con "x" come misurazione della latenza. |
Latenza P95 | 95° valore percentile di latenza (il tempo impiegato tra la richiesta e quando si riceve l'intera risposta con un codice riuscito). Ad esempio, quando si invia una richiesta all'endpoint, il 95% delle richieste viene completato in secondi "x", con "x" come misurazione della latenza. |
Latenza P99 | 99° valore percentile di latenza (il tempo impiegato tra la richiesta e quando si riceve l'intera risposta con un codice riuscito). Ad esempio, quando si invia una richiesta all'endpoint, il 99% delle richieste viene completato in secondi "x", con "x" come misurazione della latenza. |
Velocità effettiva GTPS | I token generati al secondo (GTPS) sono il numero di token di output generati al secondo dal momento in cui la richiesta viene inviata all'endpoint. |
Velocità effettiva TTPS | I token totali al secondo (TTPS) sono il numero di token totali elaborati al secondo, inclusi sia dal prompt di input che dai token di output generati. |
Latenza TTFT | Il tempo totale per il primo token (TTFT) è il tempo impiegato per il primo token nella risposta da restituire dall'endpoint quando lo streaming è abilitato. |
Tempo tra i token | Questa metrica è il tempo tra i token ricevuti. |
Azure per intelligenza artificiale visualizza anche gli indici delle prestazioni per latenza e velocità effettiva come indicato di seguito:
Indice | Descrizione |
---|---|
Indice di latenza | Tempo medio per il primo token. I valori inferiori sono migliori. |
Indice della velocità effettiva | Token generati media al secondo. I valori superiori sono migliori. |
Per le metriche delle prestazioni, ad esempio la latenza o la velocità effettiva, il tempo per il primo token e i token generati al secondo offrono un migliore senso generale delle prestazioni e del comportamento tipici del modello. Aggiorniamo i nostri numeri di prestazioni con cadenza regolare.
Costo
I calcoli dei costi sono stime per l'uso di un endpoint modello LLM o SLM ospitato nella piattaforma di intelligenza artificiale di Azure. L'intelligenza artificiale di Azure supporta la visualizzazione dei costi delle API serverless e dei modelli OpenAI di Azure. Poiché questi costi sono soggetti a modifiche, aggiorniamo i calcoli dei costi a cadenza regolare.
Il costo delle vm e dei contratti di servizio viene valutato nelle metriche seguenti:
Metrico | Descrizione |
---|---|
Costo per token di input | Costo per la distribuzione dell'API serverless per 1 milione di token di input |
Costo per token di output | Costo per la distribuzione dell'API serverless per 1 milione di token di output |
Costo stimato | Costo per la somma del costo per token di input e costo per token di output, con un rapporto di 3:1. |
Azure per intelligenza artificiale visualizza anche l'indice dei costi come indicato di seguito:
Indice | Descrizione |
---|---|
Indice dei costi | Costo stimato. I valori inferiori sono migliori. |
Benchmarking dei modelli di incorporamento
I benchmark del modello valutano l'incorporamento dei modelli in base alla qualità.
Qualità
La qualità dei modelli di incorporamento viene valutata nelle metriche seguenti:
Metrico | Descrizione |
---|---|
Precisione | L'accuratezza è la proporzione di stime corrette tra il numero totale di stime elaborate. |
Punteggio F1 | F1 Score è la media ponderata della precisione e del richiamo, dove il valore migliore è uno (precisione perfetta e richiamo) e il peggiore è zero. |
Precisione media media (MAP) | MAP valuta la qualità dei sistemi di classificazione e di raccomandazione. Misura sia la pertinenza degli elementi suggeriti sia il livello di qualità del sistema nel posizionare elementi più rilevanti nella parte superiore. I valori possono variare da zero a uno e più alto è map, meglio è che il sistema possa posizionare gli elementi pertinenti in alto nell'elenco. |
Guadagno cumulativo scontato normalizzato (NDCG) | NDCG valuta la capacità di un algoritmo di Machine Learning di ordinare gli elementi in base alla pertinenza. Confronta le classificazioni con un ordine ideale in cui tutti gli elementi rilevanti si trovano nella parte superiore dell'elenco, dove k è la lunghezza dell'elenco durante la valutazione della qualità della classificazione. Nei benchmark k=10, indicati da una metrica di ndcg_at_10 , ovvero vengono esaminati i primi 10 elementi. |
Precisione | La precisione misura correttamente la capacità del modello di identificare le istanze di una determinata classe. Precisione mostra la frequenza con cui un modello di Machine Learning è corretto durante la stima della classe di destinazione. |
Correlazione di Spearman | La correlazione spearman basata sulla somiglianza del coseno viene calcolata calcolando prima la somiglianza del coseno tra le variabili, quindi classificando questi punteggi e usando i ranghi per calcolare la correlazione Spearman. |
Misura V | La misura V è una metrica usata per valutare la qualità del clustering. La misura V viene calcolata come media armonica di omogeneità e completezza, garantendo un equilibrio tra i due per un punteggio significativo. I punteggi possibili si trovano tra zero e uno, con un'etichetta perfettamente completa. |
Calcolo dei punteggi
Singoli punteggi
I risultati del benchmark provengono da set di dati pubblici comunemente usati per la valutazione del modello linguistico. Nella maggior parte dei casi, i dati sono ospitati nei repository GitHub gestiti dai creatori o dai curatori dei dati. Le pipeline di valutazione di Azure per Intelligenza artificiale scaricano i dati dalle fonti originarie, estraggono richieste da ogni riga di esempio, generano risposte del modello e quindi calcolano le metriche di accuratezza pertinenti.
La costruzione di prompt segue le procedure consigliate per ogni set di dati, come specificato nel documento che introduce i set di dati e gli standard del settore. Nella maggior parte dei casi, ogni richiesta contiene diversi scatti, ovvero diversi esempi di domande complete e risposte per prime il modello per l'attività. Le pipeline di valutazione creano scatti eseguendo il campionamento di domande e risposte da una porzione dei dati destinati alla valutazione.