Benchmarks de modelo no Azure AI Studio
Importante
Os itens marcados (visualização) neste artigo estão atualmente em visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.
No Azure AI Studio, você pode comparar benchmarks entre modelos e conjuntos de dados disponíveis no setor para decidir qual deles atende ao seu cenário de negócios. Você pode acessar diretamente os resultados detalhados de benchmarking dentro do catálogo de modelos. Quer já tenha modelos em mente ou esteja a explorar modelos, os dados de avaliação comparativa na IA do Azure permitem-lhe tomar decisões informadas de forma rápida e eficiente.
A IA do Azure dá suporte à avaliação comparativa de modelos para modelos selecionados que são populares e usados com mais frequência. Os modelos suportados têm um ícone de benchmarks que se parece com um histograma. Você pode encontrar esses modelos no catálogo de modelos usando o filtro Coleções e selecionando Resultados de benchmark. Em seguida, você pode usar a funcionalidade de pesquisa para encontrar modelos específicos.
Os benchmarks de modelos ajudam você a tomar decisões informadas sobre a sustentabilidade de modelos e conjuntos de dados antes de iniciar qualquer trabalho. Os benchmarks são uma lista selecionada dos modelos com melhor desempenho para uma tarefa, com base em uma comparação abrangente de métricas de benchmarking. O Azure AI Studio fornece os seguintes parâmetros de referência para modelos, com base em coleções de catálogo de modelos:
- Benchmarks entre modelos de linguagem grande (LLMs) e modelos de linguagem pequena (SLMs)
- Benchmarks em modelos de incorporação
Benchmarking de LLMs e SLMs
Os benchmarks de modelos avaliam LLMs e SLMs nas seguintes categorias: qualidade, desempenho e custo. Os benchmarks são atualizados regularmente à medida que novas métricas e conjuntos de dados são adicionados aos modelos existentes e à medida que novos modelos são adicionados ao catálogo de modelos.
Qualidade
A IA do Azure avalia a qualidade de LLMs e SLMs em várias métricas que são agrupadas em duas categorias principais: precisão e métricas assistidas por prompt:
Para métricas de precisão:
Métrico | Description |
---|---|
Precisão | As pontuações de precisão estão disponíveis no conjunto de dados e nos níveis do modelo. No nível do conjunto de dados, a pontuação é o valor médio de uma métrica de precisão calculada sobre todos os exemplos no conjunto de dados. A métrica de precisão usada é exact-match em todos os casos, exceto para o conjunto de dados HumanEval que usa uma pass@1 métrica. A correspondência exata compara o texto gerado pelo modelo com a resposta correta de acordo com o conjunto de dados, relatando um se o texto gerado corresponder exatamente à resposta e zero caso contrário. A pass@1 métrica mede a proporção de soluções de modelo que passam em um conjunto de testes de unidade em uma tarefa de geração de código. No nível do modelo, a pontuação de precisão é a média das precisões no nível do conjunto de dados para cada modelo. |
Para métricas assistidas por prompt:
Métrico | Description |
---|---|
Coerência | A coerência avalia o quão bem o modelo de linguagem pode produzir resultados que fluem suavemente, lêem naturalmente e se assemelham à linguagem humana. |
Fluência | A fluência avalia a proficiência linguística da resposta prevista de uma IA generativa. Ele avalia o quão bem o texto gerado adere às regras gramaticais, estruturas sintáticas e uso apropriado do vocabulário, resultando em respostas linguisticamente corretas e com sonoridade natural. |
GPTSimilaridade | GPTSimilarity é uma medida que quantifica a semelhança entre uma sentença (ou documento) de verdade fundamental e a sentença de previsão gerada por um modelo de IA. A métrica é calculada pela primeira computação de incorporações em nível de frase, usando a API de incorporação para a verdade do terreno e a previsão do modelo. Essas incorporações representam representações vetoriais de alta dimensão das frases, capturando seu significado semântico e contexto. |
Fundamentação | A fundamentação mede o quão bem as respostas geradas pelo modelo de linguagem se alinham com as informações da fonte de entrada. |
Relevância | A relevância mede até que ponto as respostas geradas pelo modelo de linguagem são pertinentes e diretamente relacionadas às perguntas dadas. |
A IA do Azure também exibe o índice de qualidade da seguinte maneira:
Índice | Description |
---|---|
Índice de qualidade | O índice de qualidade é calculado reduzindo a GPTSimilaridade entre zero e um, seguido pela média com métricas de precisão. Valores mais altos de índice de qualidade são melhores. |
O índice de qualidade representa a pontuação média da métrica primária aplicável (precisão, GPTSimilaridade reescalonada) em 15 conjuntos de dados padrão e é fornecido em uma escala de zero a um.
O índice de qualidade constitui duas categorias de métricas:
- Precisão (por exemplo, correspondência exata ou
pass@k
). Varia de zero a um. - Métricas baseadas em prompts (por exemplo, GPTSimilarity, groundedness, coherence, fluency e relevância). Varia de um a cinco.
A estabilidade do valor do índice de qualidade fornece um indicador da qualidade geral do modelo.
Desempenho
As métricas de desempenho são calculadas como um agregado ao longo de 14 dias, com base em 24 trilhas (duas solicitações por trilha) enviadas diariamente com um intervalo de uma hora entre cada trilha. Os seguintes parâmetros padrão são usados para cada solicitação ao ponto de extremidade do modelo:
Parâmetro | Value | Aplicável para |
---|---|---|
País/Região | Leste dos EUA/Leste dos EUA2 | APIs sem servidor e Azure OpenAI |
Limite de taxa de tokens por minuto (TPM) | 30k (180 RPM com base no Azure OpenAI) N/D (APIs sem servidor) |
Para modelos OpenAI do Azure, a seleção está disponível para usuários com intervalos de limite de taxa com base no tipo de implantação (padrão, global, padrão global e assim por diante). Para APIs sem servidor, essa configuração é abstraída. |
Número de pedidos | Dois pedidos em uma trilha para cada hora (24 trilhas por dia) | APIs sem servidor, Azure OpenAI |
Número de trilhos/corridas | 14 dias com 24 trilhas por dia para 336 corridas | APIs sem servidor, Azure OpenAI |
Comprimento do prompt/contexto | Comprimento moderado | APIs sem servidor, Azure OpenAI |
Número de fichas processadas (moderado) | Proporção 80:20 para tokens de entrada e saída, ou seja, 800 tokens de entrada para 200 tokens de saída. | APIs sem servidor, Azure OpenAI |
Número de solicitações simultâneas | Um (os pedidos são enviados sequencialmente, um após o outro) | APIs sem servidor, Azure OpenAI |
Dados | Sintético (prompts de entrada preparados a partir de texto estático) | APIs sem servidor, Azure OpenAI |
País/Região | Leste dos EUA/Leste dos EUA2 | APIs sem servidor e Azure OpenAI |
Tipo de implementação | Standard | Aplicável apenas para o Azure OpenAI |
Transmissão | True | Aplica-se a APIs sem servidor e Azure OpenAI. Para modelos implantados por meio de computação gerenciada, defina max_token = 1 para replicar o cenário de streaming, o que permite calcular métricas como o tempo total até o primeiro token (TTFT) para computação gerenciada. |
Tokenizador | Pacote Tiktoken (Azure OpenAI) ID do modelo Hugging Face (APIs sem servidor) |
ID do modelo Hugging Face (APIs sem servidor do Azure) |
O desempenho de LLMs e SLMs é avaliado através das seguintes métricas:
Métrico | Description |
---|---|
Latência média | Tempo médio em segundos necessário para processar um pedido, calculado ao longo de vários pedidos. Para calcular essa métrica, enviamos uma solicitação ao endpoint a cada hora, durante duas semanas, e calculamos a média. |
Latência P50 | Valor do percentil 50 (a mediana) de latência (o tempo decorrido entre o pedido e quando recebemos toda a resposta com um código bem-sucedido). Por exemplo, quando enviamos uma solicitação para o ponto de extremidade, 50% das solicitações são concluídas em 'x' segundos, com 'x' sendo a medição de latência. |
Latência P90 | Valor de latência do percentil 90 (o tempo decorrido entre o pedido e o momento em que recebemos toda a resposta com um código bem-sucedido). Por exemplo, quando enviamos uma solicitação para o endpoint, 90% das solicitações são concluídas em 'x' segundos, com 'x' sendo a medição de latência. |
Latência P95 | Valor do percentil 95 de latência (o tempo decorrido entre o pedido e quando recebemos toda a resposta com um código bem-sucedido). Por exemplo, quando enviamos uma solicitação para o ponto de extremidade, 95% das solicitações são concluídas em 'x' segundos, com 'x' sendo a medição de latência. |
Latência P99 | Valor do percentil 99 de latência (o tempo decorrido entre o pedido e quando recebemos toda a resposta com um código bem-sucedido). Por exemplo, quando enviamos uma solicitação para o ponto de extremidade, 99% das solicitações são concluídas em 'x' segundos, com 'x' sendo a medição de latência. |
Taxa de transferência GTPS | Tokens gerados por segundo (GTPS) é o número de tokens de saída que estão sendo gerados por segundo a partir do momento em que a solicitação é enviada para o ponto de extremidade. |
Taxa de transferência TTPS | Total de tokens por segundo (TTPS) é o número total de tokens processados por segundo, incluindo tanto do prompt de entrada quanto dos tokens de saída gerados. |
TTFT de latência | O tempo total até o primeiro token (TTFT) é o tempo necessário para que o primeiro token na resposta seja retornado do ponto de extremidade quando o streaming está habilitado. |
Tempo entre tokens | Essa métrica é o tempo entre os tokens recebidos. |
A IA do Azure também exibe índices de desempenho para latência e taxa de transferência da seguinte maneira:
Índice | Description |
---|---|
Índice de latência | Tempo médio até o primeiro token. Valores mais baixos são melhores. |
Índice de taxa de transferência | Média de tokens gerados por segundo. Valores mais altos são melhores. |
Para métricas de desempenho, como latência ou taxa de transferência, o tempo até o primeiro token e os tokens gerados por segundo dão uma melhor noção geral do desempenho e comportamento típicos do modelo. Atualizamos nossos números de desempenho em cadência regular.
Custo
Os cálculos de custo são estimativas para usar um ponto de extremidade de modelo LLM ou SLM hospedado na plataforma Azure AI. A IA do Azure suporta a exibição do custo de APIs sem servidor e modelos do Azure OpenAI. Como esses custos estão sujeitos a alterações, atualizamos nossos cálculos de custos em uma cadência regular.
O custo de LLMs e SLMs é avaliado através das seguintes métricas:
Métrico | Description |
---|---|
Custo por tokens de entrada | Custo de implantação de API sem servidor para 1 milhão de tokens de entrada |
Custo por tokens de saída | Custo de implantação de API sem servidor para 1 milhão de tokens de saída |
Custo estimado | Custo para a soma do custo por tokens de entrada e custo por tokens de saída, com uma proporção de 3:1. |
A IA do Azure também exibe o índice de custo da seguinte maneira:
Índice | Description |
---|---|
Índice de custos | Custo estimado. Valores mais baixos são melhores. |
Avaliação comparativa de modelos de incorporação
Os benchmarks de modelos avaliam a incorporação de modelos com base na qualidade.
Qualidade
A qualidade dos modelos de incorporação é avaliada através das seguintes métricas:
Métrico | Description |
---|---|
Precisão | Precisão é a proporção de previsões corretas entre o número total de previsões processadas. |
Pontuação F1 | F1 Score é a média ponderada da precisão e recordação, onde o melhor valor é um (precisão perfeita e recordação), e o pior é zero. |
Precisão média (PAM) | O MAP avalia a qualidade dos sistemas de classificação e recomendação. Ele mede tanto a relevância dos itens sugeridos quanto o quão bom o sistema é em colocar itens mais relevantes no topo. Os valores podem variar de zero a um, e quanto maior o MAP, melhor o sistema pode colocar itens relevantes no topo da lista. |
Ganho acumulado descontado normalizado (NDCG) | O NDCG avalia a capacidade de um algoritmo de aprendizado de máquina de classificar itens com base na relevância. Ele compara os rankings com uma ordem ideal onde todos os itens relevantes estão no topo da lista, onde k é o comprimento da lista enquanto avalia a qualidade do ranking. Em nossos benchmarks, k=10, indicado por uma métrica de ndcg_at_10 , o que significa que olhamos para os 10 principais itens. |
Precisão | A precisão mede a capacidade do modelo de identificar instâncias de uma determinada classe corretamente. A precisão mostra com que frequência um modelo de aprendizado de máquina está correto ao prever a classe de destino. |
Correlação de Spearman | A correlação de Spearman baseada na semelhança de cosseno é calculada primeiro calculando a semelhança de cosseno entre as variáveis, depois classificando essas pontuações e usando as classificações para calcular a correlação de Spearman. |
Medida V | A medida V é uma métrica usada para avaliar a qualidade do clustering. A medida V é calculada como uma média harmônica de homogeneidade e completude, garantindo um equilíbrio entre as duas para uma pontuação significativa. As pontuações possíveis situam-se entre zero e um, sendo uma etiquetagem perfeitamente completa. |
Cálculo das pontuações
Pontuações individuais
Os resultados dos parâmetros de referência têm origem em conjuntos de dados públicos que são normalmente utilizados para a avaliação de modelos linguísticos. Na maioria dos casos, os dados são hospedados em repositórios do GitHub mantidos pelos criadores ou curadores dos dados. Os pipelines de avaliação da IA do Azure baixam dados de suas fontes originais, extraem prompts de cada linha de exemplo, geram respostas de modelo e calculam métricas de precisão relevantes.
A construção rápida segue as melhores práticas para cada conjunto de dados, conforme especificado pelo documento que apresenta o conjunto de dados e os padrões do setor. Na maioria dos casos, cada prompt contém várias fotos, ou seja, vários exemplos de perguntas e respostas completas para preparar o modelo para a tarefa. Os pipelines de avaliação criam imagens por amostragem de perguntas e respostas de uma parte dos dados que são mantidos a partir da avaliação.