Bancos de pruebas de modelos en Inteligencia artificial de Azure Studio
Importante
Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.
En Inteligencia artificial de Azure Studio, puede comparar bancos de pruebas entre modelos y conjuntos de datos disponibles en el sector para evaluar cuál satisface el escenario empresarial. Puede acceder directamente a los resultados de pruebas comparativas detalladas dentro del catálogo de modelos. Tanto si ya tiene modelos en mente como si está explorando modelos, los datos de pruebas comparativas de Azure AI le permiten tomar decisiones fundamentadas de forma rápida y eficaz.
Azure AI admite pruebas comparativas de modelos para los modelos seleccionados que se usan con más frecuencia y populares. Los modelos admitidos tienen un icono de Banco de pruebas que se parece a un histograma. Puede encontrar estos modelos en el catálogo de modelos mediante el filtro Colecciones y la selección de resultados de Banco de pruebas. A continuación, puede usar la funcionalidad de búsqueda para buscar modelos específicos.
Los bancos de pruebas de modelos le ayudan a tomar decisiones fundamentadas sobre la sostenibilidad de los modelos y conjuntos de datos antes de iniciar cualquier trabajo. Los bancos de pruebas son una lista mantenida de los modelos que mejor funcionan para una tarea, según una comparación exhaustiva de las métricas de bancos de pruebas. Inteligencia artificial de Azure Studio proporciona los bancos de pruebas de modelos siguientes en función de colecciones de catálogos de modelo:
- Bancos de pruebas entre modelos de lenguaje grande (LLM) y pequeños modelos de lenguaje (SLM)
- Bancos de pruebas en modelos de incrustación
Bancos de pruebas de LLM y SLM
Los bancos de pruebas de modelos evalúan las LLM y los SLA en las siguientes categorías: calidad, rendimiento y costo. Las pruebas comparativas se actualizan periódicamente a medida que se agregan nuevas métricas y conjuntos de datos a los modelos existentes y, a medida que se agregan nuevos modelos al catálogo de modelo.
Control de
Azure AI evalúa la calidad de las VM y los SLA en varias métricas que se agrupan en dos categorías principales: precisión y métricas asistidas por mensajes:
Para la métrica de precisión:
Métrica | Descripción |
---|---|
Precisión | Las puntuaciones de precisión están disponibles a nivel de conjunto de datos y modelo. A nivel de conjunto de datos, la puntuación es el valor medio de una métrica de precisión calculada sobre todos los ejemplos del conjunto de datos. La métrica de precisión usada es exact-match en todos los casos, excepto el conjunto de datos de HumanEval que usa una métrica pass@1 . La coincidencia exacta compara el texto generado por el modelo con la respuesta correcta según el conjunto de datos, notificando 1 si el texto generado coincide exactamente con la respuesta y 0 en caso contrario. La métrica pass@1 mide la proporción de soluciones de modelo que pasan un conjunto de pruebas unitarias en una tarea de generación de código. A nivel de modelo, la puntuación de precisión es la media de las precisiones de nivel de conjunto de datos para cada modelo. |
Para las métricas asistidas por indicaciones:
Métrica | Descripción |
---|---|
Coherencia | La coherencia evalúa en qué medida el modelo de lenguaje puede producir flujos de salida con facilidad, que se lean con naturalidad y se asemejen al lenguaje humano. |
Fluidez | La fluidez evalúa el dominio del idioma de una respuesta predicha de IA generativa. Evalúa el nivel de conformidad del texto generado con las reglas gramaticales, estructuras sintácticas y uso adecuado del vocabulario, lo que da lugar a respuestas lingüísticas correctas y naturales. |
GPTSimilarity | La similitud de GPT es una medida que cuantifica la similitud entre una frase verdadera real (o documento) y la frase de predicción generada por un modelo de IA. La métrica se obtiene calculando primero la computación de inserciones de nivel de frase mediante la API de inserciones para la verdad real y la predicción del modelo. Estas incrustaciones representan representaciones vectoriales de alta dimensión de las oraciones, capturando su significado semántico y contexto. |
Base | La base evalúa el nivel de alineación de las respuestas generadas del modelo de lenguaje con la información del origen de entrada. |
Relevancia | La relevancia evalúa la medida en que las respuestas generadas del modelo de lenguaje son pertinentes y directamente relacionadas con las preguntas formuladas. |
Azure AI también muestra el índice de calidad de la siguiente manera:
Índice | Descripción |
---|---|
Índice de calidad | El índice de calidad se calcula mediante la reducción vertical de GPTSimilarity entre cero y uno, seguido de una media con métricas de precisión. Los valores más altos del índice de calidad son mejores. |
El índice de calidad representa la puntuación media de la métrica principal aplicable (precisión, reescalado de GPTSimilarity) en 15 conjuntos de datos estándar y se proporciona en una escala de cero a uno.
El índice de calidad constituye dos categorías de métricas:
- Precisión (por ejemplo, coincidencia exacta o
pass@k
). Oscila entre cero y uno. - Métricas basadas en indicaciones (por ejemplo, GPTSimilarity, base, coherencia, fluidez y relevancia). Oscila entre uno y cinco.
La estabilidad del valor del índice de calidad proporciona un indicador de la calidad general del modelo.
Rendimiento
Las métricas de rendimiento se calculan como un agregado durante 14 días, en función de 24 rutas (dos solicitudes por pista) enviadas diariamente con un intervalo de una hora entre cada pista. Los parámetros predeterminados siguientes se usan para cada solicitud al punto de conexión del modelo:
Parámetro | Valor | Aplicable a |
---|---|---|
Region | Este de EE. UU./ Este de EE. UU.2 | API sin servidor y Azure OpenAI |
Límite de velocidad de tokens por minuto (TPM) | 30 000 (180 RPM basados en Azure OpenAI) N/D (API sin servidor) |
Para los modelos de Azure OpenAI, la selección está disponible para los usuarios con intervalos de límite de velocidad en función del tipo de implementación (estándar, global, estándar global, etc.) En el caso de las API sin servidor, esta configuración se abstrae. |
Número de solicitudes | Dos solicitudes en una pista por cada hora (24 pistas al día) | API sin servidor, Azure OpenAI |
Número de pistas o ejecuciones | 14 días con 24 pistas al día para 336 ejecuciones | API sin servidor, Azure OpenAI |
Longitud de la indicación o contexto | Longitud moderada | API sin servidor, Azure OpenAI |
Número de tokens procesados (moderado) | Proporción de 80:20 para los tokens de entrada y salida, es decir, 800 tokens de entrada a 200 tokens de salida. | API sin servidor, Azure OpenAI |
Número de solicitudes simultáneas | Una (las solicitudes se envían secuencialmente una después de otra) | API sin servidor, Azure OpenAI |
Data | Sintético (mensajes de entrada preparados a partir de texto estático) | API sin servidor, Azure OpenAI |
Region | Este de EE. UU./ Este de EE. UU.2 | API sin servidor y Azure OpenAI |
Tipo de implementación | Estándar | Solo se aplica a Azure OpenAI |
Streaming | True | Se aplica a las API sin servidor y Azure OpenAI. Para los modelos implementados a través de un proceso administrado, establezca max_token = 1 para replicar el escenario de streaming, lo que permite calcular métricas como el tiempo total al primer token (TTFT) para el proceso administrado. |
Tokenizador | Paquete Tiktoken (Azure OpenAI) Id. de modelo Hugging Face (API sin servidor) |
Id. de modelo Hugging Face (API sin servidor de Azure) |
El rendimiento de las VM y los SLA se evalúa en las métricas siguientes:
Métrica | Descripción |
---|---|
Media de latencia | Promedio de tiempo en segundos que se tarda en procesar una solicitud, calculada en varias solicitudes. Para calcular esta métrica, se envía una solicitud al punto de conexión cada hora, durante dos semanas y se calcula el promedio. |
Latencia P50 | Valor de percentil 50 (mediana) de latencia (el tiempo necesario entre la solicitud y cuando recibimos toda la respuesta con un código correcto). Por ejemplo, cuando se envía una solicitud al punto de conexión, el 50 % de las solicitudes se completan en segundos "x", con "x" siendo la medición de latencia. |
Latencia P90 | Valor de percentil 90 de latencia (el tiempo necesario entre la solicitud y cuando recibimos toda la respuesta con un código correcto). Por ejemplo, cuando se envía una solicitud al punto de conexión, el 90 % de las solicitudes se completan en segundos "x", con "x" siendo la medición de latencia. |
Latencia P95 | Valor de percentil 95 de latencia (el tiempo necesario entre la solicitud y cuando recibimos toda la respuesta con un código correcto). Por ejemplo, cuando se envía una solicitud al punto de conexión, el 95 % de las solicitudes se completan en segundos "x", con "x" siendo la medición de latencia. |
Latencia P99 | Valor de percentil 99 de latencia (el tiempo necesario entre la solicitud y cuando recibimos toda la respuesta con un código correcto). Por ejemplo, cuando se envía una solicitud al punto de conexión, el 99 % de las solicitudes se completan en segundos "x", con "x" siendo la medición de latencia. |
Rendimiento de GTPS | Los tokens generados por segundo (GTPS) son el número de tokens de salida que se generan por segundo desde el momento en que la solicitud se envía al punto de conexión. |
Rendimiento de TTPS | El número total de tokens por segundo (TTPS) es el número de tokens totales procesados por segundo, incluidos los tokens de entrada y los tokens de salida generados. |
Latencia de TTFT | El tiempo total del primer token (TTFT) es el tiempo necesario para que el primer token de la respuesta se devuelva desde el punto de conexión cuando el streaming esté habilitado. |
Tiempo entre tokens | Esta métrica es el tiempo entre los tokens recibidos. |
Azure AI también muestra índices de rendimiento para la latencia y el rendimiento de la siguiente manera:
Índice | Descripción |
---|---|
Índice de latencia | Tiempo medio para el primer token. Los valores bajos son mejores. |
Índice de rendimiento | Promedio de tokens generados por segundo. Los valores más altos son mejores. |
En el caso de las métricas de rendimiento, como la latencia o el rendimiento, el tiempo para el primer token y los tokens generados por segundo proporcionan un mejor sentido general del rendimiento y el comportamiento típicos del modelo. Actualizamos nuestros números de rendimiento en cadencia regular.
Costos
Los cálculos de costos son estimaciones para usar un punto de conexión de modelo LLM o SLM hospedado en la plataforma de Azure AI. Azure AI admite la visualización del costo de las API sin servidor y los modelos de Azure OpenAI. Dado que estos costos están sujetos a cambios, actualizamos nuestros cálculos de costos con una cadencia regular.
El costo de las VM y los SLA se evalúa en las métricas siguientes:
Métrica | Descripción |
---|---|
Costo por tokens de entrada | Costo de la implementación de API sin servidor para 1 millón de tokens de entrada |
Costo por tokens de salida | Costo de la implementación de API sin servidor para 1 millón de tokens de salida |
Coste estimado | Costo de la suma del costo por tokens de entrada y costo por tokens de salida, con una relación de 3:1. |
Azure AI también muestra el índice de costos de la siguiente manera:
Índice | Descripción |
---|---|
Índice de costos | Costo estimado. Los valores bajos son mejores. |
Bancos de pruebas de modelos de inserción
Las pruebas comparativas de modelos evalúan los modelos de inserción en función de la calidad.
Control de
La calidad de los modelos de inserción se evalúa en las métricas siguientes:
Métrica | Descripción |
---|---|
Precisión | La precisión es la proporción de predicciones correctas entre el número total de predicciones procesadas. |
Puntuación F1 | La puntuación F1 es la media ponderada de la precisión y la recuperación, donde el mejor valor es uno (precisión y recuperación perfectas) y el peor es cero. |
Precisión media (MAP) | MAP evalúa la calidad de la clasificación y los sistemas de recomendación. Mide tanto la relevancia de los elementos sugeridos como la buena forma en que el sistema coloca elementos más relevantes en la parte superior. Los valores pueden oscilar entre cero y uno, y cuanto más alto sea MAP, mejor puede el sistema colocar los elementos pertinentes en alto en la lista. |
Ganancia acumulativa con descuento normalizado (NDCG) | NDCG evalúa la capacidad de un algoritmo de aprendizaje automático para ordenar los elementos en función de la relevancia. Compara las clasificaciones con un orden ideal en el que todos los elementos relevantes están en la parte superior de la lista, donde k es la longitud de la lista al evaluar la calidad de la clasificación. En nuestras pruebas comparativas, k=10, indicada por una métrica de ndcg_at_10 , lo que significa que observamos los 10 elementos principales. |
Precisión | La precisión mide la capacidad del modelo para identificar las instancias de una clase determinada correctamente. La precisión muestra la frecuencia con la que un modelo de Machine Learning es correcto al predecir la clase de destino. |
Correlación de Spearman | La correlación de Spearman basada en la similitud de coseno se calcula determinando primero la similitud de coseno entre variables y, a continuación, clasificando estas puntuaciones y usando las clasificaciones para calcular la correlación de Spearman. |
Medida V | La medida V es una métrica que se usa para evaluar la calidad de la agrupación en clústeres. La medida V se calcula como una media armónica de homogeneidad e integridad, lo que garantiza un equilibrio entre los dos para una puntuación significativa. Las puntuaciones posibles se encuentran entre cero y uno, con uno siendo un etiquetado perfectamente completo. |
Cálculo de puntuaciones
Puntuaciones individuales
Los resultados de las pruebas comparativas se originan en conjuntos de datos públicos que se usan habitualmente para la evaluación del modelos de lenguaje. En la mayoría de los casos, los datos se hospedan en repositorios de GitHub mantenidos por los creadores o conservadores de los datos. Las canalizaciones de evaluación de Azure AI descargan datos de sus orígenes originales, extraen solicitudes de cada fila de ejemplo, generan respuestas de modelo y, a continuación, calculan las métricas de precisión pertinentes.
La construcción de la solicitud sigue el procedimiento recomendado para cada conjunto de datos, definido por el documento que presenta el conjunto de datos y el estándar del sector. En la mayoría de los casos, cada solicitud contiene varias capturas, es decir, varios ejemplos de preguntas completas y respuestas para dar el modelo a la tarea. Las canalizaciones de evaluación crean capturas mediante el muestreo de preguntas y respuestas de una parte de los datos que se conservan de la evaluación.