Editar

Compartir vía


Evaluación de un extremo a otro de LLM

Servicios de Azure AI
Azure AI Search
Azure OpenAI Service
Azure Machine Learning

Cuando llegue a esta fase, ya habrá generado su índice de búsqueda y determinado qué búsquedas desea realizar. Esta fase aborda el proceso de evaluación de la solución de generación aumentada de recuperación (RAG) desde la perspectiva de evaluar los mensajes de usuario esperados que contienen los datos de base recuperados en el modelo de lenguaje de gran tamaño. Antes de llegar a esta fase, debe haber completado la fase de preparación donde recopiló los documentos y consultas de prueba, fragmentó los documentos de prueba, enriqueció los fragmentos, incrustó los fragmentos, creó un índice de búsqueda e implementó una estrategia de búsqueda. Debe haber evaluado cada una de estas fases y estar satisfecho con los resultados. En este momento, debe sentirse seguro de que la solución devuelve datos de base relevantes para una consulta de usuario.

Estos datos de base forman el contexto del mensaje que se envía al modelo de lenguaje de gran tamaño para abordar la consulta del usuario. Las estrategias de ingeniería de solicitudes están fuera del ámbito de este artículo. En este artículo se aborda la evaluación de la llamada de ingeniería al modelo de lenguaje de gran tamaño desde la perspectiva de los datos de base. En este artículo se tratan algunas métricas comunes de evaluación del modelo de lenguaje de gran tamaño y algunas métricas de similitud y evaluación específicas que se pueden usar en los cálculos de evaluación del modelo de lenguaje de gran tamaño o como métricas independientes.

En este artículo no se intenta proporcionar una lista exhaustiva de métricas de modelos de lenguaje de gran tamaño o métricas de similitud y evaluación. El número de estas métricas crece cada día. Lo que es importante que se lleve de este artículo es que hay varias métricas, cada una con su propio caso de uso distinto. Usted es el único que tiene una comprensión holística de su carga de trabajo. Usted y los científicos de datos deben determinar qué es lo que desean medir y qué métricas le ayudan a realizar esa tarea.

Este artículo forma parte de una serie. Lea la introducción.

Métricas de evaluación de modelos de lenguaje de gran tamaño

Hay varias métricas que puede usar para evaluar la respuesta del modelo de lenguaje de gran tamaño, incluida la base, la integridad, el uso y la relevancia.

Importante

Las respuestas del modelo de lenguaje de gran tamaño son no deterministas, lo que significa que el mismo mensaje para un modelo de lenguaje de gran tamaño puede, y a menudo lo hará, devolver resultados diferentes. Es importante comprender esto al usar un modelo de lenguaje de gran tamaño como parte del proceso de evaluación. Plantéese usar un intervalo de destino en un único destino al evaluar el uso de un modelo de lenguaje de gran tamaño.

Base

La base, a veces denominada fidelidad, mide si la respuesta se basa completamente en el contexto. Valida que la respuesta no use información distinta de la que existe en el contexto. Una métrica de base baja indica que el modelo de lenguaje de gran tamaño podría estar derivando hacia un territorio imaginativo o sin sentido conocido como alucinaciones.

Cálculo

Evaluando

Si la base es baja, indica que el modelo de lenguaje de gran tamaño no ve los fragmentos como pertinentes. Debe evaluar si necesita agregar datos al corpus, ajustar la estrategia de fragmentación o el tamaño del fragmento, o ajustar el mensaje.

Integridad

La integridad mide si la respuesta responde a todas las partes de la consulta. Esto le ayuda a comprender si los fragmentos del contexto son pertinentes y están relacionados directamente con la consulta y proporcionan una respuesta completa.

Cálculo

  • Asistido por IA: mensajes de puntuación de recuperación
  • Un modelo de lenguaje de gran tamaño puede ayudarle a medir la calidad de la respuesta del modelo de lenguaje de gran tamaño. Necesita la pregunta, el contexto y la respuesta generada para realizar esta medición. A continuación se describe el proceso general:
    1. Use el modelo de lenguaje de gran tamaño para volver a crear, resumir o simplificar la pregunta. Este paso identifica la intención.
    2. Pida al modelo que compruebe si se encuentra la intención o la respuesta a la intención o si se puede derivar de los documentos recuperados, donde la respuesta puede ser "No" o "Sí" para cada documento. Las respuestas que comienzan por "Sí" indican que los documentos recuperados son relevantes para la intención o respuesta a la intención.
    3. Calcule la proporción de las intenciones cuya respuesta empiece por "Sí".
    4. Cuadre la puntuación para resaltar los errores.

Evaluando

Si la integridad es baja, empiece por evaluar el modelo de inserción. Compare el vocabulario del contenido con el vocabulario del modelo de inserción elegido. Determine si necesita un modelo de inserción específico de dominio o si necesita ajustar un modelo existente. Como paso siguiente, evalúe la estrategia de fragmentación. Si usa una longitud fija, plantéese aumentar el tamaño del fragmento. También puede evaluar si los datos de prueba tienen suficientes datos para abordar completamente la pregunta.

Uso

El uso mide hasta qué punto la respuesta está compuesta por información de los fragmentos del contexto. El objetivo es determinar la medida en que cada fragmento forma parte de la respuesta. Si el uso es bajo, indica que los resultados podrían no ser relevantes para la consulta. El uso debe evaluarse junto con la exhaustividad.

Cálculo

Puede usar un modelo de lenguaje de gran tamaño para calcular el uso. Puede pasar la respuesta y el contexto que contiene los fragmentos al modelo de lenguaje de gran tamaño. Puede pedir al modelo de lenguaje de gran tamaño que determine el número de fragmentos que implican la respuesta.

Evaluando

En la tabla siguiente se proporcionan instrucciones, teniendo en cuento tanto la integridad como el uso.

Uso alto Uso bajo
Integridad alta No se requiere ninguna acción En este caso, los datos devueltos pueden abordar la pregunta, pero se devolvieron fragmentos irrelevantes. Plantéese reducir el valor del parámetro top-k para producir resultados más probables o deterministas.
Integridad baja En este caso, se usan los fragmentos que proporciona, pero no están abordando completamente la pregunta. Ten en cuenta lo siguiente:
  • Revise la estrategia de fragmentación para aumentar el contexto dentro de los fragmentos.
  • Para aumentar el número de fragmentos, incremente el valor del parámetro top-k.
  • Evalúe si tiene fragmentos no devueltos que pueden aumentar la integridad. Si es así, investigue por qué no se devolvieron.
  • Siga las instrucciones de la sección de integridad.
En este caso, no está respondiendo completamente a la pregunta y los fragmentos que proporciona no están bien utilizados. Plantéese lo siguiente para abordar estos problemas:
  • Revise la estrategia de fragmentación para aumentar el contexto dentro de los fragmentos. Si usa la fragmentación de tamaño fijo, plantéese aumentar los tamaños de los fragmentos.
  • Ajuste los mensajes para mejorar las respuestas

Relevancia

Mide la medida en que la respuesta del modelo de lenguaje de gran tamaño es pertinente y está relacionada con la consulta.

Cálculo

Evaluando

Cuando la relevancia es baja, evalúe lo siguiente:

  • Asegúrese de que los fragmentos proporcionados al modelo de lenguaje de gran tamaño son pertinentes.
    • Determine si hay fragmentos viables que son pertinentes que no se devolvieron. Si los hay, evalúe el modelo de inserción.
    • Si no hay fragmentos viables, busque si existen datos pertinentes. Si es así, evalúe la estrategia de fragmentación.
  • Si se devolvieron fragmentos pertinentes, evalúe el mensaje.

Se deben calcular otros métodos de evaluación, como el de integridad y deben generar puntuaciones similares a las observadas en la medición de relevancia.

Métricas de similitud y evaluación

Como se mencionó en la introducción, hay cientos de métricas de similitud y evaluación que se usan en la ciencia de datos. Algunos algoritmos son específicos de un dominio, como la conversión de voz en texto o la traducción entre idiomas. Cada algoritmo tiene una estrategia única para calcular su métrica.

El científico de datos determina lo que se va a medir y qué métrica o combinación de métricas puede usar para la medición. Por ejemplo, en el área de traducción de idiomas, la métrica Bleu comprueba cuántos n-gramas aparecen en la traducción automática y la traducción humana para medir la similitud en función del uso de las mismas palabras. La similitud de coseno usa incrustaciones entre las traducciones automáticas y humanas para medir la similitud semántica. Si su objetivo fuera tener una similitud semántica alta y utilizar palabras similares a las de la traducción humana, su objetivo sería una puntuación Bleu alta con una similitud de coseno alta. Si solo le importara la similitud semántica, se centraría en la similitud de coseno.

La lista siguiente contiene un pequeño ejemplo de métricas de evaluación y similitud comunes. Tenga en cuenta que las métricas de similitud enumeradas se describen como basadas en tokens, basadas en secuencias o basadas en ediciones, que ilustran cómo usan enfoques muy diferentes para calcular la similitud. Tenga en cuenta también que la lista contiene tres algoritmos para evaluar la calidad de la traducción de texto de un idioma a otro.

  • Subcadena común más larga: algoritmo basado en secuencias que busca la subcadena común más larga entre dos cadenas. El porcentaje de la subcadena común más larga toma la subcadena común más larga y la divide entre el número de caracteres de la cadena de entrada más pequeña o más grande.
  • Subsecuencia común más larga (LCS): algoritmo basado en secuencias que busca la subsecuencia más larga entre dos cadenas. LCS no requiere que las subsecuencias estén por orden consecutivo.
  • Similitud de coseno: algoritmo basado en tokens que calcula el coseno del ángulo entre los dos vectores.
  • Jaro Winkler: algoritmo basado en la edición que cuenta el número mínimo de pasos para transformar una cadena en otra.
  • Hamming: algoritmo basado en la edición que mide el número mínimo de sustituciones necesarias para transformar una cadena en otra.
  • Jaccard: algoritmo basado en tokens que calcula la similitud dividiendo la intersección de dos cadenas entre la unión de esas cadenas.
  • Levenshtein: algoritmo basado en la edición que calcula la similitud al determinar el número mínimo de ediciones de caracteres únicos necesarios para transformar una cadena en otra.
  • BLEU: evalúa la calidad del texto, que es el resultado de la traducción automática de un idioma a otro. Bleu calcula la superposición de n-gramas entre una traducción automática y una traducción humana para realizar esta evaluación.
  • ROUGE: compara una traducción automática de un idioma a otro con una traducción humana. Hay varias variantes de ROUGE que usan la superposición de n-gramas, skip-bigrams o subsecuencia común más larga.
  • METEOR: evalúa la calidad del texto, que es el resultado de la traducción automática, examinando coincidencias exactas, coincidencias después de lematización, sinónimos, parafraseo y alineación.

Consulte los siguientes recursos para conocer las métricas comunes de similitud y evaluación:

Documentación, informes y agregación

Debe documentar los hiperparámetros que eligió para un experimento y las métricas de evaluación resultantes para que pueda comprender el impacto de los hiperparámetros en los resultados. Debe documentar los hiperparámetros y resultados en niveles granulares, como la inserción o la evaluación de búsqueda y en un nivel de macro, como probar todo el sistema de un extremo a otro.

Durante el diseño y el desarrollo, es posible que pueda realizar un seguimiento manual de los hiperparámetros y los resultados. Sin embargo, realizar varias evaluaciones con todo el corpus de documentos y consultas de prueba puede implicar cientos de ejecuciones de evaluación y miles de resultados. Debe automatizar la persistencia de parámetros y resultados para las evaluaciones.

Una vez que se conservan los hiperparámetros y los resultados, debe plantearse crear diagramas y gráficos para que pueda visualizar con mayor facilidad los efectos que tienen las opciones de hiperparámetros en las métricas. La visualización le ayudará a identificar qué opciones conducen a caídas o picos de rendimiento.

Es importante comprender que diseñar y evaluar la solución de RAG no es una operación única. El corpus de documentos cambiará con el tiempo. Las preguntas que hacen los clientes cambiarán con el tiempo y su comprensión de los tipos de preguntas evolucionará a medida que aprenda de producción. Debe volver a revisar este proceso una y otra vez. Mantener la documentación de las evaluaciones anteriores es fundamental para los futuros esfuerzos de diseño y evaluación.

Acelerador del experimento de RAG

Estos artículos le guiarán por todas las fases y opciones de diseño implicadas en el diseño y evaluación de una solución de RAG. Los artículos se centran en lo que debe hacer, no en cómo hacerlo. Un equipo de ingeniería que trabaja con los principales clientes de Microsoft ha desarrollado una herramienta denominada Acelerador de experimento de RAG. El Acelerador de experimento de RAG es un marco de experimentación de última generación diseñado para optimizar y mejorar el desarrollo de soluciones de generación aumentada de recuperación (RAG). El Acelerador de experimento de RAG permite a los investigadores y desarrolladores explorar y ajustar eficazmente los componentes críticos que rigen el rendimiento de RAG, lo que en última instancia conduce a una generación de texto más precisa y coherente.

Con su interfaz basada en la CLI, puede experimentar sin esfuerzo con varios modelos de inserción, ajustar las estrategias de fragmentación y evaluar diferentes enfoques de búsqueda para descubrir todo el potencial del sistema RAG. Permite centrarse en los aspectos básicos del desarrollo de RAG, a la vez que abstrae las complejidades del ajuste de hiperparámetros mediante una configuración sencilla.

Además, el marco proporciona compatibilidad completa con la configuración de modelos de lenguaje de gran tamaño, lo que le permite alcanzar el equilibrio perfecto entre la complejidad del modelo y la calidad de la generación. Esta herramienta le permite simplificar el proceso de experimentación, ahorrar tiempo valioso y mejorar significativamente el rendimiento de los modelos RAG.

Tanto si es un investigador experimentado que amplía los límites del reconocimiento del lenguaje natural como si es un profesional del sector que busca mejorar las capacidades de generación de texto, este marco de experimentación es la solución definitiva para acelerar su recorrido de desarrollo de RAG. Adopte el futuro de la experimentación RAG y libere el verdadero potencial de sus modelos con esta herramienta de vanguardia.

RAG con Vision Application Framework

Gran parte de las instrucciones de este artículo sobre cómo trabajar con elementos multimedia en la solución de RAG proviene de otro equipo de ingeniería que trabaja con los principales clientes de Microsoft. Este equipo escribió un marco denominado RAG con Vision Application Framework. Este marco proporciona una canalización de generación aumentada por recuperación (RAG) basada en Python que procesa el contenido de texto e imagen de documentos MHTML.

El marco carga, fragmenta y enriquece texto e imágenes de archivos MHTML e ingiere los fragmentos en Azure Search. El marco implementa el almacenamiento en caché para el enriquecimiento de imágenes tanto para el procesamiento como para la rentabilidad. El marco también incorpora la evaluación como parte de la canalización.

Colaboradores

Pasos siguientes