Mejora del rendimiento de un modelo de lenguaje

8 minutos

Después de implementar un modelo en un punto de conexión, puede interactuar con el modelo para explorar cómo se comporta. Cuando quiera que el modelo se personalice en su caso de uso, hay varias estrategias de optimización que puede aplicar para mejorar el rendimiento del modelo. Vamos a explorar las distintas estrategias.

Chatear con un modelo en el área de juegos

Puede usar el lenguaje de codificación preferido para realizar una llamada API al punto de conexión del modelo, o puede chatear con el modelo directamente en el área de juegos del portal de Azure AI Foundry. El área de juegos de chat es una manera rápida y sencilla de experimentar y mejorar el rendimiento del modelo.

Recorte de pantalla que muestra el área de juegos de chat en Azure AI Foundry.

La calidad de las preguntas que envía al modelo de lenguaje influye directamente en la calidad de las respuestas que recibe. Puede construir cuidadosamente su pregunta, o preguntar, para recibir respuestas mejores y más interesantes. El proceso de diseño y optimización de avisos para mejorar el rendimiento del modelo también se conoce como ingeniería rápida. Cuando un usuario final proporciona indicaciones pertinentes, específicas, inequívocas y bien estructuradas, el modelo puede comprender mejor el contexto y generar respuestas más precisas.

Aplicar la ingeniería de mensajería

Al chatear con el modelo en el área de juegos, puede aplicar varias técnicas de ingeniería rápidas para explorar si mejora la salida del modelo.

Captura de pantalla que muestra una pregunta a un modelo de lenguaje y una respuesta.

Vamos a explorar algunas técnicas que un usuario final puede usar para aplicar la ingeniería de avisos:

Proporcionar instrucciones claras: Sea específico sobre la salida que desee.
Dar formato a las instrucciones: Use encabezados y delineadores para facilitar la lectura de la pregunta.
Usar indicaciones: Proporcione palabras clave o indicadores para cómo debe iniciar el modelo su respuesta, como un lenguaje de codificación específico.

Actualización del mensaje del sistema

En el área de juegos de chat, puede ver el JSON de la conversación actual seleccionando Mostrar JSON:

Captura de pantalla que muestra la salida JSON de una conversación en el área de juegos de chat.

El JSON mostrado es los datos de entrada al punto de conexión del modelo cada vez que se envía un mensaje nuevo. El mensaje del sistema siempre forma parte de los datos de entrada. Aunque no es visible para los usuarios finales, el mensaje del sistema le permite como desarrollador personalizar el comportamiento del modelo proporcionando instrucciones para su comportamiento.

Algunas técnicas comunes de ingeniería de avisos para aplicar como desarrollador mediante la actualización del mensaje del sistema son:

Use una toma o pocas tomas: Proporcione uno o varios ejemplos para ayudar al modelo a identificar un patrón deseado. Puede agregar una sección al mensaje del sistema para agregar uno o varios ejemplos.
Use una Cadena de pensamiento: Guíe el modelo para razonar paso a paso instruyendo que piense en la tarea.
Agregar contexto: Mejore la precisión del modelo proporcionando información contextual o en segundo plano relevante para la tarea. Puede proporcionar contexto a través de los datos de puesta a tierra proporcionados en el símbolo del sistema del usuario o conectando su propio origen de datos.

Aplicación de estrategias de optimización de modelos

Como desarrollador, también puede aplicar otras estrategias de optimización para mejorar el rendimiento del modelo, sin tener que pedir al usuario final que escriba mensajes específicos. Junto a solicitar ingeniería, la estrategia que elija depende de sus requisitos:

Diagrama que muestra las distintas estrategias para optimizar el rendimiento del modelo.

Optimizar para contexto: Cuando el modelo carece de conocimiento contextual y desea maximizar la precisión de las respuestas.
Optimice el modelo: Cuando quiera mejorar el formato de respuesta, el estilo o la voz maximizando la coherencia del comportamiento.

Para optimizar el contexto, puede aplicar un patrón de generación aumentada de recuperación (RAG). Con RAG, usted basa sus datos recuperando primero el contexto de una fuente de datos antes de generar una respuesta. Por ejemplo, quiere que los clientes hagan preguntas sobre los hoteles que ofrece en el catálogo de reservas de viajes.

Cuando desee que el modelo responda en un estilo o formato específico, puede indicar al modelo que lo haga agregando instrucciones en el mensaje del sistema. Cuando observe que el comportamiento del modelo no es coherente, puede aplicar más coherencia en el comportamiento ajustando un modelo. Entrene un modelo de lenguaje base en un conjunto de datos antes de integrarlo en la aplicación.

También puede usar una combinación de estrategias de optimización, como RAG y un modelo de ajuste fino, para mejorar la aplicación de lenguaje.

Mejora del rendimiento de un modelo de lenguaje

Chatear con un modelo en el área de juegos

Aplicar la ingeniería de mensajería

Actualización del mensaje del sistema

Aplicación de estrategias de optimización de modelos

Comentarios