Compartir a través de


Habilitación de la medición: compatibilidad con la infraestructura

En este artículo se detalla la infraestructura necesaria para medir la calidad y cómo la proporciona Databricks. La medición de la calidad no es fácil y requiere una inversión de infraestructura significativa.

Registros de seguimiento detallados

El núcleo de la lógica de la aplicación RAG es una serie de pasos en la cadena. Para evaluar y depurar la calidad, debe implementar la instrumentación que realiza un seguimiento de las entradas y salidas de la cadena, junto con cada paso de la cadena, y sus entradas y salidas asociadas. La instrumentación que ha puesto en marcha debe funcionar de la misma manera en desarrollo y producción.

En Databricks, seguimiento de MLflow proporciona esta funcionalidad. Con el registro de seguimiento de MLflow, instrumenta el código en producción y obtiene los mismos seguimientos durante el desarrollo y en producción. Los seguimientos de producción se registran como parte de la tabla de inferencia.

Interfaz de usuario de revisión de partes interesadas

Casi siempre, como desarrollador, no es un experto en el contenido de la aplicación que está desarrollando. Para recopilar comentarios de expertos humanos que puedan evaluar la calidad de salida de su aplicación, necesita una interfaz que les permita interactuar con las versiones anteriores de la aplicación y proporcionar comentarios detallados. Además, necesita una manera de cargar salidas de aplicación específicas para que las partes interesadas evalúen su calidad.

Esta interfaz debe realizar un seguimiento de las salidas de la aplicación y los comentarios asociados de forma estructurada, almacenando el seguimiento completo de la aplicación y los comentarios detallados en una tabla de datos.

En Databricks, la aplicación de revisión de Agent Evaluation proporciona esta funcionalidad.

Marco de métricas de calidad, coste y latencia

Necesita una manera de definir las métricas que miden exhaustivamente la calidad de cada componente de la cadena y la aplicación de un extremo a otro. Idealmente, el marco proporcionaría un conjunto de métricas estándar de fábrica, además de admitir la personalización, por lo que puede agregar métricas que prueben aspectos específicos de la calidad que son únicos para su negocio.

En Databricks, Agent Evaluation proporciona una implementación lista para usar, utilizando modelos de jueces de LLM hospedados, para las métricas de calidad, coste y latencia necesarias.

Arnés de evaluación

Necesita una manera de obtener salidas de forma rápida y eficaz de la cadena para cada pregunta del conjunto de evaluación y, a continuación, evaluar cada salida en las métricas pertinentes. Este arnés debe ser lo más eficaz posible, ya que ejecutará la evaluación después de cada experimento que intente mejorar la calidad.

En Databricks, Agent Evaluation proporciona un arnés de evaluación que se integra con MLflow.

Administración de conjuntos de evaluación

El conjunto de evaluación es un conjunto vivo de preguntas que actualizará de forma iterativa durante el ciclo de vida de desarrollo y producción de la aplicación.

En Databricks, puede administrar el conjunto de evaluación como una tabla Delta. Al evaluar con MLflow, MLflow registrará automáticamente una instantánea de la versión del conjunto de evaluación usado.

Marco de seguimiento de experimentos

Durante el desarrollo de aplicaciones, probará muchos experimentos diferentes. Un marco de seguimiento de experimentos le permite registrar cada experimento y realizar un seguimiento de sus métricas frente a otros experimentos.

En Databricks, MLflow proporciona funcionalidades de seguimiento de experimentos.

Marco de parametrización de cadena

Muchos experimentos que pruebe requieren que contenga la constante de código de la cadena mientras iteran en varios parámetros usados por el código. Necesita un marco que le permita hacerlo.

En Databricks, configuración del modelo de MLflow proporciona estas funcionalidades.

Supervisión en línea

Una vez implementado, necesita una manera de supervisar el estado de la aplicación y la calidad, el coste y la latencia en curso.

En Databricks, Model Serving proporciona el seguimiento de estado de la aplicación y Lakehouse Monitoring proporciona salidas continuas a un panel y supervisa la calidad, el coste y la latencia.

< Anterior: Evaluación del rendimiento

Siguiente: Desarrollo controlado por evaluación >