Paso 4. Evaluación de la calidad de la POC

Artículo
08/19/2024

flujo de trabajo con el paso de evaluación resaltado

Consulte el repositorio de GitHub para ver el código de ejemplo de esta sección.

Tiempo esperado: de 5 a 60 minutos. El tiempo varía en función del número de preguntas del conjunto de evaluación. Para 100 preguntas, la evaluación tarda aproximadamente 5 minutos.

Información general y resultado esperado

En este paso se usa el conjunto de evaluación que acaba de seleccionar para evaluar la aplicación POC y establecer la calidad, el costo y la latencia de línea base. El siguiente paso usa los resultados de la evaluación para identificar la causa principal de cualquier problema de calidad.

La evaluación se realiza mediante la evaluación del agente de IA de Mosaic y se examina exhaustivamente en todos los aspectos de la calidad, el costo y la latencia que se describen en la sección de métricas de esta guía paso a paso.

Las métricas agregadas y la evaluación de cada pregunta del conjunto de evaluación se registran en MLflow. Para obtener más información, consulte Salidas de evaluación.

Requisitos

El conjunto de evaluación está disponible.
Todos los requisitos de los pasos anteriores.

Instrucciones

Abra el cuaderno 05_evaluate_poc_quality en el directorio de la POC elegido y haga clic en Ejecutar todo.
Inspeccione los resultados de la evaluación en el cuaderno o use MLflow. Si los resultados cumplen sus requisitos de calidad, puede ir directamente a [Implementar y supervisar]. Dado que la aplicación POC se basa en Databricks, está lista para implementarse en una API de REST escalable y lista para producción.

Paso siguiente

Con esta evaluación de línea base de la calidad de la POC, identifique las causas principales de los problemas de calidad y corrija esos problemas de forma iterativa para mejorar la aplicación. Consulte Paso 5. Identificación de la causa raíz de los problemas de calidad.

Compartir a través de

Paso 4. Evaluación de la calidad de la POC

Información general y resultado esperado

Requisitos

Instrucciones

Paso siguiente

Comentarios

Recursos adicionales