Fluxo de trabalho de desenvolvimento orientado por avaliação
Esta seção orienta você pelo fluxo de trabalho de desenvolvimento recomendado pelo Databricks para criar, testar e implantar um aplicativo RAG de alta qualidade: desenvolvimento orientado por avaliação. Este fluxo de trabalho é baseado nas melhores práticas recomendadas pela equipe da Mosaic Research para criar e avaliar aplicativos RAG de alta qualidade. A Databricks recomenda o seguinte fluxo de trabalho orientado por avaliação:
- Defina os requisitos.
- Recolher feedback das partes interessadas sobre uma prova rápida de conceito (POC).
- Avaliar a qualidade do POC.
- Diagnosticar e corrigir problemas de qualidade de forma iterativa.
- Implante na produção.
- Monitor na produção.
Existem dois conceitos centrais no desenvolvimento orientado para a avaliação:
Métricas: Definir o que significa alta qualidade.
Semelhante à forma como você define metas de negócios a cada ano, você precisa definir o que significa alta qualidade para seu caso de uso. O Mosaic AI Agent Evaluation fornece um conjunto sugerido de métricas para usar, a mais importante das quais é a precisão ou correção da resposta - o aplicativo RAG está fornecendo a resposta certa?
Conjunto de avaliação: Medir objetivamente as métricas.
Para medir objetivamente a qualidade, você precisa de um conjunto de avaliação, que contém perguntas com respostas em boas condições validadas por humanos. Este guia orienta você pelo processo de desenvolvimento e refinamento iterativo desse conjunto de avaliação.
A ancoragem em relação a métricas e a um conjunto de avaliações oferece os seguintes benefícios:
- Você pode refinar iterativamente e com confiança a qualidade do seu aplicativo durante o desenvolvimento - sem mais adivinhar se uma alteração resultou em uma melhoria.
- Obter alinhamento com as partes interessadas da empresa sobre a prontidão do aplicativo para produção torna-se mais simples quando você pode afirmar com confiança: "sabemos que nosso aplicativo responde corretamente às perguntas mais críticas para nossos negócios e não alucina".
Para obter um passo a passo ilustrando o fluxo de trabalho orientado por avaliação, comece com Pré-requisito: Reunir requisitos.