Fluxo de trabalho de desenvolvimento baseado em avaliação
Esta seção apresenta o fluxo de trabalho de desenvolvimento recomendado pelo Databricks para criar, testar e implantar um aplicativo RAG de alta qualidade: desenvolvimento baseado em avaliação. Esse fluxo de trabalho se baseia nas práticas recomendadas da equipe de pesquisa do Mosaic para criar e avaliar aplicativos RAG de alta qualidade. O Databricks recomenda o seguinte fluxo de trabalho baseado em avaliação:
- Definir os requisitos.
- Coletar comentários de participantes sobre uma POC (prova de conceito) rápida.
- Avaliar a qualidade da POC.
- Diagnosticar e corrigir problemas de qualidade de forma iterativa.
- Implante para produção.
- Monitorar na produção.
Há dois conceitos fundamentais no desenvolvimento baseado em avaliação:
Métricas: define o que significa alta qualidade.
Semelhante à forma como você define a meta empresarial a cada ano, você precisa definir o que significa alta qualidade para seu caso de uso. A Avaliação do Agente de IA do Mosaic fornece um conjunto sugerido de métricas a serem usadas, a mais importante delas é a precisão ou a correção da resposta: o aplicativo RAG está fornecendo a resposta certa?
Conjunto de avaliações: mede objetivamente as métricas.
Para medir objetivamente a qualidade, você precisa de um conjunto de avaliações que contenha perguntas com boas respostas conhecidas e validadas por humanos. Este guia orienta você pelo processo de desenvolvimento e refinação iterativa desse conjunto de avaliações.
A ancoragem em métricas e um conjunto de avaliações oferece os seguintes benefícios:
- Você pode refinar de forma iterativa e confiante a qualidade do aplicativo durante o desenvolvimento: sem precisar adivinhar se uma alteração resultou em uma melhoria.
- Alinhar-se com os participantes empresariais sobre a preparação do aplicativo para a produção se torna mais simples quando você pode dizer com confiança: “sabemos que nosso aplicativo responde às perguntas mais críticas para nossa empresa corretamente e não inventa.”
Para ver um passo a passo que ilustra o fluxo de trabalho baseado em avaliação, comece com Pré-requisitos: Reunir requisitos.