Compartilhar via


Fluxo de trabalho de desenvolvimento baseado em avaliação

Esta seção apresenta o fluxo de trabalho de desenvolvimento recomendado pelo Databricks para criar, testar e implantar um aplicativo RAG de alta qualidade: desenvolvimento baseado em avaliação. Esse fluxo de trabalho se baseia nas práticas recomendadas da equipe de pesquisa do Mosaic para criar e avaliar aplicativos RAG de alta qualidade. O Databricks recomenda o seguinte fluxo de trabalho baseado em avaliação:

  1. Definir os requisitos.
  2. Coletar comentários de participantes sobre uma POC (prova de conceito) rápida.
  3. Avaliar a qualidade da POC.
  4. Diagnosticar e corrigir problemas de qualidade de forma iterativa.
  5. Implante para produção.
  6. Monitorar na produção.

Fluxo de trabalho de desenvolvimento baseado em avaliação

Há dois conceitos fundamentais no desenvolvimento baseado em avaliação:

  • Métricas: define o que significa alta qualidade.

    Semelhante à forma como você define a meta empresarial a cada ano, você precisa definir o que significa alta qualidade para seu caso de uso. A Avaliação do Agente de IA do Mosaic fornece um conjunto sugerido de métricas a serem usadas, a mais importante delas é a precisão ou a correção da resposta: o aplicativo RAG está fornecendo a resposta certa?

  • Conjunto de avaliações: mede objetivamente as métricas.

    Para medir objetivamente a qualidade, você precisa de um conjunto de avaliações que contenha perguntas com boas respostas conhecidas e validadas por humanos. Este guia orienta você pelo processo de desenvolvimento e refinação iterativa desse conjunto de avaliações.

A ancoragem em métricas e um conjunto de avaliações oferece os seguintes benefícios:

  • Você pode refinar de forma iterativa e confiante a qualidade do aplicativo durante o desenvolvimento: sem precisar adivinhar se uma alteração resultou em uma melhoria.
  • Alinhar-se com os participantes empresariais sobre a preparação do aplicativo para a produção se torna mais simples quando você pode dizer com confiança: “sabemos que nosso aplicativo responde às perguntas mais críticas para nossa empresa corretamente e não inventa.”

Para ver um passo a passo que ilustra o fluxo de trabalho baseado em avaliação, comece com Pré-requisitos: Reunir requisitos.