Partilhar via


Fluxo de trabalho de desenvolvimento orientado por avaliação

Esta seção orienta você pelo fluxo de trabalho de desenvolvimento recomendado pelo Databricks para criar, testar e implantar um aplicativo RAG de alta qualidade: desenvolvimento orientado por avaliação. Este fluxo de trabalho é baseado nas melhores práticas recomendadas pela equipe da Mosaic Research para criar e avaliar aplicativos RAG de alta qualidade. A Databricks recomenda o seguinte fluxo de trabalho orientado por avaliação:

  1. Defina os requisitos.
  2. Recolher feedback das partes interessadas sobre uma prova rápida de conceito (POC).
  3. Avaliar a qualidade do POC.
  4. Diagnosticar e corrigir problemas de qualidade de forma iterativa.
  5. Implante na produção.
  6. Monitor na produção.

Fluxo de trabalho de desenvolvimento orientado por avaliação

Existem dois conceitos centrais no desenvolvimento orientado para a avaliação:

  • Métricas: Definir o que significa alta qualidade.

    Semelhante à forma como você define metas de negócios a cada ano, você precisa definir o que significa alta qualidade para seu caso de uso. O Mosaic AI Agent Evaluation fornece um conjunto sugerido de métricas para usar, a mais importante das quais é a precisão ou correção da resposta - o aplicativo RAG está fornecendo a resposta certa?

  • Conjunto de avaliação: Medir objetivamente as métricas.

    Para medir objetivamente a qualidade, você precisa de um conjunto de avaliação, que contém perguntas com respostas em boas condições validadas por humanos. Este guia orienta você pelo processo de desenvolvimento e refinamento iterativo desse conjunto de avaliação.

A ancoragem em relação a métricas e a um conjunto de avaliações oferece os seguintes benefícios:

  • Você pode refinar iterativamente e com confiança a qualidade do seu aplicativo durante o desenvolvimento - sem mais adivinhar se uma alteração resultou em uma melhoria.
  • Obter alinhamento com as partes interessadas da empresa sobre a prontidão do aplicativo para produção torna-se mais simples quando você pode afirmar com confiança: "sabemos que nosso aplicativo responde corretamente às perguntas mais críticas para nossos negócios e não alucina".

Para obter um passo a passo ilustrando o fluxo de trabalho orientado por avaliação, comece com Pré-requisito: Reunir requisitos.