Partilhar via


Passo 6. Fazer & avaliar correções de qualidade no agente de IA

Este artigo orienta você pelas etapas para iterar e avaliar correções de qualidade em seu agente de IA generativo com base na análise de causa raiz.

Diagrama de fluxo de trabalho POC, etapa de iteração

Para obter mais informações sobre como avaliar um agente de IA, consulte O que é Mosaic AI Agent Evaluation?.

Requisitos

  1. Com base em sua análise de causa raiz, você identificou possíveis correções para recuperação ou geração para implementar e avaliar.
  2. Seu aplicativo POC (ou outra cadeia de linha de base) é registrado em uma execução MLflow com uma avaliação de Avaliação de Agente armazenada na mesma execução.

Consulte o repositório GitHub para obter o código de exemplo nesta seção.

Resultados esperados na Avaliação de Agentes

GIF animado mostrando a saída de uma avaliação de agente executada no Databricks MLflow.

A imagem anterior mostra a saída Avaliação do Agente no MLflow.

Como corrigir, avaliar e iterar no agente de IA

Para todos os tipos, use o bloco de anotações B_quality_iteration/02_evaluate_fixes para avaliar a cadeia resultante versus sua configuração de linha de base, seu POC e escolha um "vencedor". Este bloco de notas ajuda-o a escolher a experiência vencedora e a implementá-la na aplicação de revisão ou numa API REST escalável e pronta para produção.

  1. No Azure Databricks, abra o bloco de anotações B_quality_iteration/02_evaluate_fixes .
  2. Com base no tipo de correção que você está implementando:
  3. O seguinte acontece quando executa o bloco de notas a Run evaluation partir da célula:
    • Avalie cada correção.
    • Determine a correção com as melhores métricas de qualidade/custo/latência.
    • Implante o melhor no aplicativo Review e em uma API REST pronta para produção para obter feedback das partes interessadas.

Próximo passo

Continue com a Etapa 6 (pipelines). Implemente correções de pipeline de dados.

< Anterior: Passo 5.2. Qualidade de geração de depuração

Seguinte: Passo 6.1. Corrigir o pipeline de dados >