Partilhar via


Passo 5. Identificar a causa raiz dos problemas de qualidade

fluxo de trabalho com a etapa iterar realçada

Consulte o repositório GitHub para obter o código de exemplo nesta seção.

Tempo previsto: 60 minutos.

Requisitos

  • Os resultados da avaliação do POC estão disponíveis no MLflow. Se seguiu o Passo 4. Avalie a qualidade do POC, os resultados estão disponíveis no MLflow.
  • Todos os requisitos das etapas anteriores.

Descrição geral

As causas mais prováveis dos problemas de qualidade são as etapas de recuperação e geração. Para determinar onde focar primeiro, use a saída dos juízes LLM do Mosaic AI Agent Evaluation que você executou na etapa anterior para identificar a causa raiz mais frequente que afeta a qualidade do seu aplicativo.

Cada linha do seu conjunto de avaliação é marcada da seguinte forma:

  • Avaliação geral: aprovação ou reprovação.
  • Causa raiz: Improve Retrieval ou Improve Generation.
  • Lógica da causa raiz: uma breve descrição do motivo pelo qual a causa raiz foi selecionada.

Instruções

A abordagem depende se o seu conjunto de avaliação contém as respostas de verdade-base às suas perguntas. Essas respostas são armazenadas em expected_response. Se você tiver expected_response disponível, use a tabela Análise de causa raiz se a verdade do fundamento estiver disponível. Caso contrário, use a tabela Análise de causa raiz se a verdade do fundamento não estiver disponível.

  1. Abra o bloco de notas B_quality_iteration/01_root_cause_quality_issues.
  2. Execute as células que são relevantes para o seu caso de uso, por exemplo, se você tem ou não expected_response
  3. Analise as tabelas de saída para determinar a causa raiz mais frequente em seu aplicativo
  4. Para cada causa raiz, siga as etapas abaixo para depurar ainda mais e identificar possíveis correções:

Análise de causa raiz se a verdade do fundamento estiver disponível

Nota

Se você tiver rotulado como verdade-base humana para qual documento deve ser recuperado para cada pergunta, você pode, opcionalmente, substituir retrieval/llm_judged/chunk_relevance/precision/average a pontuação por retrieval/ground_truth/document_recall/average.

Precisão de relevância do bloco Fundamentação Correção Relevância para a consulta Resumo da edição Causa raiz Classificação geral
<50% Reprovado Reprovado Reprovado A recuperação é fraca. Improve Retrieval Reprovado
<50% Reprovado Reprovado Aprovação O LLM gera respostas relevantes, mas a recuperação é fraca. Por exemplo, o LLM ignora a recuperação e usa seu conhecimento de treinamento para responder. Improve Retrieval Reprovado
<50% Reprovado Aprovação Aprovação ou reprovação A qualidade da recuperação é ruim, mas LLM obtém a resposta correta independentemente disso. Improve Retrieval Reprovado
<50% Aprovação Reprovado Reprovado A resposta baseia-se na recuperação, mas a recuperação é fraca. Improve Retrieval Reprovado
<50% Aprovação Reprovado Aprovação Resposta relevante fundamentada no contexto recuperado, mas a recuperação pode não estar relacionada com a resposta esperada. Improve Retrieval Reprovado
<50% Aprovação Aprovação Aprovação ou reprovação A recuperação encontra informações suficientes para o LLM responder corretamente. Nenhuma Aprovação
>50% Reprovado Reprovado Aprovação ou reprovação alucinações. Improve Generation Reprovado
>50% Reprovado Aprovação Aprovação ou reprovação Alucinação, correta, mas gera detalhes não contextualizados. Improve Generation Reprovado
>50% Aprovação Reprovado Reprovado Boa recuperação, mas o LLM não fornece uma resposta relevante. Improve Generation Reprovado
>50% Aprovação Reprovado Aprovação Boa recuperação e resposta relevante, mas não correta. Improve Generation Reprovado
>50% Aprovação Aprovação Aprovação Sem problemas. Nenhuma Aprovação

Análise de causa raiz se a verdade do terreno não estiver disponível

Precisão de relevância do bloco Fundamentação Relevância para a consulta Resumo da edição Causa raiz Classificação geral
<50% Reprovado Reprovado A qualidade da recuperação é fraca. Improve Retrieval Reprovado
<50% Reprovado Aprovação A qualidade da recuperação é fraca. Improve Retrieval Reprovado
<50% Aprovação Reprovado A resposta baseia-se na recuperação, mas a recuperação é fraca. Improve Retrieval Reprovado
<50% Aprovação Aprovação Resposta relevante fundamentada no contexto recuperado e relevante, mas a recuperação é pobre. Improve Retrieval Aprovação
>50% Reprovado Reprovado alucinações. Improve Generation Reprovado
>50% Reprovado Aprovação alucinações. Improve Generation Reprovado
>50% Aprovação Reprovado Boa recuperação e fundamentada, mas LLM não fornece uma resposta relevante. Improve Generation Reprovado
>50% Aprovação Aprovação Boa recuperação e resposta relevante. Colete a verdade-base para saber se a resposta está correta. Nenhuma Aprovação

Próximo passo

Consulte as seguintes páginas para depurar os problemas identificados: