Compartilhar via


Etapa 5. Identificar a causa raiz de problemas de qualidade

fluxo de trabalho com a etapa de iteração realçada

Consulte o repositório do GitHub para obter o código de exemplo nesta seção.

Tempo esperado: 60 minutos.

Requisitos

  • Os resultados da avaliação da POC estão disponíveis no MLflow. Se você seguiu a Etapa 4. Avalie a qualidade da POC, os resultados estão disponíveis no MLflow.
  • Todos os requisitos das etapas anteriores.

Visão geral

As causas raízes mais prováveis de problemas de qualidade são as etapas de recuperação e geração. Para determinar onde se concentrar primeiro, use a saída dos juízes do LLM da Avaliação do Agente de IA do Mosaic que você executou na etapa anterior para identificar a causa raiz mais frequente que afeta a qualidade do seu aplicativo.

Cada linha do conjunto de avaliações é marcada da seguinte maneira:

  • Avaliação geral: aprovado ou reprovado.
  • Causa raiz: Improve Retrieval ou Improve Generation.
  • Lógica da causa raiz: uma breve descrição do motivo pelo qual a causa raiz foi selecionada.

Instruções

A abordagem depende se o conjunto de avaliações contiver as respostas de verdade básica para suas perguntas. Essas respostas são armazenadas em expected_response. Se você tiver expected_response disponível, use a tabela Análise de causa raiz se a verdade básica estiver disponível. Caso contrário, use a tabela Análise de causa raiz se a verdade básica não estiver disponível.

  1. Abra o notebook B_quality_iteration/01_root_cause_quality_issues.
  2. Execute as células relevantes para seu caso de uso, por exemplo, se você tiver ou não expected_response
  3. Examine as tabelas de saída para determinar a causa raiz mais frequente em seu aplicativo
  4. Para cada causa raiz, siga as etapas abaixo para depurar e identificar possíveis correções:

Análise da causa raiz se a verdade básica estiver disponível

Observação

Se você tiver o rótulo humano de verdade básica para o qual o documento deve ser recuperado para cada pergunta, você poderá, opcionalmente, substituir retrieval/llm_judged/chunk_relevance/precision/average pela pontuação de retrieval/ground_truth/document_recall/average.

Precisão de relevância de partes Fundamentação Exatidão Relevância para consulta Resumo do problema Causa raiz Classificação geral
<50% Falha Falha Falha A recuperação é ruim. Improve Retrieval Falha
<50% Falha Falha Aprovado O LLM gera uma resposta relevante, mas a recuperação é ruim. Por exemplo, o LLM ignora a recuperação e usa seu conhecimento de treinamento para responder. Improve Retrieval Falha
<50% Falha Aprovado Aprovado ou reprovado A qualidade de recuperação é ruim, mas o LLM obtém a resposta correta de qualquer forma. Improve Retrieval Falha
<50% Passar Reprovado Falha A resposta é fundamentada na recuperação, mas a recuperação é ruim. Improve Retrieval Falha
<50% Passar Reprovado Aprovado Resposta relevante fundamentada no contexto recuperado, mas a recuperação pode não estar relacionada à resposta esperada. Improve Retrieval Falha
<50% Aprovado Aprovado Aprovado ou reprovado A recuperação encontra informações suficientes para que o LLM responda corretamente. Nenhum Aprovado
>50% Falha Falha Aprovado ou reprovado Invenção. Improve Generation Falha
>50% Falha Aprovado Aprovado ou reprovado Invenção, correto, mas gera detalhes que não estão no contexto. Improve Generation Falha
>50% Passar Reprovado Falha Uma boa recuperação, mas o LLM não fornece uma resposta relevante. Improve Generation Falha
>50% Passar Reprovado Aprovado Boa recuperação e resposta relevante, mas não está correta. Improve Generation Falha
>50% Aprovado Aprovado Aprovado Nenhum problema. Nenhum Aprovado

Análise da causa raiz se a verdade básica não estiver disponível

Precisão de relevância de partes Fundamentação Relevância para consulta Resumo do problema Causa raiz Classificação geral
<50% Falha Falha A qualidade da recuperação é ruim. Improve Retrieval Falha
<50% Falha Aprovado A qualidade da recuperação é ruim. Improve Retrieval Falha
<50% Passar Reprovado A resposta é fundamentada na recuperação, mas a recuperação é ruim. Improve Retrieval Falha
<50% Aprovado Aprovado Resposta relevante fundamentada no contexto recuperado e relevante, mas a recuperação é ruim. Improve Retrieval Aprovado
>50% Falha Falha Invenção. Improve Generation Falha
>50% Falha Aprovado Invenção. Improve Generation Falha
>50% Passar Reprovado Uma boa recuperação fundamentada, mas o LLM não fornece uma resposta relevante. Improve Generation Falha
>50% Aprovado Aprovado Boa recuperação e resposta relevante. Colete a verdade básica para saber se a resposta está correta. Nenhum Aprovado

Próxima etapa

Consulte as seguintes páginas para depurar os problemas que identificou: