Etapa 5. Identificar a causa raiz de problemas de qualidade
Consulte o repositório do GitHub para obter o código de exemplo nesta seção.
Tempo esperado: 60 minutos.
Requisitos
- Os resultados da avaliação da POC estão disponíveis no MLflow. Se você seguiu a Etapa 4. Avalie a qualidade da POC, os resultados estão disponíveis no MLflow.
- Todos os requisitos das etapas anteriores.
Visão geral
As causas raízes mais prováveis de problemas de qualidade são as etapas de recuperação e geração. Para determinar onde se concentrar primeiro, use a saída dos juízes do LLM da Avaliação do Agente de IA do Mosaic que você executou na etapa anterior para identificar a causa raiz mais frequente que afeta a qualidade do seu aplicativo.
Cada linha do conjunto de avaliações é marcada da seguinte maneira:
- Avaliação geral: aprovado ou reprovado.
- Causa raiz:
Improve Retrieval
ouImprove Generation
. - Lógica da causa raiz: uma breve descrição do motivo pelo qual a causa raiz foi selecionada.
Instruções
A abordagem depende se o conjunto de avaliações contiver as respostas de verdade básica para suas perguntas. Essas respostas são armazenadas em expected_response
. Se você tiver expected_response
disponível, use a tabela Análise de causa raiz se a verdade básica estiver disponível. Caso contrário, use a tabela Análise de causa raiz se a verdade básica não estiver disponível.
- Abra o notebook B_quality_iteration/01_root_cause_quality_issues.
- Execute as células relevantes para seu caso de uso, por exemplo, se você tiver ou não expected_response
- Examine as tabelas de saída para determinar a causa raiz mais frequente em seu aplicativo
- Para cada causa raiz, siga as etapas abaixo para depurar e identificar possíveis correções:
Análise da causa raiz se a verdade básica estiver disponível
Observação
Se você tiver o rótulo humano de verdade básica para o qual o documento deve ser recuperado para cada pergunta, você poderá, opcionalmente, substituir retrieval/llm_judged/chunk_relevance/precision/average
pela pontuação de retrieval/ground_truth/document_recall/average
.
Precisão de relevância de partes | Fundamentação | Exatidão | Relevância para consulta | Resumo do problema | Causa raiz | Classificação geral |
---|---|---|---|---|---|---|
<50% | Falha | Falha | Falha | A recuperação é ruim. | Improve Retrieval |
Falha |
<50% | Falha | Falha | Aprovado | O LLM gera uma resposta relevante, mas a recuperação é ruim. Por exemplo, o LLM ignora a recuperação e usa seu conhecimento de treinamento para responder. | Improve Retrieval |
Falha |
<50% | Falha | Aprovado | Aprovado ou reprovado | A qualidade de recuperação é ruim, mas o LLM obtém a resposta correta de qualquer forma. | Improve Retrieval |
Falha |
<50% | Passar | Reprovado | Falha | A resposta é fundamentada na recuperação, mas a recuperação é ruim. | Improve Retrieval |
Falha |
<50% | Passar | Reprovado | Aprovado | Resposta relevante fundamentada no contexto recuperado, mas a recuperação pode não estar relacionada à resposta esperada. | Improve Retrieval |
Falha |
<50% | Aprovado | Aprovado | Aprovado ou reprovado | A recuperação encontra informações suficientes para que o LLM responda corretamente. | Nenhum | Aprovado |
>50% | Falha | Falha | Aprovado ou reprovado | Invenção. | Improve Generation |
Falha |
>50% | Falha | Aprovado | Aprovado ou reprovado | Invenção, correto, mas gera detalhes que não estão no contexto. | Improve Generation |
Falha |
>50% | Passar | Reprovado | Falha | Uma boa recuperação, mas o LLM não fornece uma resposta relevante. | Improve Generation |
Falha |
>50% | Passar | Reprovado | Aprovado | Boa recuperação e resposta relevante, mas não está correta. | Improve Generation |
Falha |
>50% | Aprovado | Aprovado | Aprovado | Nenhum problema. | Nenhum | Aprovado |
Análise da causa raiz se a verdade básica não estiver disponível
Precisão de relevância de partes | Fundamentação | Relevância para consulta | Resumo do problema | Causa raiz | Classificação geral |
---|---|---|---|---|---|
<50% | Falha | Falha | A qualidade da recuperação é ruim. | Improve Retrieval |
Falha |
<50% | Falha | Aprovado | A qualidade da recuperação é ruim. | Improve Retrieval |
Falha |
<50% | Passar | Reprovado | A resposta é fundamentada na recuperação, mas a recuperação é ruim. | Improve Retrieval |
Falha |
<50% | Aprovado | Aprovado | Resposta relevante fundamentada no contexto recuperado e relevante, mas a recuperação é ruim. | Improve Retrieval |
Aprovado |
>50% | Falha | Falha | Invenção. | Improve Generation |
Falha |
>50% | Falha | Aprovado | Invenção. | Improve Generation |
Falha |
>50% | Passar | Reprovado | Uma boa recuperação fundamentada, mas o LLM não fornece uma resposta relevante. | Improve Generation |
Falha |
>50% | Aprovado | Aprovado | Boa recuperação e resposta relevante. Colete a verdade básica para saber se a resposta está correta. | Nenhum | Aprovado |
Próxima etapa
Consulte as seguintes páginas para depurar os problemas que identificou: