Passo 5. Identificar a causa raiz dos problemas de qualidade
Consulte o repositório GitHub para obter o código de exemplo nesta seção.
Tempo previsto: 60 minutos.
Requisitos
- Os resultados da avaliação do POC estão disponíveis no MLflow. Se seguiu o Passo 4. Avalie a qualidade do POC, os resultados estão disponíveis no MLflow.
- Todos os requisitos das etapas anteriores.
Descrição geral
As causas mais prováveis dos problemas de qualidade são as etapas de recuperação e geração. Para determinar onde focar primeiro, use a saída dos juízes LLM do Mosaic AI Agent Evaluation que você executou na etapa anterior para identificar a causa raiz mais frequente que afeta a qualidade do seu aplicativo.
Cada linha do seu conjunto de avaliação é marcada da seguinte forma:
- Avaliação geral: aprovação ou reprovação.
- Causa raiz:
Improve Retrieval
ouImprove Generation
. - Lógica da causa raiz: uma breve descrição do motivo pelo qual a causa raiz foi selecionada.
Instruções
A abordagem depende se o seu conjunto de avaliação contém as respostas de verdade-base às suas perguntas. Essas respostas são armazenadas em expected_response
. Se você tiver expected_response
disponível, use a tabela Análise de causa raiz se a verdade do fundamento estiver disponível. Caso contrário, use a tabela Análise de causa raiz se a verdade do fundamento não estiver disponível.
- Abra o bloco de notas B_quality_iteration/01_root_cause_quality_issues.
- Execute as células que são relevantes para o seu caso de uso, por exemplo, se você tem ou não expected_response
- Analise as tabelas de saída para determinar a causa raiz mais frequente em seu aplicativo
- Para cada causa raiz, siga as etapas abaixo para depurar ainda mais e identificar possíveis correções:
Análise de causa raiz se a verdade do fundamento estiver disponível
Nota
Se você tiver rotulado como verdade-base humana para qual documento deve ser recuperado para cada pergunta, você pode, opcionalmente, substituir retrieval/llm_judged/chunk_relevance/precision/average
a pontuação por retrieval/ground_truth/document_recall/average
.
Precisão de relevância do bloco | Fundamentação | Correção | Relevância para a consulta | Resumo da edição | Causa raiz | Classificação geral |
---|---|---|---|---|---|---|
<50% | Reprovado | Reprovado | Reprovado | A recuperação é fraca. | Improve Retrieval |
Reprovado |
<50% | Reprovado | Reprovado | Aprovação | O LLM gera respostas relevantes, mas a recuperação é fraca. Por exemplo, o LLM ignora a recuperação e usa seu conhecimento de treinamento para responder. | Improve Retrieval |
Reprovado |
<50% | Reprovado | Aprovação | Aprovação ou reprovação | A qualidade da recuperação é ruim, mas LLM obtém a resposta correta independentemente disso. | Improve Retrieval |
Reprovado |
<50% | Aprovação | Reprovado | Reprovado | A resposta baseia-se na recuperação, mas a recuperação é fraca. | Improve Retrieval |
Reprovado |
<50% | Aprovação | Reprovado | Aprovação | Resposta relevante fundamentada no contexto recuperado, mas a recuperação pode não estar relacionada com a resposta esperada. | Improve Retrieval |
Reprovado |
<50% | Aprovação | Aprovação | Aprovação ou reprovação | A recuperação encontra informações suficientes para o LLM responder corretamente. | Nenhuma | Aprovação |
>50% | Reprovado | Reprovado | Aprovação ou reprovação | alucinações. | Improve Generation |
Reprovado |
>50% | Reprovado | Aprovação | Aprovação ou reprovação | Alucinação, correta, mas gera detalhes não contextualizados. | Improve Generation |
Reprovado |
>50% | Aprovação | Reprovado | Reprovado | Boa recuperação, mas o LLM não fornece uma resposta relevante. | Improve Generation |
Reprovado |
>50% | Aprovação | Reprovado | Aprovação | Boa recuperação e resposta relevante, mas não correta. | Improve Generation |
Reprovado |
>50% | Aprovação | Aprovação | Aprovação | Sem problemas. | Nenhuma | Aprovação |
Análise de causa raiz se a verdade do terreno não estiver disponível
Precisão de relevância do bloco | Fundamentação | Relevância para a consulta | Resumo da edição | Causa raiz | Classificação geral |
---|---|---|---|---|---|
<50% | Reprovado | Reprovado | A qualidade da recuperação é fraca. | Improve Retrieval |
Reprovado |
<50% | Reprovado | Aprovação | A qualidade da recuperação é fraca. | Improve Retrieval |
Reprovado |
<50% | Aprovação | Reprovado | A resposta baseia-se na recuperação, mas a recuperação é fraca. | Improve Retrieval |
Reprovado |
<50% | Aprovação | Aprovação | Resposta relevante fundamentada no contexto recuperado e relevante, mas a recuperação é pobre. | Improve Retrieval |
Aprovação |
>50% | Reprovado | Reprovado | alucinações. | Improve Generation |
Reprovado |
>50% | Reprovado | Aprovação | alucinações. | Improve Generation |
Reprovado |
>50% | Aprovação | Reprovado | Boa recuperação e fundamentada, mas LLM não fornece uma resposta relevante. | Improve Generation |
Reprovado |
>50% | Aprovação | Aprovação | Boa recuperação e resposta relevante. Colete a verdade-base para saber se a resposta está correta. | Nenhuma | Aprovação |
Próximo passo
Consulte as seguintes páginas para depurar os problemas identificados: