Passaggio 5. Identificare la causa radice dei problemi di qualità
Per il codice di esempio in questa sezione, vedere il repository GitHub.
Tempo previsto: 60 minuti.
Requisiti
- I risultati della valutazione del POC sono disponibili in MLflow. Se è stato seguito il passaggio 4. Valutare la qualità di POC, i risultati sono disponibili in MLflow.
- Tutti i requisiti dei passaggi precedenti.
Panoramica
Le cause più probabili dei problemi di qualità sono i passaggi di recupero e generazione. Per stabilire dove concentrarsi inizialmente, usa l'output della Valutazione dell'Agente AI Mosaic LLM eseguita nel passaggio precedente per identificare la causa principale più frequente che influisce sulla qualità dell'app.
Ogni riga del set di valutazione viene contrassegnata come segue:
- Valutazione complessiva: riuscito o errore.
-
Causa radice:
Improve Retrieval
oImprove Generation
. - Razionale della causa radice: breve descrizione del motivo per cui è stata selezionata la causa radice.
Istruzioni
L'approccio dipende dal fatto se il set di valutazione contiene le risposte corrette alle vostre domande. Queste risposte vengono archiviate in expected_response
. Se expected_response
è disponibile, usare la tabella Analisi delle cause radice se è disponibile. In caso contrario, usare la tabella analisi delle cause principali se la verità fondamentale non è disponibile.
- Aprire il notebook B_quality_iteration/01_root_cause_quality_issues.
- Eseguire le celle rilevanti per il caso d'uso, ad esempio se si ha o non si dispone di expected_response
- Esaminare le tabelle di output per determinare la causa radice più frequente nell'applicazione
- Per ogni causa radice, seguire questa procedura per eseguire il debug e identificare le possibili correzioni:
Analisi della causa radice se la verità è disponibile
Nota
Se l'utente ha etichettato la verità di base per cui recuperare il documento per ogni domanda, è facoltativamente possibile sostituire retrieval/llm_judged/chunk_relevance/precision/average
con il punteggio per retrieval/ground_truth/document_recall/average
.
Precisione di pertinenza blocchi | Allineamento | Correttezza | Rilevanza per la query | Riepilogo dei problemi | Causa principale | Valutazione complessiva |
---|---|---|---|---|---|---|
<50% | Errore | Errore | Errore | Il recupero è scarso. | Improve Retrieval |
Errore |
<50% | Errore | Errore | Riuscito | LLM genera una risposta pertinente, ma il recupero non è corretto. Ad esempio, LLM ignora il recupero e usa le proprie conoscenze di training per rispondere. | Improve Retrieval |
Errore |
<50% | Errore | Riuscito | Riuscito o errore | La qualità del recupero è scarsa, ma LLM ottiene comunque la risposta corretta. | Improve Retrieval |
Errore |
<50% | Riuscito | Errore | Errore | La risposta è in fase di recupero, ma il recupero è scarso. | Improve Retrieval |
Errore |
<50% | Riuscito | Errore | Riuscito | Risposta pertinente in base al contesto recuperato, ma il recupero potrebbe non essere correlato alla risposta prevista. | Improve Retrieval |
Errore |
<50% | Riuscito | Riuscito | Riuscito o errore | Il recupero trova informazioni sufficienti per l'LLM per rispondere correttamente. | None | Riuscito |
>50% | Errore | Errore | Riuscito o errore | Allucinazione. | Improve Generation |
Errore |
>50% | Errore | Riuscito | Riuscito o errore | Allucinazione, corretta ma genera dettagli non nel contesto. | Improve Generation |
Errore |
>50% | Riuscito | Errore | Errore | Buon recupero, ma LLM non fornisce una risposta pertinente. | Improve Generation |
Errore |
>50% | Riuscito | Errore | Riuscito | Buon recupero e risposta pertinente, ma non corretta. | Improve Generation |
Errore |
>50% | Riuscito | Riuscito | Riuscito | Non sono presenti problemi. | None | Riuscito |
Analisi della causa radice se la verità di base non è disponibile
Precisione di pertinenza blocchi | Allineamento | Rilevanza per la query | Riepilogo dei problemi | Causa principale | Valutazione complessiva |
---|---|---|---|---|---|
<50% | Errore | Errore | La qualità del recupero è scarsa. | Improve Retrieval |
Errore |
<50% | Errore | Riuscito | La qualità del recupero è scarsa. | Improve Retrieval |
Errore |
<50% | Riuscito | Errore | La risposta è in fase di recupero, ma il recupero è scarso. | Improve Retrieval |
Errore |
<50% | Riuscito | Riuscito | Risposta rilevante in base al contesto recuperato e pertinente, ma il recupero è scarso. | Improve Retrieval |
Riuscito |
>50% | Errore | Errore | Allucinazione. | Improve Generation |
Errore |
>50% | Errore | Riuscito | Allucinazione. | Improve Generation |
Errore |
>50% | Riuscito | Errore | Buon recupero e allineato, ma LLM non fornisce una risposta pertinente. | Improve Generation |
Errore |
>50% | Riuscito | Riuscito | Buon recupero e risposta pertinente. Raccogliere la verità di base per sapere se la risposta è corretta. | None | Riuscito |
Passaggio successivo
Per eseguire il debug dei problemi identificati, vedere le pagine seguenti:
- Passaggio 5 (recupero). Come eseguire il debug della qualità del recupero
- Passaggio 5 (generazione). Come eseguire il debug della qualità della generazione
< precedente: Passaggio 4. Valutare la qualità del modello di verifica