Schritt 5. Identifizieren der Grundursache von Qualitätsproblemen
Den Beispielcode aus diesem Abschnitt finden Sie in diesem GitHub-Repository.
Erwartete Zeit: 60 Minuten
Anforderungen
- Auswertungsergebnisse für den POC sind in MLflow verfügbar. Wenn Sie Schritt 4: Bewerten der Proof-of-Concept-Qualität befolgt haben, sind die Ergebnisse in MLflow verfügbar.
- Alle Anforderungen der vorherigen Schritte
Übersicht
Die wahrscheinlichsten Grundursachen von Qualitätsproblemen sind der Abruf- und der Generierungsschritt. Um zu bestimmen, auf welchen Schritt Sie sich zuerst konzentrieren sollten, verwenden Sie die Ausgabe des LLM-Richters von Mosaik AI Agent Evaluation, den Sie im vorherigen Schritt ausgeführt haben, um die häufigste Grundursache zu ermitteln, die die Qualität Ihrer App beeinträchtigt.
Jede Zeile in Ihrem Auswertungssatz wird wie folgt markiert:
- Gesamtbewertung: Bestehen oder Fehlschlagen.
- Grundursache:
Improve Retrieval
oderImprove Generation
- Begründung der Grundursache: Eine kurze Beschreibung, warum die Ursache ausgewählt wurde
Anweisungen
Der Ansatz hängt davon ab, ob Ihr Auswertungssatz die Grundwahrheitsantworten auf Ihre Fragen enthält. Diese Antworten werden in expected_response
gespeichert. Wenn expected_response
verfügbar ist, verwenden Sie die Tabelle Grundursachenanalyse bei verfügbarer Grundwahrheit. Verwenden Sie andernfalls die Tabelle Grundursachenanalyse bei nicht verfügbarer Grundwahrheit.
- Öffnen Sie das Notebook B_quality_iteration/01_root_cause_quality_issues.
- Führen Sie die für Ihren Anwendungsfall relevanten Zellen aus, z. B. wenn „expected_response“ verfügbar ist oder nicht.
- Prüfen Sie die Ausgabetabellen, um die häufigste Grundursache in Ihrer Anwendung zu ermitteln.
- Führen Sie für jede Grundursache die folgenden Schritte aus, um das Debugging fortzusetzen und potenzielle Fixes zu identifizieren:
Grundursachenanalyse bei verfügbarer Grundwahrheit
Hinweis
Wenn Ihre Grundwahrheit dafür, welches Dokument für die einzelnen Fragen abgerufen werden soll, von Menschen beschriftet wurde, können Sie retrieval/llm_judged/chunk_relevance/precision/average
optional durch den Score für retrieval/ground_truth/document_recall/average
ersetzen.
Präzision der Blockrelevanz | Quellenübereinstimmung | Richtigkeit | Relevanz für Abfrage | Problemzusammenfassung | Grundursache | Gesamtbewertung |
---|---|---|---|---|---|---|
< 50 % | Fehler | Fehler | Fehler | Abrufqualität ist schlecht | Improve Retrieval |
Fehler |
< 50 % | Fehler | Fehler | Pass | Das LLM generiert relevante Antworten, aber die Abrufqualität ist schlecht. Beispielsweise ignoriert das LLM den Abruf und verwendet sein Trainingswissen zur Beantwortung. | Improve Retrieval |
Fehler |
< 50 % | Fehler | Pass | Bestehen oder Fehlschlagen | Die Abrufqualität ist schlecht, aber das LLM ruft unabhängig davon die richtige Antwort ab. | Improve Retrieval |
Fehler |
< 50 % | Erfolgreich | Fehlgeschlagen | Fehler | Die Antwort wird beim Abruf geerdet, aber die Abrufqualität ist schlecht. | Improve Retrieval |
Fehler |
< 50 % | Erfolgreich | Fehlgeschlagen | Pass | Relevante Antwort, die im abgerufenen Kontext gegroundet wurde, aber der Abruf hängt möglicherweise nicht mit der erwarteten Antwort zusammen | Improve Retrieval |
Fehler |
< 50 % | Pass | Pass | Bestehen oder Fehlschlagen | Der Abruf findet genügend Informationen, sodass das LLM die richtige Antwort geben kann. | Keine | Pass |
> 50 % | Fehler | Fehler | Bestehen oder Fehlschlagen | Halluzination | Improve Generation |
Fehler |
> 50 % | Fehler | Pass | Bestehen oder Fehlschlagen | Halluzination, richtig, generiert jedoch nicht im Kontext verankerte Details | Improve Generation |
Fehler |
> 50 % | Erfolgreich | Fehlgeschlagen | Fehler | Gute Abrufqualität, aber das LLM stellt keine relevante Antwort bereit | Improve Generation |
Fehler |
> 50 % | Erfolgreich | Fehlgeschlagen | Pass | Gute Abrufqualität und relevante Antwort, aber nicht korrekt | Improve Generation |
Fehler |
> 50 % | Pass | Pass | Pass | Keine Probleme | Keine | Pass |
Grundursachenanalyse bei nicht verfügbarer Grundwahrheit
Präzision der Blockrelevanz | Quellenübereinstimmung | Relevanz für Abfrage | Problemzusammenfassung | Grundursache | Gesamtbewertung |
---|---|---|---|---|---|
< 50 % | Fehler | Fehler | Abrufqualität ist schlecht. | Improve Retrieval |
Fehler |
< 50 % | Fehler | Pass | Abrufqualität ist schlecht. | Improve Retrieval |
Fehler |
< 50 % | Erfolgreich | Fehlgeschlagen | Die Antwort wird beim Abruf geerdet, aber die Abrufqualität ist schlecht. | Improve Retrieval |
Fehler |
< 50 % | Pass | Pass | Relevante, im abgerufenen Kontext gegroundete Antwort, aber die Abrufqualität ist schlecht | Improve Retrieval |
Pass |
> 50 % | Fehler | Fehler | Halluzination | Improve Generation |
Fehler |
> 50 % | Fehler | Pass | Halluzination | Improve Generation |
Fehler |
> 50 % | Erfolgreich | Fehlgeschlagen | Gute Abrufqualität und gegroundet, aber das LLM stellt keine relevante Antwort bereit | Improve Generation |
Fehler |
> 50 % | Pass | Pass | Gute Abrufqualität und relevante Antwort Erfassen Sie die Grundwahrheit, um zu erfahren, ob die Antwort richtig ist. | Keine | Pass |
Nächster Schritt
Auf den folgenden Seiten erfahren Sie, wie Sie die von Ihnen identifizierten Probleme debuggen: