Freigeben über


Schritt 5. Identifizieren der Grundursache von Qualitätsproblemen

Workflow mit hervorgehobenem Iterationsschritt

Den Beispielcode aus diesem Abschnitt finden Sie in diesem GitHub-Repository.

Erwartete Zeit: 60 Minuten

Anforderungen

Übersicht

Die wahrscheinlichsten Grundursachen von Qualitätsproblemen sind der Abruf- und der Generierungsschritt. Um zu bestimmen, auf welchen Schritt Sie sich zuerst konzentrieren sollten, verwenden Sie die Ausgabe des LLM-Richters von Mosaik AI Agent Evaluation, den Sie im vorherigen Schritt ausgeführt haben, um die häufigste Grundursache zu ermitteln, die die Qualität Ihrer App beeinträchtigt.

Jede Zeile in Ihrem Auswertungssatz wird wie folgt markiert:

  • Gesamtbewertung: Bestehen oder Fehlschlagen.
  • Grundursache: Improve Retrieval oder Improve Generation
  • Begründung der Grundursache: Eine kurze Beschreibung, warum die Ursache ausgewählt wurde

Anweisungen

Der Ansatz hängt davon ab, ob Ihr Auswertungssatz die Grundwahrheitsantworten auf Ihre Fragen enthält. Diese Antworten werden in expected_responsegespeichert. Wenn expected_response verfügbar ist, verwenden Sie die Tabelle Grundursachenanalyse bei verfügbarer Grundwahrheit. Verwenden Sie andernfalls die Tabelle Grundursachenanalyse bei nicht verfügbarer Grundwahrheit.

  1. Öffnen Sie das Notebook B_quality_iteration/01_root_cause_quality_issues.
  2. Führen Sie die für Ihren Anwendungsfall relevanten Zellen aus, z. B. wenn „expected_response“ verfügbar ist oder nicht.
  3. Prüfen Sie die Ausgabetabellen, um die häufigste Grundursache in Ihrer Anwendung zu ermitteln.
  4. Führen Sie für jede Grundursache die folgenden Schritte aus, um das Debugging fortzusetzen und potenzielle Fixes zu identifizieren:

Grundursachenanalyse bei verfügbarer Grundwahrheit

Hinweis

Wenn Ihre Grundwahrheit dafür, welches Dokument für die einzelnen Fragen abgerufen werden soll, von Menschen beschriftet wurde, können Sie retrieval/llm_judged/chunk_relevance/precision/average optional durch den Score für retrieval/ground_truth/document_recall/average ersetzen.

Präzision der Blockrelevanz Quellenübereinstimmung Richtigkeit Relevanz für Abfrage Problemzusammenfassung Grundursache Gesamtbewertung
< 50 % Fehler Fehler Fehler Abrufqualität ist schlecht Improve Retrieval Fehler
< 50 % Fehler Fehler Pass Das LLM generiert relevante Antworten, aber die Abrufqualität ist schlecht. Beispielsweise ignoriert das LLM den Abruf und verwendet sein Trainingswissen zur Beantwortung. Improve Retrieval Fehler
< 50 % Fehler Pass Bestehen oder Fehlschlagen Die Abrufqualität ist schlecht, aber das LLM ruft unabhängig davon die richtige Antwort ab. Improve Retrieval Fehler
< 50 % Erfolgreich Fehlgeschlagen Fehler Die Antwort wird beim Abruf geerdet, aber die Abrufqualität ist schlecht. Improve Retrieval Fehler
< 50 % Erfolgreich Fehlgeschlagen Pass Relevante Antwort, die im abgerufenen Kontext gegroundet wurde, aber der Abruf hängt möglicherweise nicht mit der erwarteten Antwort zusammen Improve Retrieval Fehler
< 50 % Pass Pass Bestehen oder Fehlschlagen Der Abruf findet genügend Informationen, sodass das LLM die richtige Antwort geben kann. Keine Pass
> 50 % Fehler Fehler Bestehen oder Fehlschlagen Halluzination Improve Generation Fehler
> 50 % Fehler Pass Bestehen oder Fehlschlagen Halluzination, richtig, generiert jedoch nicht im Kontext verankerte Details Improve Generation Fehler
> 50 % Erfolgreich Fehlgeschlagen Fehler Gute Abrufqualität, aber das LLM stellt keine relevante Antwort bereit Improve Generation Fehler
> 50 % Erfolgreich Fehlgeschlagen Pass Gute Abrufqualität und relevante Antwort, aber nicht korrekt Improve Generation Fehler
> 50 % Pass Pass Pass Keine Probleme Keine Pass

Grundursachenanalyse bei nicht verfügbarer Grundwahrheit

Präzision der Blockrelevanz Quellenübereinstimmung Relevanz für Abfrage Problemzusammenfassung Grundursache Gesamtbewertung
< 50 % Fehler Fehler Abrufqualität ist schlecht. Improve Retrieval Fehler
< 50 % Fehler Pass Abrufqualität ist schlecht. Improve Retrieval Fehler
< 50 % Erfolgreich Fehlgeschlagen Die Antwort wird beim Abruf geerdet, aber die Abrufqualität ist schlecht. Improve Retrieval Fehler
< 50 % Pass Pass Relevante, im abgerufenen Kontext gegroundete Antwort, aber die Abrufqualität ist schlecht Improve Retrieval Pass
> 50 % Fehler Fehler Halluzination Improve Generation Fehler
> 50 % Fehler Pass Halluzination Improve Generation Fehler
> 50 % Erfolgreich Fehlgeschlagen Gute Abrufqualität und gegroundet, aber das LLM stellt keine relevante Antwort bereit Improve Generation Fehler
> 50 % Pass Pass Gute Abrufqualität und relevante Antwort Erfassen Sie die Grundwahrheit, um zu erfahren, ob die Antwort richtig ist. Keine Pass

Nächster Schritt

Auf den folgenden Seiten erfahren Sie, wie Sie die von Ihnen identifizierten Probleme debuggen: