Delen via


Stap 5 (ophalen). Foutopsporingskwaliteit voor ophalen

Op deze pagina wordt beschreven hoe u de hoofdoorzaak van het ophalen van problemen identificeert. Gebruik deze pagina wanneer de hoofdoorzaakanalyse een hoofdoorzaak Improve Retrievalaangeeft.

De kwaliteit van het ophalen is waarschijnlijk het belangrijkste onderdeel van een RAG-toepassing. Als de meest relevante segmenten niet worden geretourneerd voor een bepaalde query, heeft de LLM geen toegang tot de benodigde informatie om een antwoord van hoge kwaliteit te genereren. Slecht ophalen kan leiden tot irrelevante, onvolledige of hallucineerde uitvoer. Voor deze stap is handmatige inspanning vereist om de onderliggende gegevens te analyseren. Mozaïek AI Agent Framework, met de nauwe integratie tussen het gegevensplatform (inclusief Unity Catalog en Vector Search) en experimenttracking met MLflow (inclusief LLM-evaluatie en MLflow Tracing) maakt het oplossen van problemen veel eenvoudiger.

Instructies

Volg deze stappen om problemen met de kwaliteit van het ophalen op te lossen:

  1. Open het notitieblok B_quality_iteration/01_root_cause_quality_issues.
  2. Gebruik de query's om MLflow-traceringen te laden van de records met problemen met de kwaliteit van het ophalen.
  3. Bekijk voor elke record handmatig de opgehaalde segmenten. Indien beschikbaar, vergelijkt u deze met de documenten voor het ophalen van de grondwaar.
  4. Zoek naar patronen of veelvoorkomende problemen tussen de query's met een lage ophaalkwaliteit. Bijvoorbeeld:
    • Relevante informatie ontbreekt volledig in de vectordatabase.
    • Er is onvoldoende aantal segmenten of documenten geretourneerd voor een ophaalquery.
    • Segmenten zijn te klein en hebben onvoldoende context.
    • Segmenten zijn te groot en bevatten meerdere, niet-gerelateerde onderwerpen.
    • Het insluitmodel kan geen semantische gelijkenis vastleggen voor domeinspecifieke termen.
  5. Op basis van het geïdentificeerde probleem hypotheseert u mogelijke hoofdoorzaken en bijbehorende oplossingen. Zie Veelvoorkomende redenen voor slechte ophaalkwaliteit voor richtlijnen.
  6. Volg de stappen in het implementeren en evalueren van wijzigingen om een mogelijke oplossing te implementeren en te evalueren. Dit kan betrekking hebben op het wijzigen van de gegevenspijplijn (bijvoorbeeld het aanpassen van de segmentgrootte of het proberen van een ander insluitmodel) of het wijzigen van de RAG-keten (bijvoorbeeld het implementeren van hybride zoekopdrachten of het ophalen van meer segmenten).
  7. Als de kwaliteit van het ophalen nog steeds niet bevredigend is, herhaalt u stap 4 en 5 voor de volgende meest veelbelovende oplossingen totdat de gewenste prestaties zijn bereikt.
  8. Voer de hoofdoorzaakanalyse opnieuw uit om te bepalen of de algehele keten aanvullende hoofdoorzaken heeft die moeten worden aangepakt.

Veelvoorkomende redenen voor slechte ophaalkwaliteit

De volgende tabel bevat foutopsporingsstappen en mogelijke oplossingen voor veelvoorkomende problemen met het ophalen. Oplossingen worden gecategoriseerd op onderdeel:

  • Gegevenspijplijn
  • Configuratie van keten
  • Ketencode

Het onderdeel definieert welke stappen u moet volgen in de stap voor het implementeren en evalueren van wijzigingen .

Probleem bij ophalen Stappen voor foutopsporing Mogelijke oplossing
Segmenten zijn te klein - Segmenten onderzoeken op onvolledige cut-off informatie. - Gegevenspijplijn vergroot de segmentgrootte of overlap.
- Gegevenspijplijn Probeer een andere segmenteringsstrategie.
Segmenten zijn te groot - Controleer of opgehaalde segmenten meerdere, niet-gerelateerde onderwerpen bevatten. - Gegevenspijplijn Verklein de segmentgrootte.
- Strategie voor segmentering van gegevenspijplijnen verbeteren om een combinatie van niet-gerelateerde onderwerpen (bijvoorbeeld semantische segmentering) te voorkomen.
Segmenten hebben niet voldoende informatie over de tekst waaruit ze zijn genomen - Beoordelen of het gebrek aan context voor elk segment verwarring of dubbelzinnigheid veroorzaakt in de opgehaalde resultaten. - Gegevenspijplijn Probeer metagegevens en titels toe te voegen aan elk segment (bijvoorbeeld sectietitels).
- Ketenconfiguratie Meer segmenten ophalen en een LLM met een grotere contextgrootte gebruiken.
Het insluiten van een model begrijpt het domein of de sleuteltermen in gebruikersquery's niet nauwkeurig - Controleer of semantisch vergelijkbare segmenten worden opgehaald voor dezelfde query. - Gegevenspijplijn Probeer verschillende insluitingsmodellen.
- Ketenconfiguratie Hybride zoeken proberen.
- Ketencode ophalen resultaten ophalen en opnieuw rangschikken. Alleen de hoogste opnieuw gerangschikte resultaten invoeren in de LLM-context.
- Het insluitmodel voor gegevenspijplijnen verfijnen voor domeinspecifieke gegevens.
Relevante informatie ontbreekt in de vectordatabase - Controleer of er relevante documenten of secties ontbreken in de vectordatabase. - Gegevenspijplijn Voeg relevantere documenten toe aan de vectordatabase.
- Gegevenspijplijn Het parseren van documenten en het extraheren van metagegevens verbeteren.
Query's ophalen zijn slecht geformuleerd - Als gebruikersquery's rechtstreeks worden gebruikt voor semantische zoekopdrachten, analyseert u deze query's en controleert u op dubbelzinnigheid of gebrek aan specificiteit. Dit kan gemakkelijk gebeuren in conversaties met meerdere beurten, waarbij de onbewerkte gebruikersquery verwijst naar eerdere delen van het gesprek, wat het ongeschikt maakt om direct te gebruiken als een zoekopdracht.
- Controleer of querytermen overeenkomen met terminologie die wordt gebruikt in het zoeklichaam.
- Ketencode Voeg queryuitbreidings- of transformatiebenaderingen toe (bijvoorbeeld bij een gebruikersquery, transformeer de query voorafgaand aan semantische zoekopdrachten).
- Ketencode Voeg inzicht in query's toe om intenties en entiteiten te identificeren (gebruik bijvoorbeeld een LLM om eigenschappen te extraheren die moeten worden gebruikt bij het filteren van metagegevens).

Volgende stap

Als u ook problemen met generatiekwaliteit hebt geïdentificeerd, gaat u verder met stap 5 (generatie). Foutopsporingskwaliteit.

Als u denkt dat u alle geïdentificeerde problemen hebt opgelost, gaat u verder met stap 6. Kwaliteitscorrecties maken en evalueren op de AI-agent.

< Vorige: Stap 5. Hoofdoorzaken van kwaliteitsproblemen identificeren

Volgende: Stap 5.2. Kwaliteit van generatie van foutopsporing >