Delen via


Prestaties evalueren: metrische gegevens die belangrijk zijn

Dit artikel bevat informatie over het meten van de prestaties van een RAG-toepassing voor de kwaliteit van het ophalen, reageren en systeemprestaties.

Ophalen, reageren en prestaties

Met een evaluatie-setkunt u de prestaties van uw RAG-toepassing meten op een aantal verschillende dimensies, waaronder:

  • Kwaliteit ophalen: Metrische gegevens ophalen beoordelen hoe succesvol uw RAG-toepassing relevante ondersteunende gegevens ophaalt. Precisie en relevante overeenkomsten zijn twee belangrijke metrische gegevens voor het ophalen.
  • Antwoordkwaliteit: metrische gegevens over responskwaliteit beoordelen hoe goed de RAG-toepassing reageert op de aanvraag van een gebruiker. Metrische antwoordgegevens kunnen bijvoorbeeld meten of het resulterende antwoord nauwkeurig is volgens de grondwaar, hoe goed geaard het antwoord de opgehaalde context heeft gekregen (bijvoorbeeld de LLM hallu computete?) of hoe veilig het antwoord was (met andere woorden, geen toxiciteit).
  • Systeemprestaties (kosten en latentie): metrische gegevens leggen de totale kosten en prestaties van RAG-toepassingen vast. Algemene latentie en tokenverbruik zijn voorbeelden van metrische gegevens over ketenprestaties.

Het is erg belangrijk om metrische gegevens voor zowel reacties als ophalen te verzamelen. Een RAG-toepassing kan slecht reageren ondanks het ophalen van de juiste context; het kan ook goede antwoorden bieden op basis van defecte ophaalfouten. Alleen door beide onderdelen te meten, kunnen we problemen in de toepassing nauwkeurig diagnosticeren en oplossen.

Methoden voor het meten van prestaties

Er zijn twee belangrijke benaderingen voor het meten van prestaties in deze metrische gegevens:

  • Deterministische meting: metrische kosten- en latentiegegevens kunnen deterministisch worden berekend op basis van de uitvoer van de toepassing. Als uw evaluatie set een list van documenten bevat die het antwoord op een vraag bevatten, kan een subset van de ophaalmetrics ook deterministisch worden berekend.
  • LLM-meting op basis van rechters: In deze benadering fungeert een afzonderlijke LLM als rechter om de kwaliteit van het ophalen en antwoorden van de RAG-toepassing te evalueren. Sommige LLM-rechters, zoals antwoord correctheid, vergelijken de door mensen gelabelde grondwaar versus de uitvoer van de app. Andere LLM-rechters, zoals geaardheid, vereisen geen door mensen gelabelde grondwaar om hun app-uitvoer te beoordelen.

Belangrijk

Om een LLM-rechter effectief te laten zijn, moet deze worden afgestemd om inzicht te krijgen in de use-case. Hiervoor is zorgvuldige aandacht vereist om inzicht te hebben in where het systeem (algoritme) dat wel en niet goed werkt, en vervolgens het systeem (algoritme) af te stemmen om de prestaties bij de foutgevallen te verbeteren.

Mozaïek AI Agent Evaluation biedt een kant-en-klare implementatie, met behulp van gehoste LLM-rechtermodellen, voor elke metriek die op deze pagina wordt besproken. De documentatie van de agentevaluatie beschrijft de details van hoe deze metrische gegevens en rechters worden geïmplementeerd en biedt mogelijkheden om de rechters af te stemmen met uw gegevens om de nauwkeurigheid ervan te vergroten

Overzicht van metrische gegevens

Hieronder ziet u een samenvatting van de metrische gegevens die Door Databricks worden aanbevolen voor het meten van de kwaliteit, kosten en latentie van uw RAG-toepassing. Deze metrische gegevens worden geïmplementeerd in de evaluatie van de Mozaïek AI-agent.

Dimensie Naam van meetwaarde Vraag Gemeten door Heeft de grond waarheid nodig?
Ophalen chunk_relevance/precisie Welk percentage van de opgehaalde segmenten is relevant voor de aanvraag? LLM-rechter Nee
Ophalen document_recall Welk percentage van de grondwaardocumenten worden weergegeven in de opgehaalde segmenten? Deterministische Ja
Ophalen context_toereikendheid Zijn de opgehaalde segmenten toereikend om het verwachte antwoord te produceren? LLM Rechter Ja
Respons correctheid Over het algemeen heeft de agent generate een juiste reactie gegeven? LLM-rechter Ja
Respons relevance_to_query Is het antwoord relevant voor de aanvraag? LLM-rechter Nee
Respons geaardheid Is het antwoord een hallucinatie of geaard in context? LLM-rechter Nee
Respons veiligheid Is er schadelijke inhoud in het antwoord? LLM-rechter Nee
Kosten total_token_count, total_input_token_count, total_output_token_count Wat is het totale aantal tokens voor LLM-generaties? Deterministische Nee
Latentie latency_seconds Wat is de latentie van het uitvoeren van de app? Deterministische Nee

Hoe metrische gegevens ophalen werken

Metrische gegevens ophalen helpen u te begrijpen of uw retriever relevante resultaten levert. Metrische gegevens voor het ophalen zijn gebaseerd op precisie en relevante overeenkomsten.

Naam meetwaarde Antwoord op vraag DETAILS
Precisie Welk percentage van de opgehaalde segmenten is relevant voor de aanvraag? Precisie is het aandeel opgehaalde documenten dat daadwerkelijk relevant is voor de aanvraag van de gebruiker. Een LLM-rechter kan worden gebruikt om de relevantie van elk opgehaald segment te beoordelen op de aanvraag van de gebruiker.
Intrekken Welk percentage van de grondwaardocumenten worden weergegeven in de opgehaalde segmenten? Relevante overeenkomsten zijn het aandeel van de gemalen waarheidsdocumenten die worden weergegeven in de opgehaalde segmenten. Dit is een meting van de volledigheid van de resultaten.

Precisie en relevante overeenkomsten

Hieronder vindt u een korte inleiding op Precision en relevante overeenkomsten die zijn aangepast uit het uitstekende Wikipedia-artikel.

Precisieformule

Precisiemetingen "Van de segmenten die ik heb opgehaald, welk percentage van deze items is eigenlijk relevant voor de query van mijn gebruiker?" Rekenprecisie vereist niet alle relevante items kennen.

Formule voor het berekenen van precisie.

Formule intrekken

Relevante metingen 'Van ALLE documenten waarvan ik weet dat deze relevant zijn voor de query van mijn gebruiker, van welk percentage heb ik een segment opgehaald?' Voor het terughalen van computing moet uw grond-waarheid alle relevante items bevatten. Items kunnen een document of een segment van een document zijn.

Formule voor het berekenen van relevante overeenkomsten.

In het onderstaande voorbeeld waren twee van de drie opgehaalde resultaten relevant voor de query van de gebruiker, dus de precisie was 0,66 (2/3). De opgehaalde documenten bevatten in totaal twee van de vier relevante documenten, dus de relevante overeenkomsten waren 0,5 (2/4).

Diagram met precisie en relevante meting.

< Vorige: Kwaliteit definiëren

Volgende: Evaluatie inschakelen >