Delen via


"kwaliteit" definiëren: evaluatiesets

In dit artikel worden evaluatiesets beschreven en hoe ze de kwaliteit van uw toepassing helpen garanderen.

Wat is een evaluatieset?

Om de kwaliteit te meten, raadt Databricks aan om een evaluatieset met menselijk label te maken. Een evaluatieset is een gecureerde, representatieve reeks queries, samen met waarheidsgetrouwe antwoorden en (optioneel) de juiste ondersteunende documenten die moeten worden geretrieveerd. Menselijke invoer is van cruciaal belang in dit proces, omdat deze ervoor zorgt dat de evaluatieset de verwachtingen en vereisten van de eindgebruikers nauwkeurig weergeeft.

Het cureren van menselijke labels kan een tijdrovend proces zijn. U kunt aan de slag gaan door een evaluatieset te maken die alleen vragen bevat en de antwoorden voor de grondwaarheid in de loop van de tijd toevoegt. De evaluatie van mozaïek-AI-agent kan de kwaliteit van uw keten beoordelen zonder grondwaar, hoewel, als er grondwaar beschikbaar is, aanvullende metrische gegevens worden berekend, zoals antwoord correctheid.

Elementen van een goede evaluatieset

Een goede evaluatieset heeft de volgende kenmerken:

  • Vertegenwoordiger: Geeft nauwkeurig de verscheidenheid aan aanvragen weer die de toepassing in productie tegenkomt.
  • Uitdagend: De set moet moeilijke en diverse cases bevatten om de mogelijkheden van het model effectief te testen. In het ideale voorbeeld zijn er adversarial voorbeelden, zoals vragen waarbij promptinjectie wordt geprobeerd of vragen om ongepaste antwoorden van LLM te genereren.
  • Voortdurend bijgewerkt: De set moet periodiek worden bijgewerkt om aan te geven hoe de toepassing wordt gebruikt in productie, de veranderende aard van de geïndexeerde gegevens en eventuele wijzigingen in de toepassingsvereisten.

Databricks raadt ten minste 30 vragen aan in uw evaluatieset en idealiter 100 - 200. De beste evaluatiesets groeien in de loop van de tijd met 1000 vragen.

Trainings-, test- en validatiesets

Om overfitting te voorkomen, raadt Databricks aan uw evaluatieset op te splitsen in trainings-, test- en validatiesets:

  • Trainingset: ~70% van de vragen. Wordt gebruikt voor een eerste pas om elk experiment te evalueren om de hoogste potentiële experimenten te identificeren.
  • testset: ~20% van de vragen. Wordt gebruikt voor het evalueren van de best presterende experimenten uit de trainingsset.
  • Validatieset: ~10% van de vragen. Wordt gebruikt voor een definitieve validatiecontrole voordat u een experiment in productie implementeert.

Mozaïek AI Agent Evaluation helpt u bij het maken van een evaluatieset door een webgebaseerde chatinterface te bieden voor uw belanghebbenden om feedback te geven over de uitvoer van de toepassing. De uitvoer van de keten en de feedback van belanghebbenden worden opgeslagen in Delta-tabellen, die vervolgens kunnen worden samengesteld in een evaluatieset. Zie het cureren van een evaluatieset in het gedeelte implementeren van dit kookboek voor praktische instructies met voorbeeldcode.

< Vorige: RAG-kwaliteit evalueren

Volgende: Prestaties beoordelen >