Werkstroom voor evaluatiegestuurde ontwikkeling
In deze sectie wordt u begeleid bij de door Databricks aanbevolen ontwikkelwerkstroom voor het bouwen, testen en implementeren van een RAG-toepassing van hoge kwaliteit: evaluatiegestuurde ontwikkeling. Deze werkstroom is gebaseerd op de aanbevolen best practices van het mozaïekonderzoeksteam voor het bouwen en evalueren van rag-toepassingen van hoge kwaliteit. Databricks raadt de volgende evaluatiegestuurde werkstroom aan:
- Definieer de vereisten.
- Verzamel feedback van belanghebbenden over een snel bewijs van concept (POC).
- Evalueer de kwaliteit van de POC.
- Iteratief problemen vaststellen en oplossen.
- Implementeren in productie.
- Bewaken in productie.
Er zijn twee kernconcepten in evaluatiegestuurde ontwikkeling:
Metrische gegevens: definiëren wat van hoge kwaliteit betekent.
Net als bij de manier waarop u elk jaar zakelijke doelstellingen set, moet u definiëren wat hoogwaardige middelen zijn voor uw use-case. Mozaïek AI Agent-evaluatie biedt een voorgestelde set van statistieken die moeten worden gebruikt, waarvan de belangrijkste de juistheid of nauwkeurigheid van antwoorden is. Geeft de RAG-toepassing het juiste antwoord?
Evaluatie set: Objectief meten van de metrische gegevens.
Als u de kwaliteit objectief wilt meten, hebt u een evaluatie-setnodig, die vragen bevat met bekende goede antwoorden die door mensen zijn gevalideerd. In deze handleiding wordt u begeleid bij het ontwikkelen en iteratief verfijnen van deze evaluatie set.
Ankering op basis van metrische gegevens en een evaluatie-set biedt de volgende voordelen:
- U kunt de kwaliteit van uw toepassing iteratief en gerust verfijnen tijdens de ontwikkeling. U hoeft niet meer te raden of een wijziging heeft geleid tot een verbetering.
- Afstemming met zakelijke belanghebbenden op de gereedheid van de toepassing voor productie wordt eenvoudiger wanneer u er zeker van kunt zijn: "We weten dat onze toepassing de meest kritieke vragen voor ons bedrijf beantwoordt en niet halluineren."
Voor een stapsgewijze procedure waarin de evaluatiegestuurde werkstroom wordt geïllustreerd, begint u met Vereisten: Vereisten verzamelen.
< Vorige: Evaluatie- inschakelen