Delen via


Werkstroom voor evaluatiegestuurde ontwikkeling

In deze sectie wordt u begeleid bij de door Databricks aanbevolen ontwikkelwerkstroom voor het bouwen, testen en implementeren van een RAG-toepassing van hoge kwaliteit: evaluatiegestuurde ontwikkeling. Deze werkstroom is gebaseerd op de aanbevolen best practices van het mozaïekonderzoeksteam voor het bouwen en evalueren van rag-toepassingen van hoge kwaliteit. Databricks raadt de volgende evaluatiegestuurde werkstroom aan:

  1. Definieer de vereisten.
  2. Verzamel feedback van belanghebbenden over een snel bewijs van concept (POC).
  3. Evalueer de kwaliteit van de POC.
  4. Iteratief problemen vaststellen en oplossen.
  5. Implementeren in productie.
  6. Bewaken in productie.

Werkstroom voor evaluatiegestuurde ontwikkeling

Er zijn twee kernconcepten in evaluatiegestuurde ontwikkeling:

  • Metrische gegevens: definiëren wat van hoge kwaliteit betekent.

    Net als bij de manier waarop u elk jaar zakelijke doelstellingen set, moet u definiëren wat hoogwaardige middelen zijn voor uw use-case. Mozaïek AI Agent-evaluatie biedt een voorgestelde set van statistieken die moeten worden gebruikt, waarvan de belangrijkste de juistheid of nauwkeurigheid van antwoorden is. Geeft de RAG-toepassing het juiste antwoord?

  • Evaluatie set: Objectief meten van de metrische gegevens.

    Als u de kwaliteit objectief wilt meten, hebt u een evaluatie-setnodig, die vragen bevat met bekende goede antwoorden die door mensen zijn gevalideerd. In deze handleiding wordt u begeleid bij het ontwikkelen en iteratief verfijnen van deze evaluatie set.

Ankering op basis van metrische gegevens en een evaluatie-set biedt de volgende voordelen:

  • U kunt de kwaliteit van uw toepassing iteratief en gerust verfijnen tijdens de ontwikkeling. U hoeft niet meer te raden of een wijziging heeft geleid tot een verbetering.
  • Afstemming met zakelijke belanghebbenden op de gereedheid van de toepassing voor productie wordt eenvoudiger wanneer u er zeker van kunt zijn: "We weten dat onze toepassing de meest kritieke vragen voor ons bedrijf beantwoordt en niet halluineren."

Voor een stapsgewijze procedure waarin de evaluatiegestuurde werkstroom wordt geïllustreerd, begint u met Vereisten: Vereisten verzamelen.

< Vorige: Evaluatie- inschakelen

Volgende: Vereisten >