Meting inschakelen: Ondersteunende infrastructuur
In dit artikel wordt de infrastructuur beschreven die nodig is voor het meten van de kwaliteit en hoe Databricks dit biedt. Het meten van de kwaliteit is niet eenvoudig en vereist een aanzienlijke infrastructuurinvestering.
Gedetailleerde traceringslogboekregistratie
De kern van de logica van uw RAG-toepassing is een reeks stappen in de keten. Als u de kwaliteit van de keten wilt evalueren en fouten wilt opsporen, moet u instrumentatie implementeren waarmee de invoer en uitvoer van de keten worden bijgehouden, samen met elke stap van de keten en de bijbehorende invoer en uitvoer. De instrumentatie die u hebt ingesteld, moet op dezelfde manier in ontwikkeling en productie werken.
In Databricks biedt MLflow Tracing deze mogelijkheid. Met MLflow Trace Logging instrumenteer u uw code in productie en krijgt u dezelfde traceringen tijdens de ontwikkeling en in productie. Productietraceringen worden geregistreerd als onderdeel van de deductietabel.
Gebruikersinterface voor beoordeling van belanghebbenden
Meestal bent u als ontwikkelaar geen domeinexpert in de inhoud van de toepassing die u ontwikkelt. Als u feedback wilt verzamelen van menselijke experts die de uitvoerkwaliteit van uw toepassing kunnen beoordelen, hebt u een interface nodig waarmee ze kunnen communiceren met vroege versies van de toepassing en gedetailleerde feedback kunnen geven. Bovendien hebt u een manier nodig om specifieke toepassingsuitvoer te laden voor de belanghebbenden om hun kwaliteit te beoordelen.
Deze interface moet de uitvoer van de toepassing en de bijbehorende feedback op een gestructureerde manier volgen, waarbij de volledige toepassingstracering en gedetailleerde feedback in een gegevenstabel worden opgeslagen.
In Databricks biedt de beoordelings-app voor agentevaluatie deze mogelijkheid.
Metrische framework voor kwaliteit, kosten en latentie
U hebt een manier nodig om de metrische gegevens te definiëren die de kwaliteit van elk onderdeel van uw keten en de end-to-end-toepassing uitgebreid meten. In het ideale opzicht biedt het framework een reeks standaardgegevens, naast ondersteunende aanpassingen, zodat u metrische gegevens kunt toevoegen die specifieke aspecten van kwaliteit testen die uniek zijn voor uw bedrijf.
In Databricks biedt agentevaluatie een out-of-the-box-implementatie, met behulp van gehoste LLM-rechtermodellen, voor de benodigde metrische gegevens over kwaliteit, kosten en latentie.
Evaluatie-harnas
U hebt een manier nodig om snel en efficiënt uitvoer uit uw keten te halen voor elke vraag in uw evaluatieset en vervolgens elke uitvoer te evalueren op de relevante metrische gegevens. Dit harnas moet zo efficiënt mogelijk zijn, omdat u na elk experiment evaluatie uitvoert die u probeert de kwaliteit te verbeteren.
In Databricks biedt agentevaluatie een evaluatie-harnas dat is geïntegreerd met MLflow.
Beheer van evaluatiesets
Uw evaluatieset is een levende, ademende reeks vragen die u iteratief bijwerkt tijdens de ontwikkelings- en productielevenscyclus van uw toepassing.
In Databricks kunt u uw evaluatieset beheren als een Delta-tabel. Bij het evalueren met MLflow wordt automatisch een momentopname vastgelegd van de versie van de gebruikte evaluatieset.
Framework voor het bijhouden van experimenten
Tijdens de ontwikkeling van uw toepassing voert u veel verschillende experimenten uit. Met een framework voor het bijhouden van experimenten kunt u elk experiment vastleggen en de metrische gegevens bijhouden versus andere experimenten.
In Databricks biedt MLflow mogelijkheden voor het bijhouden van experimenten.
Framework voor ketenparameterisatie
Veel experimenten die u probeert uit te voeren, vereisen dat u de codeconstante van de keten vasthoudt tijdens het herhalen van verschillende parameters die door de code worden gebruikt. U hebt een framework nodig waarmee u dit kunt doen.
In Databricks biedt de MLflow-modelconfiguratie deze mogelijkheden.
Onlinebewaking
Zodra de toepassing is geïmplementeerd, hebt u een manier nodig om de status en de voortdurende kwaliteit, kosten en latentie van de toepassing te bewaken.
In Databricks biedt Model Serving toepassingsstatusbewaking en Lakehouse-bewaking biedt on-premises uitvoer naar een dashboard en bewaakt u kwaliteit, kosten en latentie.