Aktivera mätning: Stödinfrastruktur
Den här artikeln beskriver den infrastruktur som behövs för att mäta kvalitet och hur Databricks tillhandahåller den. Att mäta kvalitet är inte lätt och kräver en betydande infrastrukturinvestering.
Detaljerad spårningsloggning
Kärnan i RAG-programmets logik är en serie steg i kedjan. För att utvärdera och felsöka kvalitet måste du implementera instrumentation som spårar kedjans indata och utdata, tillsammans med varje steg i kedjan och dess associerade indata och utdata. Den instrumentation som du har infört bör fungera på samma sätt i utveckling och produktion.
I Databricks tillhandahåller MLflow Tracing den här funktionen. Med MLflow Trace Logging kan du instrumentera koden i produktion och få samma spårningar under utveckling och i produktion. Produktionsspårningar loggas som en del av inferenstabellen.
Användargränssnitt för intressentgranskning
Oftast är du som utvecklare inte domänexpert i innehållet i programmet som du utvecklar. För att samla in feedback från mänskliga experter som kan utvärdera programmets utdatakvalitet behöver du ett gränssnitt som gör att de kan interagera med tidiga versioner av programmet och ge detaljerad feedback. Dessutom behöver du ett sätt att läsa in specifika programutdata för intressenterna för att bedöma deras kvalitet.
Det här gränssnittet måste spåra programmets utdata och tillhörande feedback på ett strukturerat sätt, lagra den fullständiga programspårningen och detaljerad feedback i en datatabell.
I Databricks tillhandahåller granskningsappen för agentutvärdering den här funktionen.
Ramverk för mått för kvalitet, kostnad och svarstid
Du behöver ett sätt att definiera de mått som mäter kvaliteten på varje komponent i din kedja och programmet från slutpunkt till slutpunkt. Helst skulle ramverket tillhandahålla en uppsättning standardmått, förutom att stödja anpassning, så att du kan lägga till mått som testar specifika kvalitetsaspekter som är unika för din verksamhet.
I Databricks tillhandahåller agentutvärdering en out-of-the-box-implementering, med hjälp av värdbaserade LLM-domarmodeller, för nödvändiga mått för kvalitet, kostnad och svarstid.
Utvärderingssele
Du behöver ett sätt att snabbt och effektivt få utdata från din kedja för varje fråga i utvärderingsuppsättningen och sedan utvärdera varje utdata på relevanta mått. Den här selen måste vara så effektiv som möjligt, eftersom du kommer att köra utvärdering efter varje experiment som du försöker förbättra kvaliteten på.
I Databricks tillhandahåller Agentutvärdering en utvärderingssele som är integrerad med MLflow.
Hantering av utvärderingsuppsättningar
Din utvärderingsuppsättning är en levande, andande uppsättning frågor som du kommer att uppdatera iterativt under programmets utvecklings- och produktionslivscykel.
I Databricks kan du hantera din utvärderingsuppsättning som en Delta-tabell. Vid utvärdering med MLflow loggar MLflow automatiskt en ögonblicksbild av den version av utvärderingsuppsättningen som används.
Ramverk för experimentspårning
Under programutvecklingen kommer du att prova många olika experiment. Med ett ramverk för experimentspårning kan du logga varje experiment och spåra dess mått jämfört med andra experiment.
I Databricks tillhandahåller MLflow funktioner för experimentspårning.
Ramverk för kedjeparameterisering
Många experiment som du försöker kräver att du håller kedjans kodkonstant samtidigt som du itererar på olika parametrar som används av koden. Du behöver ett ramverk som gör att du kan göra detta.
I Databricks tillhandahåller MLflow-modellkonfiguration dessa funktioner.
Onlineövervakning
När du har distribuerats behöver du ett sätt att övervaka programmets hälsa och pågående kvalitet, kostnad och svarstid.
I Databricks tillhandahåller Model Serving övervakning av programhälsa och Lakehouse Monitoring ger löpande utdata till en instrumentpanel och övervakar kvalitet, kostnad och svarstid.