Steg 6. Gör och utvärdera kvalitetskorrigeringar för AI-agenten
Den här artikeln vägleder dig genom stegen för att iterera igenom och utvärdera kvalitetskorrigeringar i din generativa AI-agent baserat på rotorsaksanalys.
Mer information om hur du utvärderar en AI-agent finns i Vad är Mosaic AI Agent Evaluation?.
Krav
- Baserat på rotorsaksanalysen har du identifierat potentiella korrigeringar för hämtning eller generering för att implementera och utvärdera.
- Ditt POC-program (eller en annan baslinjekedja) loggas till en MLflow-körning med en utvärdering av agenten som lagras i samma körning.
Se GitHub-lagringsplatsen för exempelkoden i det här avsnittet.
Förväntat resultat i agentutvärdering
Föregående bild visar agentutvärderingsutdata i MLflow.
Så här åtgärdar, utvärderar och itererar du på AI-agenten
För alla typer använder du anteckningsboken B_quality_iteration/02_evaluate_fixes för att utvärdera den resulterande kedjan jämfört med baslinjekonfigurationen, din POC och välja en "vinnare". Den här notebook-filen hjälper dig att välja det vinnande experimentet och distribuera det till granskningsappen eller ett produktionsklart, skalbart REST-API.
- Öppna anteckningsboken B_quality_iteration/02_evaluate_fixes i Azure Databricks.
- Baserat på vilken typ av korrigering du implementerar:
- För datapipelinekorrigeringar:
- Följ steg 6 (pipelines). Implementera datapipelinekorrigeringar för att skapa den nya datapipelinen och hämta namnet på den resulterande MLflow-körningen.
- Lägg till körningsnamnet i variabeln
DATA_PIPELINE_FIXES_RUN_NAMES
.
- För kedjekonfigurationskorrigeringar:
- Följ anvisningarna i avsnittet i
Chain configuration
den 02_evaluate_fixes notebook-filen för att lägga till kedjekonfigurationskorrigeringar i variabelnCHAIN_CONFIG_FIXES
.
- Följ anvisningarna i avsnittet i
- För kedjekodskorrigeringar:
- Skapa en modifierad kedjekodfil och spara den i mappen B_quality_iteration/chain_code_fixes . Du kan också välja någon av de angivna kedjekodkorrigeringarna från den mappen.
- Följ anvisningarna i avsnittet i
Chain code
den 02_evaluate_fixes notebook-filen för att lägga till kedjekodsfilen och eventuell ytterligare kedjekonfiguration som krävs för variabelnCHAIN_CODE_FIXES
.
- För datapipelinekorrigeringar:
- Följande händer när du kör anteckningsboken från cellen
Run evaluation
:- Utvärdera varje korrigering.
- Fastställ korrigeringen med måtten för bästa kvalitet/kostnad/svarstid.
- Distribuera den bästa till granskningsappen och ett produktionsklart REST API för att få feedback från intressenterna.
Gå vidare
Fortsätt med steg 6 (pipelines). Implementera datapipelinekorrigeringar.