Dela via


Steg 6. Gör och utvärdera kvalitetskorrigeringar för AI-agenten

Den här artikeln vägleder dig genom stegen för att iterera igenom och utvärdera kvalitetskorrigeringar i din generativa AI-agent baserat på rotorsaksanalys.

POC-arbetsflödesdiagram, iterationssteg

Mer information om hur du utvärderar en AI-agent finns i Vad är Mosaic AI Agent Evaluation?.

Krav

  1. Baserat på rotorsaksanalysen har du identifierat potentiella korrigeringar för hämtning eller generering för att implementera och utvärdera.
  2. Ditt POC-program (eller en annan baslinjekedja) loggas till en MLflow-körning med en utvärdering av agenten som lagras i samma körning.

Se GitHub-lagringsplatsen för exempelkoden i det här avsnittet.

Förväntat resultat i agentutvärdering

Animerad GIF som visar utdata från en agentutvärderingskörning i Databricks MLflow.

Föregående bild visar agentutvärderingsutdata i MLflow.

Så här åtgärdar, utvärderar och itererar du på AI-agenten

För alla typer använder du anteckningsboken B_quality_iteration/02_evaluate_fixes för att utvärdera den resulterande kedjan jämfört med baslinjekonfigurationen, din POC och välja en "vinnare". Den här notebook-filen hjälper dig att välja det vinnande experimentet och distribuera det till granskningsappen eller ett produktionsklart, skalbart REST-API.

  1. Öppna anteckningsboken B_quality_iteration/02_evaluate_fixes i Azure Databricks.
  2. Baserat på vilken typ av korrigering du implementerar:
    • För datapipelinekorrigeringar:
    • För kedjekonfigurationskorrigeringar:
      • Följ anvisningarna i avsnittet i Chain configuration den 02_evaluate_fixes notebook-filen för att lägga till kedjekonfigurationskorrigeringar i variabeln CHAIN_CONFIG_FIXES .
    • För kedjekodskorrigeringar:
      • Skapa en modifierad kedjekodfil och spara den i mappen B_quality_iteration/chain_code_fixes . Du kan också välja någon av de angivna kedjekodkorrigeringarna från den mappen.
      • Följ anvisningarna i avsnittet i Chain code den 02_evaluate_fixes notebook-filen för att lägga till kedjekodsfilen och eventuell ytterligare kedjekonfiguration som krävs för variabeln CHAIN_CODE_FIXES .
  3. Följande händer när du kör anteckningsboken från cellen Run evaluation :
    • Utvärdera varje korrigering.
    • Fastställ korrigeringen med måtten för bästa kvalitet/kostnad/svarstid.
    • Distribuera den bästa till granskningsappen och ett produktionsklart REST API för att få feedback från intressenterna.

Gå vidare

Fortsätt med steg 6 (pipelines). Implementera datapipelinekorrigeringar.

< Föregående: Steg 5.2. Felsöka generationskvalitet

Nästa: Steg 6.1. Åtgärda datapipelinen >