Dela via


Modellövervakning för generativa AI-program (förhandsversion)

Övervakningsmodeller i produktion är en viktig del av AI-livscykeln. Ändringar i data och konsumentbeteenden kan påverka ditt generativa AI-program över tid, vilket resulterar i inaktuella system som negativt påverkar affärsresultat och utsätter organisationer för efterlevnadsrisker, ekonomiska risker och ryktesrisker.

Viktigt!

Modellövervakning för generativa AI-program finns för närvarande i offentlig förhandsversion. Dessa förhandsversioner tillhandahålls utan ett serviceavtal och rekommenderas inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Azure Machine Learning-modellövervakning för generativa AI-program gör det enklare för dig att övervaka dina LLM-program i produktion för säkerhet och kvalitet på en takt för att säkerställa att det ger maximal inverkan på verksamheten. Övervakning hjälper slutligen till att upprätthålla kvaliteten och säkerheten för dina generativa AI-program. Funktioner och integreringar omfattar:

  • Samla in produktionsdata med hjälp av modelldatainsamlare.
  • Ansvarsfulla AI-utvärderingsmått som grund, konsekvens, flyt, relevans och likhet, som är kompatibla med azure Machine Learning-mått för snabbflödesutvärdering.
  • Möjlighet att konfigurera aviseringar för överträdelser baserat på organisationens mål och köra övervakning regelbundet
  • Använd resultat i en omfattande instrumentpanel på en arbetsyta i Azure Machine Learning-studio.
  • Integrering med mått för snabbflödesutvärdering i Azure Machine Learning, analys av insamlade produktionsdata för att tillhandahålla aviseringar i tid och visualisering av måtten över tid. ​

Grundläggande begrepp för modellövervakning finns i Modellövervakning med Azure Machine Learning (förhandsversion). I den här artikeln får du lära dig hur du övervakar ett generativt AI-program som backas upp av en hanterad onlineslutpunkt. De steg du utför är:

Utvärderingsmått

Mått genereras av följande toppmoderna GPT-språkmodeller som konfigurerats med specifika utvärderingsinstruktioner (promptmallar) som fungerar som utvärderarmodeller för sekvens-till-sekvens-uppgifter. Den här tekniken har visat starka empiriska resultat och hög korrelation med mänskligt omdöme jämfört med standardmått för generativ AI-utvärdering. Formulär mer information om utvärdering av promptflöde finns i Skicka masstest och utvärdera ett flöde (förhandsversion) för mer information om utvärdering av promptflöde.

Dessa GPT-modeller stöds och konfigureras som din Azure OpenAI-resurs:

  • GPT-3.5 Turbo
  • GPT-4
  • GPT-4-32k

Följande mått stöds. Mer detaljerad information om varje mått finns i Övervaka beskrivningar av utvärderingsmått och användningsfall

  • Grundvärde: utvärderar hur väl modellens genererade svar överensstämmer med information från indatakällan.
  • Relevans: utvärderar i vilken utsträckning modellens genererade svar är relevanta och direkt relaterade till de aktuella frågorna.
  • Enhetlighet: utvärderar hur väl språkmodellen kan skapa utdataflöden smidigt, läser naturligt och liknar mänskligt språk.
  • Fluency: utvärderar språkkunskaperna i en generativ AI:s förutsagda svar. Den utvärderar hur väl den genererade texten följer grammatiska regler, syntaktiska strukturer och lämplig användning av vokabulär, vilket resulterar i språkligt korrekta och naturligt klingande svar.
  • Likhet: utvärderar likheten mellan en grundläggande sannings mening (eller dokument) och förutsägelsedomen som genereras av en AI-modell.

Krav för måttkonfiguration

Följande indata (namn på datakolumner) krävs för att mäta genereringens säkerhet och kvalitet:

  • prompt text – den ursprungliga prompten (kallas även "indata" eller "fråga")
  • slutförandetext – det slutliga slutförandet från API-anropet som returneras (kallas även "utdata" eller "svar")
  • kontexttext – alla kontextdata som skickas till API-anropet, tillsammans med den ursprungliga prompten. Om du till exempel bara vill hämta sökresultat från vissa certifierade informationskällor/webbplatser kan du definiera i utvärderingsstegen. Det här är ett valfritt steg som kan konfigureras via promptflöde.
  • grundsanningstext – den användardefinierade texten som "sanningens källa" (valfritt)

Vilka parametrar som konfigureras i datatillgången avgör vilka mått du kan producera, enligt den här tabellen:

Mått Prompt Fullbordande Kontext Grund sanning
Koherens Obligatoriskt Obligatoriskt - -
Flyt Obligatoriskt Obligatoriskt - -
Grundstötning Obligatoriskt Obligatoriskt Obligatoriskt -
Relevans Obligatoriskt Obligatoriskt Obligatoriskt -
Likhet Obligatoriskt Obligatoriskt - Obligatoriskt

Förutsättningar

  1. Azure OpenAI-resurs: Du måste ha en Azure OpenAI-resurs skapad med tillräcklig kvot. Den här resursen används som utvärderingsslutpunkt.
  2. Hanterad identitet: Skapa en användartilldelad hanterad identitet (UAI) och bifoga den till din arbetsyta med hjälp av vägledningen i Bifoga användartilldelad hanterad identitet med hjälp av CLI v2med tillräcklig rollåtkomst, enligt definitionen i nästa steg.
  3. Rollåtkomst Om du vill tilldela en roll med nödvändiga behörigheter måste du ha behörigheten ägare eller Microsoft.Authorization/roleAssignments/write på resursen. Det kan ta flera minuter att uppdatera anslutningar och behörigheter. Dessa ytterligare roller måste tilldelas till din UAI:
    • Resurs: Arbetsyta
    • Roll: Azure Machine Learning-Dataforskare
  4. Anslutning till arbetsyta: Enligt den här vägledningen använder du en hanterad identitet som representerar autentiseringsuppgifterna för Azure OpenAI-slutpunkten som används för att beräkna övervakningsmåtten. Ta INTE bort anslutningen när den används i flödet.
    • API-version: 2023-03-15-preview
  5. Distribution av promptflöde: Skapa en körning av promptflöde enligt den här vägledningen, kör ditt flöde och se till att distributionen har konfigurerats med hjälp av den här artikeln som en guide
    • Flödesindata och utdata: Du måste namnge dina flödesutdata på rätt sätt och komma ihåg dessa kolumnnamn när du skapar övervakaren. I den här artikeln använder vi följande:
      • Indata (krävs): "prompt"
      • Utdata (krävs): "slutförande"
        • Utdata (valfritt): "kontext" | "grund sanning"
    • Datainsamling: i "Distribution" (steg 2 i guiden för distribution av promptflöde)måste växlingsknappen "slutsatsdragningsdatainsamling" aktiveras med hjälp av modelldatainsamlaren
    • Utdata: I utdata (steg 3 i guiden för distribution av promptflöde) bekräftar du att du har valt de nödvändiga utdata som anges ovan (till exempel slutförande | kontext | ground_truth) som uppfyller dina krav för måttkonfiguration

Kommentar

Om beräkningsinstansen ligger bakom ett virtuellt nätverk läser du Nätverksisolering i promptflöde.

Skapa din övervakare

Skapa din övervakare på översiktssidan Övervakning Skärmbild som visar hur du skapar en övervakare för ditt program.

Konfigurera grundläggande övervakningsinställningar

I guiden för att skapa övervakning ändrar du modellaktivitetstypen till fråga och slutför, enligt (A) i skärmbilden. Skärmbild som visar hur du konfigurerar grundläggande övervakningsinställningar för generativ AI.

Konfigurera datatillgång

Om du har använt Model Data Collector väljer du dina två datatillgångar (indata och utdata). Skärmbild som visar hur du konfigurerar datatillgången för generativ AI.

Välj övervakningssignaler

Skärmbild som visar konfigurationsalternativ för övervakningssignaler i dialogrutan övervakningsinställningar.

  1. Konfigurera anslutning till arbetsyta (A) på skärmbilden.
    1. Du måste konfigurera din arbetsyteanslutning korrekt, eller så ser du följande: Skärmbild som visar en okonfigurerad övervakningssignal.
  2. Ange azure OpenAI-utvärderarens distributionsnamn (B)..
  3. (Valfritt) Anslut dina produktionsdataindata och utdata: dina indata och utdata för produktionsmodellen kopplas automatiskt av övervakningstjänsten (C).. Du kan anpassa detta om det behövs, men ingen åtgärd krävs. Som standard är kopplingskolumnen correlationid.
  4. (Valfritt) Konfigurera måtttrösklar: En acceptabel poäng per instans fastställs till 3/5. Du kan justera din acceptabla totala % överföringshastighet mellan intervallet [1,99] %
  • Ange kolumnnamn manuellt från ditt promptflöde (E). Standardnamn är ("prompt" | "slutförande" | "context" | "ground_truth") men du kan konfigurera den enligt din datatillgång.

  • (valfritt) Ange samplingsfrekvens (F)

  • När signalen har konfigurerats visas inte längre en varning. Skärmbild som visar övervakning av signalkonfigurationer utan varning.

Konfigurera meddelanden

Ingen åtgärd krävs. Du kan konfigurera fler mottagare om det behövs. Skärmbild som visar konfigurationer av övervakningsmeddelanden.

Bekräfta konfiguration av övervakningssignaler

När den har konfigurerats bör övervakaren se ut så här: Skärmbild som visar en konfigurerad övervakningssignal.

Bekräfta övervakningsstatus

Om det har konfigurerats visar ditt pipelinejobb för övervakning följande: Skärmbild som visar en korrekt konfigurerad övervakningssignal.

Använda resultat

Översiktssida för övervakning

Övervakningsöversikten ger en översikt över din signalprestanda. Du kan ange din signalinformationssida för mer information. Skärmbild som visar övervakningsöversikt.

Signalinformationssida

På sidan med signalinformation kan du visa mått över tid (A) och visa histogram för distribution (B).

Skärmbild som visar en sida med signalinformation.

Lösa aviseringar

Det går bara att justera signaltrösklar. Den godtagbara poängen är fast vid 3/5 och det är bara möjligt att justera fältet "acceptabel övergripande % överföringshastighet". Skärmbild som justerar signaltrösklar.

Nästa steg