Konfigurera beteendet för anpassningsinlärning

Artikel
10/16/2024

Viktigt!

Från och med den 20 september 2023 kommer du inte att kunna skapa nya personaliseringsresurser. Personanpassningstjänsten dras tillbaka den 1 oktober 2026.

Lärlingsläget ger dig förtroende för personanpassningstjänsten och dess maskininlärningsfunktioner, och ger en försäkran om att tjänsten skickas information som du kan lära dig av – utan att riskera onlinetrafik.

Konfigurera lärlingsläge

Logga in på Azure Portal för din Personalizer-resurs.
På sidan Installation går du till fliken Modellinställningar och väljer Lärlingsläge och sedan Spara.

Skärmbild av hur du konfigurerar inlärningsbeteende för lärlingsläge i Azure Portal

Ändringar i det befintliga programmet

Ditt befintliga program bör inte ändra hur det för närvarande väljer åtgärder som ska visas eller hur programmet avgör värdet, belöningen för den åtgärden. Den enda ändringen i programmet kan vara ordningen på de åtgärder som skickas till API:et för personanpassningsrankning. Den åtgärd som ditt program visar för närvarande skickas som den första åtgärden i åtgärdslistan. Rank-API:et använder den här första åtgärden för att träna din personanpassningsmodell.

Konfigurera programmet så att det anropar ranknings-API:et

För att kunna lägga till Personanpassning i ditt program måste du anropa API:erna rankning och belöning.

Lägg till ranknings-API-anropet efter punkten i din befintliga programlogik där du fastställer listan över åtgärder och deras funktioner. Den första åtgärden i åtgärdslistan måste vara den åtgärd som valts av din befintliga logik.
Konfigurera koden så att den visar åtgärden som är associerad med ranknings-API-svarets Reward Action ID.

Konfigurera ditt program för att anropa Reward API

Kommentar

Reward API-anrop påverkar inte träning i lärlingsläge. Tjänsten lär sig genom att matcha programmets aktuella logik eller standardåtgärder. Men att implementera Reward-anrop i det här skedet hjälper till att säkerställa en smidig övergång till onlineläge senare med en enkel växel i Azure Portal. Dessutom loggas belöningarna så att du kan analysera hur bra den aktuella logiken presterar och hur mycket belöning som tas emot.

Använd din befintliga affärslogik för att beräkna belöningen för den visade åtgärden. Värdet måste ligga i intervallet från 0 till 1. Skicka den här belöningen till Personanpassning med hjälp av Reward-API:et. Belöningsvärdet förväntas inte omedelbart och kan fördröjas under en tidsperiod , beroende på din affärslogik.
Om du inte returnerar belöningen inom den konfigurerade väntetiden för belöning loggas standardbelöningen i stället.

Utvärdera lärlingsläge

I Azure Portal går du till sidan Övervaka för din Personalizer-resurs och läser matchningsprestanda.

Skärmbild av utvärdering av inlärningsbeteende för lärlingsläge i Azure Portal

Lärlingsläget innehåller följande utvärderingsmått:

Originalplan – genomsnittlig belöning: Genomsnittliga belöningar för programmets standardvärde (baslinje).
Personanpassning – genomsnittlig belöning: Genomsnitt av totala belöningar Personanpassning skulle potentiellt ha nått.
Belöningsprestationsförhållande över de senaste 1 000 händelserna: Förhållandet mellan originalplan och personanpassningsbelöning – normaliserat under de senaste 1 000 händelserna.

Växla beteende till onlineläge

När du fastställer att Personanpassning tränas med ett genomsnitt på 75–85 % rullande medelvärde är modellen redo att växla till onlineläge.

I Azure Portal för personaliserarresursen går du till sidan Installation och väljer *Onlineläge på fliken Modellinställningar och sedan Spara.

Du behöver inte göra några ändringar i API-anropen rankning och belöning.

Nästa steg

Hantera modell- och inlärningsinställningar

Dela via