Personalizer-terminologie
Belangrijk
Vanaf 20 september 2023 kunt u geen nieuwe Personalizer-resources maken. De Personalizer-service wordt op 1 oktober 2026 buiten gebruik gesteld.
Personalizer maakt gebruik van terminologie van versterkingsleer. Deze termen worden gebruikt in Azure Portal en de API's.
Conceptuele terminologie
Leerlus: U maakt een Personalizer-resource, een leerlus genoemd, voor elk deel van uw toepassing dat kan profiteren van persoonlijke instellingen. Als u meer dan één ervaring hebt om te personaliseren, maakt u een lus voor elk.
Model: Een Personalizer-model legt alle gegevens vast die zijn geleerd over gebruikersgedrag, het ophalen van trainingsgegevens uit de combinatie van de argumenten die u verzendt naar Rank- en Reward-aanroepen en met een trainingsgedrag dat wordt bepaald door het leerbeleid.
Onlinemodus: het standaardleergedrag voor Personalizer waar uw leerlus machine learning gebruikt om het model te bouwen waarmee de belangrijkste actie voor uw inhoud wordt voorspeld.
Apprentice-modus: Een leergedrag waarmee u een Personalizer-model warm kunt starten om te trainen zonder dat dit van invloed is op de resultaten en acties van de toepassingen.
Leergedrag:
- Onlinemodus: Retourneer de beste actie. Uw model reageert op Rank-oproepen met de beste actie en gebruikt Reward-aanroepen om de selecties in de loop van de tijd te leren en te verbeteren.
- Leerlingmodus: Leer als leerling. Uw model leert door het gedrag van uw bestaande systeem te observeren. Rangschikkingsoproepen retourneren altijd de standaardactie van de toepassing (basislijn).
Personalizer-configuratie
Personalizer is geconfigureerd vanuit Azure Portal.
Rewards: configureer de standaardwaarden voor wachttijd voor beloning, standaardbeloning en beloningsaggregatiebeleid.
Verkennen: het percentage Rank-aanroepen configureren dat moet worden gebruikt voor verkenning
Frequentie van modelupdates: hoe vaak het model opnieuw wordt getraind.
Gegevensretentie: hoeveel dagen aan gegevens moeten worden opgeslagen. Dit kan van invloed zijn op offline evaluaties, die worden gebruikt om uw leerlus te verbeteren.
Rank- en Reward-API's gebruiken
Rang: Gezien de acties met functies en de contextfuncties, gebruikt u verkennen of misbruiken om de bovenste actie (inhoudsitem) te retourneren.
Acties: Acties zijn de inhoudsitems, zoals producten of promoties, waaruit u kunt kiezen. Personalizer kiest de bovenste actie (geretourneerde beloningsactie-id) om aan uw gebruikers weer te geven via de Rank-API.
Context: Als u een nauwkeurigere rangschikking wilt bieden, geeft u informatie over uw context op, bijvoorbeeld:
- Uw gebruiker.
- Het apparaat waarop ze zich bevinden.
- De huidige tijd.
- Andere gegevens over de huidige situatie.
- Historische gegevens over de gebruiker of context.
Uw specifieke toepassing kan verschillende contextinformatie bevatten.
Functies: Een informatie-eenheid over een inhoudsitem of een gebruikerscontext. Zorg ervoor dat u alleen functies gebruikt die zijn samengevoegd. Gebruik geen specifieke tijden, gebruikers-id's of andere niet-geaggregeerde gegevens als functies.
- Een actiefunctie is metagegevens over de inhoud.
- Een contextfunctie is metagegevens over de context waarin de inhoud wordt gepresenteerd.
Verkennen: De Personalizer-service verkent wanneer, in plaats van de beste actie te retourneren, een andere actie voor de gebruiker kiest. De Personalizer-service voorkomt drift, stagnatie en kan zich aanpassen aan doorlopend gebruikersgedrag door te verkennen.
Geleerde beste actie: de Personalizer-service gebruikt het huidige model om de beste actie te bepalen op basis van eerdere gegevens.
Experimentduur: De hoeveelheid tijd die de Personalizer-service wacht op een beloning, beginnend vanaf het moment dat de Rank-aanroep voor die gebeurtenis is uitgevoerd.
Inactieve gebeurtenissen: Een inactieve gebeurtenis is een gebeurtenis waarbij u Rank hebt genoemd, maar u weet niet zeker of de gebruiker het resultaat ooit ziet, vanwege beslissingen van de clienttoepassing. Met inactieve gebeurtenissen kunt u persoonlijke resultaten maken en opslaan en deze later verwijderen zonder dat dit van invloed is op het machine learning-model.
Beloning: Een meting van hoe de gebruiker heeft gereageerd op de geretourneerde beloningsactie-id van de Rank-API, als score tussen 0 en 1. De waarde 0 tot 1 wordt ingesteld door uw bedrijfslogica, op basis van de wijze waarop de keuze heeft geholpen bij het bereiken van uw bedrijfsdoelen van persoonlijke instellingen. De leerlus slaat deze beloning niet op als afzonderlijke gebruikersgeschiedenis.
Evaluaties
Offline evaluaties
Evaluatie: Een offline evaluatie bepaalt het beste leerbeleid voor uw lus op basis van de gegevens van uw toepassing.
Leerbeleid: Hoe Personalizer een model traint op elke gebeurtenis, wordt bepaald door een aantal parameters die van invloed zijn op de werking van het machine learning-algoritme. Een nieuwe leerlus begint met een standaard learning-beleid, wat gemiddelde prestaties kan opleveren. Bij het uitvoeren van evaluaties maakt Personalizer nieuw leerbeleid dat speciaal is geoptimaliseerd voor de use cases van uw lus. Personalizer presteert aanzienlijk beter met beleid dat is geoptimaliseerd voor elke specifieke lus, die tijdens de evaluatie wordt gegenereerd. Het leerbeleid heet leerinstellingen in het model en leerinstellingen voor de Personalizer-resource in Azure Portal.
Evaluaties van de leerlingmodus
De leerlingmodus biedt de volgende metrische evaluatiegegevens:
- Basislijn – gemiddelde beloning: Gemiddelde beloningen van de standaardwaarde (basislijn) van de toepassing.
- Personalizer – gemiddelde beloning: Het gemiddelde van de totale beloningen die Personalizer mogelijk heeft bereikt.
- Gemiddelde rolling beloning: verhouding van basislijn- en Personalizer-beloning: genormaliseerd ten opzichte van de meest recente 1000 gebeurtenissen.
Volgende stappen
- Meer informatie over ethiek en verantwoord gebruik