Delen via


Wat is Versterking leren?

Belangrijk

Vanaf 20 september 2023 kunt u geen nieuwe Personalizer-resources maken. De Personalizer-service wordt op 1 oktober 2026 buiten gebruik gesteld.

Reinforcement Learning is een benadering van machine learning die gedrag leert door feedback te krijgen over het gebruik ervan.

Bekrachtigend leren werkt door:

  • Het bieden van een kans of vrijheidsgraden om een gedrag uit te voeren, zoals het nemen van beslissingen of keuzes.
  • Contextuele informatie over de omgeving en keuzes bieden.
  • Feedback geven over hoe goed het gedrag een bepaald doel bereikt.

Hoewel er veel subtypen en stijlen van versterkingsleer zijn, werkt het concept in Personalizer:

  • Uw toepassing biedt de mogelijkheid om één stukje inhoud uit een lijst met alternatieven weer te geven.
  • Uw toepassing biedt informatie over elk alternatief en de context van de gebruiker.
  • Uw toepassing berekent een beloningsscore.

In tegenstelling tot sommige benaderingen om versterking te leren, vereist Personalizer geen simulatie om in te werken. De leeralgoritmen zijn ontworpen om te reageren op een buitenwereld (versus controle) en leren van elk gegevenspunt met een inzicht dat het een unieke kans is dat tijd en geld kosten om te creëren, en dat er een niet-nul spijt (verlies van mogelijke beloning) is als er suboptimale prestaties optreden.

Welk type versterkingsleeralgoritmen gebruikt Personalizer?

De huidige versie van Personalizer maakt gebruik van contextuele bandieten, een benadering voor versterkingsleer die is omkaderd om beslissingen te nemen of keuzes te maken tussen discrete acties, in een bepaalde context.

Het beslissingsgeheugen, het model dat is getraind om de best mogelijke beslissing vast te leggen, gezien een context, maakt gebruik van een set lineaire modellen. Deze hebben herhaaldelijk bedrijfsresultaten getoond en zijn een bewezen benadering, deels omdat ze zeer snel kunnen leren uit de echte wereld zonder multi-pass training nodig te hebben, en gedeeltelijk omdat ze kunnen aanvullen met leermodellen onder supervisie en deep neurale netwerkmodellen.

De toewijzing van verkennen/beste actieverkeer wordt willekeurig uitgevoerd volgens het percentage dat is ingesteld voor verkenning en het standaardalgoritme voor verkenning is epsilon-greedy.

Geschiedenis van contextuele bandieten

John Langford bedacht de naam Contextual Bandits (Langford en Zhang [2007]) om een bewegelijke subset van versterkingsleer te beschrijven en heeft gewerkt aan een half dozijn documenten die ons inzicht in het leren in dit paradigma verbeteren:

  • Beygel listener et al. [2011]
  • Dudík et al. [2011a, b]
  • Agarwal et al. [2014, 2012]
  • Beygel listener en Langford [2009]
  • Li et al. [2010]

John heeft eerder verschillende zelfstudies gegeven over onderwerpen zoals Joint Prediction (ICML 2015), Contextuele BanditTheorie (NIPS 2013), Active Learning (ICML 2009) en Sample Complexity Bounds (ICML 2003)

Welke machine learning-frameworks gebruikt Personalizer?

Personalizer maakt momenteel gebruik van Vowpal Wabbit als basis voor de machine learning. Dit framework maakt maximale doorvoer en laagste latentie mogelijk bij het maken van persoonlijke classificaties en het trainen van het model met alle gebeurtenissen.

Verwijzingen

Volgende stappen

Offline evaluatie