Dela via


Vad är förstärkningsinlärning?

Viktigt!

Från och med den 20 september 2023 kommer du inte att kunna skapa nya personaliseringsresurser. Personanpassningstjänsten dras tillbaka den 1 oktober 2026.

Förstärkningsinlärning är en metod för maskininlärning som lär sig beteenden genom att få feedback från användningen.

Förstärkningsinlärning fungerar genom att:

  • Ge en möjlighet eller grad av frihet att anta ett beteende - till exempel att fatta beslut eller val.
  • Ge sammanhangsberoende information om miljön och alternativen.
  • Ge feedback om hur väl beteendet uppnår ett visst mål.

Det finns många undertyper och stilar av förstärkningsinlärning, men det är så här konceptet fungerar i Personanpassning:

  • Ditt program ger möjlighet att visa ett innehåll från en lista över alternativ.
  • Ditt program innehåller information om varje alternativ och användarens kontext.
  • Ditt program beräknar en belöningspoäng.

Till skillnad från vissa metoder för förstärkningsinlärning kräver Personalizer inte någon simulering för att arbeta i. Dess inlärningsalgoritmer är utformade för att reagera på en omvärld (jämfört med att kontrollera den) och lära sig från varje datapunkt med en förståelse för att det är en unik möjlighet som kostar tid och pengar att skapa, och att det finns en ånger som inte är noll (förlust av möjlig belöning) om suboptimal prestanda inträffar.

Vilken typ av förstärkningsinlärningsalgoritmer använder Personalizer?

Den aktuella versionen av Personalizer använder kontextbaserade banditer, en metod för att förstärka inlärning som är inramad kring att fatta beslut eller val mellan diskreta åtgärder, i en viss kontext.

Beslutsminnet, den modell som har tränats för att samla in bästa möjliga beslut, med tanke på en kontext, använder en uppsättning linjära modeller. Dessa har upprepade gånger visat affärsresultat och är en beprövad metod, delvis på grund av att de kan lära sig från den verkliga världen mycket snabbt utan att behöva utbildning med flera pass, och delvis för att de kan komplettera övervakade inlärningsmodeller och djup neurala nätverksmodeller.

Trafikallokeringen utforska/bästa åtgärd görs slumpmässigt efter procentuppsättningen för utforskning, och standardalgoritmen för utforskning är epsilon-girig.

Historia av kontextuella banditer

John Langford myntade namnet Contextual Bandits (Langford och Zhang [2007]) för att beskriva en delmängd av förstärkningsinlärning och har arbetat med ett halvt dussin artiklar som förbättrar vår förståelse av hur vi lär oss i detta paradigm:

  • Beygelzimer et al. [2011]
  • Dudík et al. [2011a, b]
  • Agarwal et al. [2014, 2012]
  • Beygelzimer och Langford [2009]
  • Li et al. [2010]

John har också gett flera självstudier tidigare om ämnen som Joint Prediction (ICML 2015), Contextual Bandit Theory (NIPS 2013), Active Learning (ICML 2009) och Sample Complexity Bounds (ICML 2003)

Vilka maskininlärningsramverk använder Personalizer?

Personalizer använder för närvarande Vowpal Wabbit som grund för maskininlärning. Det här ramverket möjliggör maximalt dataflöde och lägsta svarstid när anpassning rangordnas och tränas modellen med alla händelser.

Referenser

Nästa steg

Offlineutvärdering