Co je výztužné učení?
Důležité
Od 20. září 2023 nebudete moct vytvářet nové prostředky personalizace. Služba Personalizace se vyřadí z provozu 1. října 2026.
Výztužné učení je přístup k strojovému učení, který se učí chování získáním zpětné vazby z jejího použití.
Zpětnovazební učení funguje podle:
- Poskytnutí příležitosti nebo stupně volnosti k přijetí chování , jako je například rozhodování nebo volby.
- Poskytuje kontextové informace o prostředí a možnostech.
- Poskytnutí zpětné vazby o tom, jak dobře chování dosahuje určitého cíle.
I když existuje mnoho podtypů a stylů výztužného učení, je to způsob, jakým koncept funguje v personalizaci:
- Vaše aplikace nabízí možnost zobrazit jednu část obsahu ze seznamu alternativ.
- Vaše aplikace poskytuje informace o jednotlivých alternativách a kontextu uživatele.
- Vaše aplikace vypočítá skóre odměny.
Na rozdíl od některých přístupů k výztužné učení nevyžaduje personalizace simulaci, ve které by fungovala. Jeho algoritmy učení jsou navržené tak, aby reagovaly na vnější svět (a neovládaly ho) a učí se z každého datového bodu s pochopením, že je to jedinečná příležitost, která stojí čas a peníze k vytvoření, a že existuje nenulová lítost (ztráta možné odměny), pokud dojde k neoptimálnímu výkonu.
Jaký typ algoritmů pro výztužné učení používá personalizace?
Aktuální verze personalizace používá kontextové bandity, přístup k učení o posílení, který je určen pro rozhodování nebo volby mezi diskrétními akcemi v daném kontextu.
Rozhodovací paměť, model, který byl vytrénován k zachycení nejlepšího možného rozhodnutí vzhledem k kontextu, používá sadu lineárních modelů. Tyto výsledky opakovaně ukázaly obchodní výsledky a jsou osvědčeným přístupem, částečně proto, že se můžou velmi rychle učit z reálného světa, aniž by potřebovaly trénování s více průchody, a částečně proto, že mohou doplnit modely učení pod dohledem a modely hluboké neurální sítě.
Přidělení provozu prozkoumání / nejlepší akce se náhodně provádí za procentem nastaveným pro průzkum a výchozí algoritmus pro průzkum je epsilon-greedy.
Historie kontextových banditů
John Langford vymyslel název Contextual Bandits (Langford a Zhang [2007]) popisovat snadnou podmnožinu výztuže a pracoval na půl tuctu dokumentů, které zlepšují naše porozumění tomu, jak se naučit v tomto paradigmatu:
- Beygelzimer et al. [2011]
- Dudík et al. [2011a, b]
- Agarwal et al. [2014, 2012]
- Beygelzimer a Langford [2009]
- Li et al. [2010]
John také dříve poskytl několik kurzů k tématům, jako jsou společná předpověď (ICML 2015), kontextová banditová teorie (NIPS 2013), aktivní učení (ICML 2009) a vazby složitosti vzorků (ICML 2003)
Jaké architektury strojového učení personalizace používá?
Personalizace v současné době jako základ pro strojové učení používá Vowpal Wabbit . Tato architektura umožňuje maximální propustnost a nejnižší latenci při určování pořadí přizpůsobení a trénování modelu se všemi událostmi.
Reference
- Provádění kontextových rozhodnutí s nízkým technickým dluhem
- Přístup ke snížení spravedlivé klasifikace
- Efektivní kontextové bandity v nestaárních světech
- Předpověď ztráty reziduí: Posílení: učení bez přírůstkové zpětné vazby
- Mapování instrukcí a vizuálních pozorování na akce s využitím učení o ztěžování
- Učení se hledat lépe než učitel