Terminologia personalizacji

Artykuł
10/16/2024

Ważne

Od 20 września 2023 r. nie będzie można tworzyć nowych zasobów usługi Personalizacja. Usługa Personalizacja jest wycofywana 1 października 2026 r.

Personalizacja korzysta z terminologii z uczenia wzmacniania. Te terminy są używane w witrynie Azure Portal i interfejsach API.

Terminologia koncepcyjna

Pętla uczenia: utworzysz zasób personalizacji, nazywany pętlą szkoleniową, dla każdej części aplikacji, która może korzystać z personalizacji. Jeśli masz więcej niż jedno środowisko do personalizacji, utwórz pętlę dla każdego z nich.
Model: Model personalizacji przechwytuje wszystkie dane poznane na temat zachowania użytkownika, uzyskując dane szkoleniowe z kombinacji argumentów wysyłanych do wywołań rangi i nagrody oraz z zachowaniem trenowania określonym przez zasady uczenia.
Tryb online: domyślne zachowanie uczenia dla usługi Personalizacja, w której pętla uczenia się używa uczenia maszynowego do tworzenia modelu, który przewiduje najwyższą akcję dla zawartości.
Tryb praktykanta: zachowanie szkoleniowe, które pomaga rozgrzać rozpoczęcie modelu personalizacji w celu trenowania bez wpływu na wyniki i działania aplikacji.

Zachowanie nauki:

Tryb online: Zwróć najlepszą akcję. Model odpowie na wywołania rangi z najlepszą akcją i użyje wywołań programu Reward, aby nauczyć się i ulepszać swoje wybory w miarę upływu czasu.
Tryb ucznia: Ucz się jako praktykant. Model nauczy się, obserwując zachowanie istniejącego systemu. Wywołania rangi zawsze zwracają domyślną akcję (punkt odniesienia) aplikacji.

Konfiguracja personalizacji

Usługa Personalizacja jest konfigurowana w witrynie Azure Portal.

Nagrody: skonfiguruj domyślne wartości czasu oczekiwania na nagrody, domyślną nagrodę i zasady agregacji nagrody.
Eksploracja: konfigurowanie procentu wywołań rangi do użycia na potrzeby eksploracji
Częstotliwość aktualizacji modelu: jak często model jest ponownie trenowany.
Przechowywanie danych: ile dni warto przechowywać dane. Może to mieć wpływ na oceny offline, które są używane do ulepszania pętli uczenia.

Korzystanie z interfejsów API rangi i nagrody

Ranga: Biorąc pod uwagę akcje z funkcjami i funkcjami kontekstu, użyj eksplorowania lub wykorzystania, aby zwrócić akcję górną (element zawartości).
- Akcje: Akcje to elementy zawartości, takie jak produkty lub promocje, do wyboru. Personalizator wybiera akcję wierzchołka (zwrócony identyfikator akcji nagrody), aby pokazać użytkownikom za pośrednictwem interfejsu API rangi.
- Kontekst: Aby zapewnić dokładniejszą rangę, podaj informacje o kontekście, na przykład:
  - Użytkownik.
  - Urządzenie, na których się znajdują.
  - Bieżąca godzina.
  - Inne dane dotyczące bieżącej sytuacji.
  - Dane historyczne dotyczące użytkownika lub kontekstu.
  Określona aplikacja może mieć różne informacje kontekstowe.
- Funkcje: jednostka informacji o elemencie zawartości lub kontekście użytkownika. Pamiętaj, aby używać tylko funkcji, które są agregowane. Nie należy używać określonych godzin, identyfikatorów użytkowników ani innych niegregowanych danych jako funkcji.
  - Funkcja akcji to metadane dotyczące zawartości.
  - Funkcja kontekstu to metadane dotyczące kontekstu, w którym jest prezentowana zawartość.
Eksploracja: usługa Personalizacja sprawdza, kiedy zamiast zwracać najlepszą akcję, wybiera inną akcję dla użytkownika. Usługa Personalizacja unika dryfu, stagnacji i może dostosować się do bieżącego zachowania użytkownika, eksplorując.
Poznane najlepsze działanie: usługa Personalizacja używa bieżącego modelu do decydowania o najlepszej akcji na podstawie poprzednich danych.
Czas trwania eksperymentu: czas oczekiwania usługi Personalizacja na nagrodę, począwszy od momentu wystąpienia wywołania rangi dla tego zdarzenia.
Zdarzenia nieaktywne: zdarzenie nieaktywne to zdarzenie o nazwie Rank, ale nie masz pewności, że użytkownik kiedykolwiek zobaczy wynik z powodu decyzji aplikacji klienckiej. Nieaktywne zdarzenia umożliwiają tworzenie i przechowywanie wyników personalizacji, a następnie podjęcie decyzji o ich odrzuceniu później bez wpływu na model uczenia maszynowego.
Nagroda: miara odpowiedzi użytkownika na zwrócony identyfikator akcji nagrody interfejsu API rangi jako wynik z zakresu od 0 do 1. Wartość od 0 do 1 jest ustawiana przez logikę biznesową na podstawie sposobu, w jaki wybór pomógł osiągnąć cele biznesowe personalizacji. Pętla szkoleniowa nie przechowuje tej nagrody jako indywidualnej historii użytkownika.

Oceny

Oceny w trybie offline

Ocena: Ocena w trybie offline określa najlepsze zasady uczenia pętli na podstawie danych aplikacji.
Zasady uczenia: Jak usługa Personalizacja trenuje model na każdym zdarzeniu, będzie określana przez niektóre parametry wpływające na sposób działania algorytmu uczenia maszynowego. Nowa pętla szkoleniowa rozpoczyna się od domyślnych zasad uczenia, które mogą przynieść umiarkowaną wydajność. Podczas uruchamiania ocen usługa Personalizacja tworzy nowe zasady szkoleniowe specjalnie zoptymalizowane pod kątem przypadków użycia pętli. Personalizacja będzie działać znacznie lepiej dzięki zasadom zoptymalizowanym pod kątem każdej pętli określonej wygenerowanej podczas oceny. Zasady szkoleniowe mają nazwę ustawienia uczenia w ustawieniach modelu i uczenia dla zasobu Personalizacja w witrynie Azure Portal.

Oceny trybu praktykanta

Tryb ucznia udostępnia następujące metryki oceny:

Plan bazowy — średnia nagroda: średnie nagrody domyślne (punkt odniesienia) aplikacji.
Personalizator — średnia nagroda: Średnia łączna liczba nagród Personalizacja potencjalnie osiągnęłaby wartość.
Średnia nagroda stopniowa: współczynnik nagrody wg planu bazowego i programu Personalizacja — znormalizowany w ciągu ostatnich 1000 wydarzeń.

Następne kroki

Dowiedz się więcej na temat etyki i odpowiedzialnego używania

Udostępnij za pośrednictwem