Les scores de récompense indiquent la réussite de la personnalisation
Important
À compter du 20 septembre 2023, vous ne pourrez pas créer de ressources Personalizer. Le service Personalizer est mis hors service le 1er octobre 2026.
Le score de récompense indique à quel point le choix de personnalisation, RewardActionID, était adapté à l’utilisateur. La valeur du score de récompense est déterminée par votre logique métier, en fonction des observations sur le comportement utilisateur.
Personalizer effectue l’apprentissage de ses modèles Machine Learning en évaluant les récompenses.
Découvrez comment configurer le score de récompense par défaut dans le portail Azure pour votre ressource Personalizer.
Utiliser l’API Reward (Récompense) pour envoyer un score de récompense à Personalizer
Les récompenses sont envoyées à Personalizer par l’API Reward. En général, une récompense est un nombre compris entre 0 et 1. Une récompense négative (avec la valeur -1) est possible dans certains scénarios, et ne doit être utilisée que si vous êtes familiarisé avec l’apprentissage par renforcement. Personalizer effectue l’apprentissage du modèle afin d’obtenir la somme la plus élevée possible de récompenses au fil du temps.
Les récompenses sont envoyées une fois que le comportement de l’utilisateur a eu lieu, parfois plusieurs jours plus tard. La configuration du délai maximal après lequel Personalizer considère qu’un événement ne reçoit aucune récompense ou reçoit une récompense par défaut s’effectue avec le Temps d’attente des récompenses dans le portail Azure.
Si le score de récompense pour un événement n’a pas été reçu dans le Temps d’attente des récompenses, la récompense par défaut est appliquée. En règle générale, la récompense par défaut est configurée sur zéro.
Comportements et données à prendre en compte pour les récompenses
Prenez en compte ces signaux et comportements pour le contexte du score de récompense :
- L’entrée de l’utilisateur elle-même, avec des suggestions lorsque des options sont impliquées (« Voulez-vous dire X ? »).
- La longueur de la session.
- Le temps entre les sessions.
- L’analyse des sentiments des interactions de l’utilisateur.
- Des questions directes et mini-enquêtes pour lesquelles le bot demande à l’utilisateur d’envoyer des commentaires sur l’utilité, la précision.
- La réponse aux alertes, ou le retard de réponse aux alertes.
Composition de scores de récompense
Un score de récompense doit être calculé dans votre logique métier. Le score peut être représenté comme suit :
- Un seul nombre envoyé une fois
- Un score envoyé immédiatement (par exemple, 0,8) et un score supplémentaire envoyé ultérieurement (généralement 0,2).
Récompenses par défaut
Si aucune récompense n’est reçue dans le Temps d’attente des récompenses, soit la durée qui s’est écoulée depuis l’appel Rank, Personalizer applique implicitement la récompense par défaut à cet événement Rank.
Construction de récompenses avec plusieurs facteurs
Pour une personnalisation efficace, vous pouvez générer le score de récompense selon plusieurs facteurs.
Par exemple, vous pouvez appliquer les règles suivantes pour personnaliser une liste de contenu vidéo :
Comportement de l’utilisateur | Valeur de score partielle |
---|---|
L’utilisateur a cliqué sur le premier élément. | Récompense +0,5 |
L’utilisateur a ouvert le contenu réel associé à cet élément. | Récompense +0,3 |
L’utilisateur a regardé 5 minutes du contenu ou 30 %, la durée la plus longue étant retenue. | Récompense +0,2 |
Vous pouvez ensuite envoyer la récompense totale à l’API.
Appeler l’API Reward plusieurs fois
Vous pouvez également appeler l’API Reward en utilisant le même ID d’événement, en envoyant différents scores de récompense. Lorsque Personalizer reçoit ces récompenses, il détermine la récompense finale pour cet événement en les agrégeant tel que spécifié dans la configuration Personalizer.
Valeurs d’agrégation :
- Premièrement : prend le premier score de récompense reçu pour l’événement et ignore le reste.
- Somme : prend tous les scores de récompense collectés pour l’ID d’événement et les additionne.
Toutes les récompenses pour un événement, qui sont reçues une fois que le Temps d’attente des récompenses s’est écoulé, sont ignorées et n’affectent pas l’apprentissage des modèles.
En additionnant les scores de récompense, votre récompense finale peut se trouver en dehors de la plage prévue. Cela n’entraîne pas l’échec du service.
Meilleures pratiques pour le calcul du score de récompense
Considérez les vrais indicateurs de la personnalisation réussie : il est facile de raisonner en termes de clics, mais une bonne récompense repose sur ce que vous souhaitez que vos utilisateurs réalisent et non sur ce que vous souhaitez que les personnes fassent. Par exemple, offrir des récompenses en cas de clics peut entraîner la sélection d’un contenu « piège à clics ».
Utiliser une récompense sur la qualité de la personnalisation : avec un peu de chance, la personnalisation d’une suggestion de film donne envie à l’utilisateur de regarder le film et de lui accorder une note élevée. Étant donné que la classification des films dépend de nombreuses choses (la qualité de l’action, l’humeur de l’utilisateur), cela n’est pas un bon indicateur du bon fonctionnement de la personnalisation. Toutefois, si un utilisateur regarde les premières minutes du film, cela peut constituer un meilleur signal de l’efficacité de la personnalisation. Et l’envoi d’une récompense de 1 au bout de 5 minutes représentera un signal encore meilleur.
Les récompenses ne s’appliquent qu’aux RewardActionID : le Personalizer applique les récompenses pour comprendre l’efficacité de l’action spécifiée dans RewardActionID. Si vous choisissez d’afficher d’autres actions et que l’utilisateur les sélectionne, la récompense doit être de zéro.
Prendre en considération les conséquences imprévues : créez des fonctions de récompense qui aboutissent à des résultats responsables avec une déontologie et une utilisation responsable.
Utiliser des récompenses incrémentielles : l’ajout de récompenses partielles pour les comportements utilisateur moins significatifs permet à Personalizer d’obtenir de meilleures récompenses. Cette récompense incrémentielle permet à l’algorithme de savoir qu’il est sur le point d’inciter l’utilisateur à avoir le comportement souhaité.
- Si vous affichez une liste de films, si l’utilisateur pointe sur le premier film pendant un certain temps pour voir plus d’informations, vous pouvez déterminer que l’utilisateur a manifesté un certain engagement. Le comportement peut compter avec un score de récompense de 0,1.
- Si l’utilisateur a ouvert la page puis l’a fermée, le score de récompense peut être 0,2.
Temps d’attente des récompenses
Personalizer met en corrélation les informations d’un appel Rank avec les récompenses envoyées dans des appels de récompense pour effectuer l’entraînement du modèle, ce qui peut se produire à différents moments. Personalizer attend le score de récompense pendant une durée définie, qui commence lorsque l’appel Rank correspondant se produit. Cela se produit même si l’appel Rank a été effectué à l’aide de l’activation différée](concept-active-inactive-events.md).
Si le Temps d’attente des récompenses arrive à expiration et qu’aucune information de récompense n’a été générée, une récompense par défaut est appliquée à cet événement pour l’entraînement. Vous pouvez sélectionner une durée d’attente de récompense de 10 minutes, 4 heures, 12 heures ou 24 heures. Si votre scénario nécessite des temps d’attente de récompense plus longs (par exemple, pour des campagnes marketing de type emailing), nous proposons une préversion privée offrant des temps d’attente plus longs. Ouvrez un ticket de support dans le portail Azure pour contacter l’équipe et voir si vous êtes éligible et pouvez en profiter.
Meilleures pratiques pour le temps d’attente des récompenses
Suivez ces recommandations pour améliorer les résultats.
Définissez un temps d’attente des récompenses aussi court que possible, tout en laissant suffisamment de temps pour obtenir des retours des utilisateurs.
Ne choisissez pas une durée qui est plus courte que le temps nécessaire pour obtenir des commentaires. Par exemple, si certaines de vos récompenses ont lieu une fois qu’un utilisateur a visionné 1 minute d’une vidéo, la longueur de l’expérience doit être au moins le double.