Condividi tramite


I punteggi di ricompensa indicano il grado di successo della personalizzazione

Importante

A partire dal 20 settembre 2023 non sarà possibile creare nuove risorse di Personalizza esperienze. Il servizio Personalizza esperienze verrà ritirato il 1° ottobre 2026.

Il punteggio di ricompensa indica l'efficacia della scelta di personalizzazione, RewardActionID, per l'utente. Il valore del punteggio di ricompensa è determinato dalla logica di business sulla base delle osservazioni del comportamento degli utenti.

Personalizza esperienze esegue il training dei modelli di Machine Learning valutando le ricompense.

Informazioni su come configurare il punteggio di ricompensa predefinito nel portale di Azure per la risorsa di personalizza esperienze.

Usare l'API Ricompensa per inviare il punteggio di ricompensa a Personalizza esperienze

Le ricompense vengono inviate a Personalizza esperienze dall'API Ricompensa. In genere, una ricompensa è un numero compreso tra 0 e 1. Una ricompensa negativa, con il valore -1, è possibile in determinati scenari e deve essere usata solo se si ha esperienza con l'apprendimento per rinforzo (RL). Personalizza esperienze esegue il training del modello per ottenere la somma più alta possibile di ricompense nel tempo.

Le ricompense vengono inviate dopo che si è verificato il comportamento degli utenti, che può avvenire alcuni giorni più tardi. Il tempo massimo di attesa prima che Personalizza esperienze consideri un evento come evento senza ricompensa, o con una ricompensa predefinita, viene configurato con Tempo di attesa per la ricompensa nel portale di Azure.

Se non si riceve il punteggio di ricompensa per un evento nel tempo indicato per Tempo di attesa per la ricompensa, verrà applicato il valore di Ricompensa predefinita. Il valore di Ricompensa predefinita è impostato su zero.

Comportamenti e dati da considerare per le ricompense

Prendere in considerazione questi segnali e comportamenti per il contesto del punteggio di ricompensa:

  • Input utente diretto per i suggerimenti quando si tratta di opzioni ("Intendi X?").
  • Durata della sessione.
  • Tempo tra le sessioni.
  • Analisi del sentiment delle interazioni dell'utente.
  • Domande dirette e brevi sondaggi in cui il bot chiede all'utente un feedback sull'utilità e sull'accuratezza.
  • Risposta agli avvisi o ritardo nel rispondere agli avvisi.

Composizione dei punteggi di ricompensa

Un punteggio di ricompensa deve essere calcolato nella logica di business. Il punteggio può essere rappresentato come:

  • Un singolo numero inviato una volta
  • Un punteggio inviato immediatamente (ad esempio 0,8) e un punteggio aggiuntivo inviato in un secondo momento (in genere 0,2).

Ricompense predefinite

Se non viene ricevuta alcuna ricompensa nel tempo indicato per Tempo di attesa per la ricompensa, il tempo trascorso dopo la chiamata a Classifica, Personalizza esperienze applica implicitamente il valore di Ricompensa predefinita all'evento di Classifica.

Creazione di ricompense con più fattori

Per una personalizzazione efficace, è possibile creare il punteggio di ricompensa in base a più fattori.

È ad esempio possibile applicare queste regole per la personalizzazione di un elenco di contenuti video:

Comportamento utente Valore punteggio parziale
L'utente ha fatto clic sul primo elemento. Ricompensa +0,5
L'utente ha aperto il contenuto effettivo di tale elemento. Ricompensa +0,3
L'utente ha guardato 5 minuti di contenuto o il 30% del contenuto, a seconda del valore corrispondente al tempo più lungo. Ricompensa +0,2

È quindi possibile inviare la ricompensa totale all'API.

Chiamata all'API Ricompensa ripetuta più volte

È anche possibile chiamare l'API Ricompensa con lo stesso ID evento inviando punteggi di ricompensa diversi. Quando personalizza esperienze ottiene tali ricompense, determina la ricompensa finale per tale evento aggregando le ricompense come specificato nella relativa configurazione.

Valori di aggregazione:

  • Primo: personalizza esperienze accetta il primo punteggio di ricompensa ricevuto per l'evento e rimuove il resto.
  • Somma: personalizza esperienze accetta tutti i punteggi di ricompensa raccolti per eventId e li somma.

Tutte le ricompense di un evento che vengono ricevute dopo il tempo specificato per Tempo di attesa per la ricompensa vengono ignorate e non hanno effetto sul training dei modelli.

Sommando i punteggi di ricompensa, la ricompensa finale potrebbe non rientrare nell'intervallo di punteggi previsto. Questo risultato non comporta l'esito negativo del servizio.

Procedure consigliate per il calcolo del punteggio di ricompensa

  • Considerare i veri indicatori di una personalizzazione riuscita: è facile pensare in termini di clic, ma una buona ricompensa è basata sull’obiettivo che si vuole che gli utenti raggiungano invece di ciò che si vuole che gli utenti facciano. Il calcolo delle ricompense in base ai clic, ad esempio, può determinare la selezione di contenuto soggetto a clickbait.

  • Usare un punteggio di ricompensa in base a quanto ha funzionato bene la personalizzazione: quando si personalizza il suggerimento di un film si conta che induca gli utenti a guardarlo e assegnargli una valutazione elevata. Poiché la valutazione del film dipende probabilmente da molti fattori (la qualità della recitazione, lo stato d'animo dell'utente), non è un segnale di ricompensa appropriato per il funzionamento della personalizzazione. Il fatto che l'utente guardi i primi minuti del film, tuttavia, può essere un segnale migliore dell'efficacia della personalizzazione e l'invio di una ricompensa pari a 1 dopo cinque minuti sarà un segnale migliore.

  • Le ricompense si applicano solo a RewardActionID: personalizza esperienze applica le ricompense per comprendere l'efficacia dell'azione specificata in RewardActionID. Se si sceglie di visualizzare altre azioni e l'utente le seleziona, la ricompensa deve essere pari a zero.

  • Considerare conseguenze impreviste: creare funzioni di ricompensa che portano a risultati responsabili tramite un uso etico e responsabile.

  • Usare ricompense incrementali: l'aggiunta di ricompense parziali per comportamenti di minore portata degli utenti consente a personalizza esperienze di ottenere ricompense migliori. La ricompensa incrementale consente all'algoritmo di capire che si sta avvicinando all'obiettivo di indurre nell'utente il comportamento desiderato finale.

    • Se si mostra un elenco di film e l'utente passa il puntatore del mouse sul primo per un periodo di tempo e visualizza altre informazioni, è possibile determinare che si è verificato un engagement dell'utente. Al comportamento può essere assegnato un punteggio di ricompensa pari a 0,1.
    • Se l'utente ha aperto la pagina per poi uscire, il punteggio di ricompensa può essere di 0,2.

Tempo di attesa ricompensa

Personalizza esperienze correla le informazioni di una chiamata all’API Classifica con le ricompense inviate nelle chiamate all’API Ricompensa per eseguire il training del modello, che può avvenire in momenti diversi. Personalizza esperienze attende il punteggio di ricompensa per un periodo di tempo limitato e definito, a partire dal momento in cui si è verificata la chiamata all’API Classifica corrispondente. Questa operazione viene eseguita anche se la chiamata all’API Classifica è stata effettuata usando l'attivazione posticipata (concept-active-inactive-events.md).

Se il tempo di attesa per la ricompensa scade e non sono presenti informazioni sulla ricompensa, viene applicata una ricompensa predefinita a tale evento per il training. È possibile selezionare un tempo di attesa per la ricompensa di 10 minuti, 4 ore, 12 ore o 24 ore. Se lo scenario richiede tempi di attesa per la ricompensa più lunghi, ad esempio, per le campagne di posta elettronica di marketing, Microsoft offre un'anteprima privata per tempi di attesa più lunghi. Aprire un ticket di supporto nel portale di Azure per contattare il team Microsoft e verificare se si è idonei all’offerta.

Procedure consigliate per il tempo di attesa per la ricompensa

Seguire questi consigli per ottenere risultati ottimali.

  • Impostare il tempo di attesa per la ricompensa più breve possibile, lasciando un tempo sufficiente per ottenere il feedback degli utenti.

  • Non scegliere una durata inferiore al tempo necessario per ottenere il feedback. Se ad esempio alcune ricompense vengono fornite dopo che un utente ha guardato un video per un minuto, la durata dell'esperimento deve corrispondere almeno al doppio.

Passaggi successivi