Compartilhar via


Exploração

Importante

A partir de 20 de setembro de 2023, não será mais possível criar novos recursos do Personalizador. O serviço Personalizador está sendo desativado no dia 1º de outubro de 2026.

Com a exploração, o Personalizador é capaz de fornecer bons resultados continuamente, mesmo que haja alterações no comportamento do usuário.

Quando o Personalizador recebe uma chamada de classificação, ele retorna um RewardActionID que:

  • Usa a relevância conhecida para fazer a correspondência com o comportamento mais provável do usuário com base no modelo de machine learning atual.
  • Usa a exploration, que não faz a correspondência com a ação que tem a probabilidade mais alta na classificação.

Atualmente, o Personalizador usa um algoritmo chamado epsilon greedy para explorar.

Como escolher a configuração de exploração

Configure a porcentagem de tráfego a ser usada para a exploração na página Configuração do portal do Azure no Personalizador. Essa configuração determina a porcentagem de chamadas de classificação que realizam exploração.

O personalizador determina se deve explorar ou usar a ação mais provável do modelo em cada chamada de classificação. Isso é diferente do comportamento de algumas estruturas A/B que bloqueiam um tratamento em IDs de usuário específicas.

Melhores práticas para escolher a configuração de exploração

Escolher uma configuração de exploração é uma decisão de negócios sobre a proporção de interações do usuário com a qual explorar, a fim de melhorar o modelo.

Uma configuração zero anula muitos dos benefícios do Personalizador. Com essa configuração, o Personalizador não usa nenhuma interação do usuário para descobrir as melhores interações. Isso leva à estagnação do modelo, descompasso e, por fim, menor desempenho.

Uma configuração muito alta anula os benefícios de aprendizado do comportamento do usuário. Defini-la como 100% implica uma aleatoriedade constante, e qualquer comportamento aprendido com os usuários não influenciaria o resultado.

É importante não alterar o comportamento do aplicativo com base no fato de o Personalizador estar explorando ou usando a melhor ação aprendida. Isso levaria a desvios de aprendizado que acabariam diminuindo o desempenho potencial.

Próximas etapas

Aprendizado de reforço