Partilhar via


Características e limitações do Personalizador

Importante

A partir de 20 de setembro de 2023, você não poderá criar novos recursos do Personalizador. O serviço de Personalizador será aposentado no dia 1º de outubro de 2026.

O Azure AI Personalizer pode funcionar em muitos cenários. Para entender onde você pode aplicar o Personalizador, certifique-se de que os requisitos do seu cenário atendam às expectativas para que o Personalizador funcione. Para entender se o Personalizer deve ser usado e como integrá-lo em seus aplicativos, consulte Casos de uso do Personalizer. Você encontrará critérios e orientações sobre como escolher casos de uso, projetar recursos e recompensar funções para seus usos do Personalizador.

Antes de ler este artigo, é útil entender algumas informações básicas sobre como o Personalizer funciona.

Selecionar recursos para o Personalizador

A personalização do conteúdo depende de ter informações úteis sobre o conteúdo e o usuário. Para algumas aplicações e indústrias, algumas funcionalidades do utilizador podem ser direta ou indiretamente consideradas discriminatórias e potencialmente ilegais. Consulte as diretrizes de integração e uso responsável do Personalizer sobre como avaliar os recursos a serem usados com o Personalizer.

Recompensas de computação para o Personalizer

O Personalizer aprende a melhorar as escolhas de ação com base na pontuação de recompensa fornecida pela lógica de negócios do seu aplicativo. Uma pontuação de recompensa bem construída funcionará como um proxy de curto prazo para uma meta de negócios que está ligada à missão de uma organização. Por exemplo, recompensar os cliques fará com que o Personalizador busque cliques às custas de todo o resto, mesmo que o que é clicado esteja distraído para o usuário ou não esteja vinculado a um resultado comercial. Por outro lado, um site de notícias pode querer definir recompensas vinculadas a algo mais significativo do que cliques, como "O usuário gastou tempo suficiente para ler o conteúdo?" ou "O usuário clicou em artigos ou referências relevantes?" Com o Personalizador, é fácil associar as métricas às recompensas. No entanto, você precisará ter cuidado para não confundir o envolvimento do usuário a curto prazo com os resultados desejados.

Consequências não intencionais das pontuações de recompensa

Mesmo se construídas com as melhores intenções, as pontuações de recompensa podem criar consequências inesperadas ou resultados não intencionais devido à forma como o Personalizer classifica o conteúdo.

Considere os seguintes exemplos:

  • Recompensar a personalização do conteúdo de vídeo na porcentagem da duração do vídeo assistido provavelmente tenderá a classificar vídeos mais curtos do que vídeos mais longos.
  • Recompensar compartilhamentos de mídia social, sem análise de sentimento de como é compartilhado ou do conteúdo em si, pode levar à classificação de conteúdo ofensivo, não moderado ou inflamatório. Esse tipo de conteúdo tende a incitar muito engajamento, mas muitas vezes é prejudicial.
  • Recompensar a ação em elementos da interface do usuário que os usuários não esperam alterar pode interferir na usabilidade e previsibilidade da interface do usuário. Por exemplo, botões que mudam de local ou finalidade sem aviso prévio podem dificultar a produtividade de certos grupos de usuários.

Implemente estas práticas recomendadas:

  • Execute experiências offline com o seu sistema utilizando diferentes abordagens de recompensa para compreender o impacto e os efeitos secundários.
  • Avalie suas funções de recompensa e pergunte-se como uma pessoa ingênua pode alterar sua interpretação, o que pode resultar em resultados não intencionais ou indesejáveis.
  • Arquive informações e ativos, como modelos, políticas de aprendizagem e outros dados, que o Personalizer usa para funcionar, para que os resultados possam ser reproduzíveis.

Orientações gerais para compreender e melhorar o desempenho

Como o Personalizer é baseado na Aprendizagem por Reforço e aprende com recompensas para fazer melhores escolhas ao longo do tempo, o desempenho não é medido em termos tradicionais de aprendizagem supervisionada usados em classificadores, como precisão e recordação. O desempenho do Personalizer é medido diretamente como a soma das pontuações de recompensa que ele recebe do seu aplicativo por meio da API de recompensa.

Quando você usa o Personalizador, a interface do usuário do produto no portal do Azure fornece informações de desempenho para que você possa monitorar e agir de acordo com isso. O desempenho pode ser visto das seguintes maneiras:

  • Se o Personalizador estiver no modo de Aprendizagem Online, você poderá realizar avaliações offline.
  • Se o Personalizador estiver no modo Aprendiz, você poderá ver as métricas de desempenho (eventos imitados e recompensas imitadas) no painel Avaliação no portal do Azure.

Recomendamos que você realize avaliações off-line frequentes para manter a supervisão. Esta tarefa irá ajudá-lo a monitorizar tendências e garantir a eficácia. Por exemplo, você pode decidir colocar temporariamente o Personalizador no Modo Aprendiz se o desempenho da recompensa tiver uma queda.

Estimativas de desempenho do personalizador mostradas em Avaliações offline: limitações

Definimos o "desempenho" do Personalizador como o total de recompensas que obtém durante a utilização. As estimativas de desempenho do personalizador mostradas em Avaliações Offline são calculadas em vez de medidas. É importante compreender as limitações destas estimativas:

  • As estimativas baseiam-se em dados passados, pelo que o desempenho futuro pode variar à medida que o mundo e os seus utilizadores mudam.
  • As estimativas para o desempenho inicial são calculadas probabilisticamente. Por esta razão, a banda de confiança para a recompensa média de base é importante. A estimativa ficará mais precisa com mais eventos. Se você usar um número menor de ações em cada chamada de classificação, a estimativa de desempenho pode aumentar em confiança, pois há uma maior probabilidade de que o Personalizador possa escolher qualquer uma delas (incluindo a ação de linha de base) para cada evento.
  • O Personalizer treina constantemente um modelo quase em tempo real para melhorar as ações escolhidas para cada evento e, como resultado, afetará o total de recompensas obtidas. O desempenho do modelo irá variar ao longo do tempo, dependendo dos dados de treinamento anteriores recentes.
  • A exploração e a escolha da ação são processos estocásticos guiados pelo modelo do Personalizador. Os números aleatórios usados para esses processos estocásticos são semeados a partir do ID do evento. Para garantir a reprodutibilidade de exploit-exploit e outros processos estocásticos, use o mesmo Event Id.
  • O desempenho online pode ser limitado pela exploração. A redução das configurações de exploração limitará a quantidade de informações coletadas para acompanhar as tendências e os padrões de uso em mudança, portanto, o equilíbrio depende de cada caso de uso. Alguns casos de uso merecem começar com configurações de exploração mais altas e reduzi-las ao longo do tempo (por exemplo, começar com 30% e reduzir para 10%).

Verifique os modelos existentes que podem enviesar acidentalmente o Personalizador

As recomendações existentes, a segmentação de clientes e as saídas do modelo de propensão podem ser usadas pelo seu aplicativo como entradas para o Personalizer. O personalizador aprende a desconsiderar recursos que não contribuem para recompensas. Analise e avalie quaisquer modelos de propensão para determinar se eles são bons em prever recompensas e contêm fortes vieses que podem gerar danos como efeito colateral. Por exemplo, procure recomendações que possam basear-se em estereótipos prejudiciais. Considere o uso de ferramentas como o FairLearn para facilitar o processo.

Avaliações proativas durante o ciclo de vida do projeto

Considere a criação de métodos para que membros da equipe, usuários e proprietários de empresas relatem preocupações relacionadas ao uso responsável e a um processo que priorize sua resolução. Considere tratar tarefas para uso responsável como outras tarefas transversais no ciclo de vida do aplicativo, como tarefas relacionadas à experiência do usuário, segurança ou DevOps. Tarefas relacionadas ao uso responsável e seus requisitos não devem ser subestimadas. O uso responsável deve ser discutido e implementado durante todo o ciclo de vida do aplicativo.

Próximos passos