Compartir a través de


¿Qué es el aprendizaje de refuerzo?

Importante

A partir del 20 de septiembre de 2023, no podrá crear nuevos recursos de Personalizer. El servicio Personalizer se va a retirar el 1 de octubre de 2026.

El aprendizaje de refuerzo es un enfoque hacia el aprendizaje automático que aprende los comportamientos mediante la obtención de comentarios de su uso.

Así funciona el aprendizaje de refuerzo:

  • Proporciona una oportunidad o el grado de libertad necesarios para aplicar un comportamiento (como tomar decisiones o elegir entre distintas opciones).
  • Proporciona información contextual acerca del entorno y de las distintas opciones.
  • Proporciona comentarios acerca del grado hasta el que el comportamiento logra un objetivo específico.

Aunque hay muchos subtipos y estilos de aprendizaje reforzado, así es como funciona el concepto en Personalizer:

  • La aplicación permite mostrar una parte del contenido de una lista de alternativas.
  • La aplicación proporciona información acerca de cada alternativa y del contexto del usuario.
  • La aplicación calcula una puntuación de recompensa.

A diferencia de algunos enfoques hacia el aprendizaje de refuerzo, Personalizer no requiere una simulación para que funcione. Sus algoritmos de aprendizaje están diseñados para reaccionar ante el mundo exterior (en lugar de controlarlo) y aprender de cada punto de datos sabiendo que es una oportunidad única que cuesta tiempo y dinero crear, y que si se produce un rendimiento que no llega a ser óptimo, el lamento (pérdida de una posible recompensa) no es cero.

¿Qué tipo de algoritmos de aprendizaje de refuerzo usa Personalizer?

La versión actual de Personalizer usa bandidos contextuales, un enfoque hacia el aprendizaje de refuerzo enmarcado en torno a la toma de decisiones y la elección de opciones entre acciones discretas, en un contexto determinado.

La memoria de las decisiones, el modelo que se ha entrenado para capturar la mejor decisión posible, dado un contexto, usa un conjunto de modelos lineales. Estos han mostrado en repetidas ocasiones resultados empresariales y son un enfoque probado, en parte porque pueden aprender del mundo real muy rápidamente sin necesidad de entrenamiento en varias fases, y en parte porque pueden complementar tanto los modelos de aprendizaje supervisados como los modelos de red neuronal profunda.

La asignación de tráfico de exploración y mejor acción se realiza de forma aleatoria según el porcentaje establecido para la exploración, y el algoritmo predeterminado para la exploración es epsilon-greedy.

Historia de los bandidos contextuales

John Langford acuñó el nombre bandidos contextuales (Langford y Zhang [2007]) para describir un subconjunto manejable de aprendizaje de refuerzo y ha trabajado en media docena de documentos que nos permiten conocer mejor cómo aprender acerca de este paradigma:

  • Beygelzimer et al. [2011]
  • Dudík et al. [2011a, b]
  • Agarwal et al. [2014, 2012]
  • Beygelzimer y Langford [2009]
  • Li et al. [2010]

John también ha creado anteriormente varios acerca de temas como la predicción conjunta (ICML 2015), la teoría de los bandidos contextuales (NIPS 2013), el aprendizaje activo (ICML 2009) y los límites de complejidad de los ejemplos (ICML 2003)

¿Qué marcos de aprendizaje automático utiliza Personalizer?

Actualmente, Personalizer usa Vowpal Wabbit como base para el aprendizaje automático. Este marco permite el máximo rendimiento y la mínima latencia al realizar clasificaciones de personalización y entrenar el modelo con todos los eventos.

Referencias

Pasos siguientes

Evaluación sin conexión