Introduction
En matière de machine learning, les algorithmes sont utilisés pour entraîner des modèles qui prédisent des étiquettes inconnues pour les nouvelles données en fonction des corrélations entre les étiquettes connues et les fonctionnalités figurant dans les données de formation. Selon l’algorithme utilisé, vous devrez peut-être spécifier des hyperparamètres pour configurer la façon dont le modèle est formé. Par exemple, l’algorithme de régression logistique utilise un hyperparamètre de taux de régularisation pour contrecarrer le surajustement. Et les modèles de réseaux neuronaux convolutifs utilisent des hyperparamètres tels que le taux de formation pour contrôler la façon dont les pondérations sont ajustées lors de la formation.
Notes
Le machine learning est un champ universitaire avec sa propre terminologie particulière. Les scientifiques des données font référence aux valeurs déterminées à partir des caractéristiques d’entraînement en tant que paramètres. Un autre terme est donc nécessaire pour les valeurs qui permettent de configurer le comportement d’entraînement, mais qui ne sont pas dérivées des données d’entraînement. Il s’agit du terme hyperparamètre.
Les valeurs d’hyperparamètres que vous sélectionnez pour un algorithme donné peuvent avoir un effet significatif sur le modèle qu’il entraîne. Ainsi, le choix des valeurs d’hyperparamètres appropriées peut faire la différence entre un modèle qui prédit bien lorsqu’il est utilisé avec de nouvelles données et un modèle qui ne le fait pas.
Dans Azure Databricks, vous pouvez utiliser la bibliothèque Hyperopt pour automatiser le réglage des hyperparamètres ; le processus dans lequel vous entraînez et évaluez des modèles à plusieurs reprises à l’aide de différentes combinaisons d’hyperparamètres jusqu’à ce que vous trouviez les valeurs qui conviennent le mieux à vos données.