Découvrir de nouveaux modèles de régression
Dans l’unité 2, nous avons examiné l’ajustement d’une ligne droite à des points de données. Toutefois, la régression peut s’adapter à plusieurs types de relations, y compris celles avec plusieurs facteurs et celles où l’importance d’un facteur dépend d’un autre.
Expérimentation des modèles
Les modèles de régression sont souvent choisis car ils fonctionnent avec de petits exemples de données, ils sont robustes, ils sont faciles à interpréter et il en existe une variété.
La régression linéaire est la forme de régression la plus simple, sans limite du nombre de caractéristiques utilisées. La régression linéaire revêt de nombreuses formes, souvent nommées d’après le nombre de caractéristiques utilisées et la forme de la courbe en adéquation.
Les arbres de décision ont une approche pas à pas de la prédiction d’une variable. Si nous pensons à notre exemple de vélos, l’arbre de décision peut d’abord diviser les exemples entre ceux qui se produisent au printemps/été et en automne/hiver, puis faire une prédiction en fonction du jour de la semaine. Printemps/été-lundi peut avoir un nombre de locations de vélo de 100 par jour, tandis qu’il peut descendre à 20 par jour pour automne/hiver-lundi.
Les algorithmes d’ensembles ne construisent pas seulement un arbre de décision, mais un grand nombre d’arbres, ce qui permet de meilleures prédictions sur des données plus complexes. Les algorithmes d’ensembles, comme les forêts aléatoires, sont largement utilisés dans le Machine Learning et la science des données en raison de leurs puissantes capacités de prédiction.
Les scientifiques des données font souvent des expériences en utilisant différents modèles. Dans l’exercice suivant, nous allons faire des expériences avec différents types de modèles pour comparer comment ils se comportent sur les mêmes données.