Nuances des jeux de test

Effectué

Les jeux de test sont considérés comme les meilleures pratiques pour la plupart des aspects du Machine Learning. Cependant, le domaine reste relativement récent. Les modalités précises d’utilisation font donc souvent l’objet de discussions. Passons en revue quelques éléments à prendre en compte.

Les jeux de test peuvent être trompeurs

Bien que les jeux de test soient utiles pour identifier le surapprentissage, ils peuvent nous rendre trop confiants. Plus précisément, ils n’ont d’utilité que s’ils reflètent les données attendues dans le monde réel. Notre jeu de test, par exemple, est très petit et ne sera pas représentatif de la diversité des données possibles dans la vraie vie. Par ailleurs, la qualité du jeu de données de test dépend de celle de sa source. S’il provient d’une source biaisée, les métriques ne refléteront pas la manière dont les choses se comportent en réalité.

Supposons, par exemple, que nous essayions de trouver la relation entre le nombre de sauvetages et l’âge du chien au début du dressage. Si le jeu de test ne comprend que trois chiens, il est possible que ceux-ci ne constituent pas une bonne représentation de la grande variété de chiens de travail que l’on trouve dans le monde réel. Imaginez également que nous ayons obtenu notre jeu de test auprès d’un seul éleveur, qui ne sait pas travailler avec les chiots. Notre modèle risque de prédire que les chiens les plus adaptés au dressage sont les chiens plus âgés, ce que notre jeu de données de test confirmerait. En réalité, d’autres dresseurs pourraient remporter un franc succès avec de jeunes animaux.

Les jeux de test ne sont pas gratuits

Nous avons déjà vu qu’un volume de données de formation élevé diminue le risque de surajustement du modèle. De même, plus les jeux de test sont grands, plus les résultats de test apparaissent fiables. Les données utilisées sont toutefois en quantité finie et un point de données ne peut pas se trouver à la fois dans le jeu de formation et dans le jeu de test. Des jeux de test plus volumineux signifient donc des jeux de données d’apprentissage plus petits, et vice versa. La quantité exacte de données qui doivent être sacrifiées pour apparaître dans le jeu de données de test dépend de circonstances individuelles. Cette proportion se situe assez couramment entre 10 et 50 %, en fonction du volume de données disponibles.

Les autres approches possibles

Il est utile de garder à l’esprit que, si l’approche formation/test est courante, ce n’est pas la seule qui soit largement utilisée. Deux des alternatives, comme les méthodes d’approche par données d’exclusion et d’approche statistique font partie des plus répandues.

L’approche par exclusion

L’approche par données d’exclusion est semblable à la méthode par formation/test. Au lieu de fractionner le jeu de données en deux cependant, elle le divise en trois : formation, test (également appelé validation) et données d’exclusion. Les jeux de données de formation et de test sont tels que nous les avons décrits. Le jeu de données d’exclusion est un type de jeu de test utilisé une seule fois, juste avant de déployer le modèle pour une utilisation réelle. En d’autres termes, il ne sert pas tant que l’expérimentation des différents types de régimes de formation, de modèles, etc. n’est pas terminée.

Cette approche répond au fait que l’on effectue généralement des expériences avec différents modèles et régimes d’apprentissage. Par exemple, si, après avoir ajusté un modèle, vous concluez qu’il ne fonctionne pas correctement avec le jeu de données de test, vous modifiez certains aspects du modèle en cours de formation, puis réessayez jusqu’à obtenir un bon résultat. Vous avez donc volontairement modifié votre modèle pour l’adapter à un ensemble de données particulier, comme le fait l’apprentissage normal avec le jeu de données d’apprentissage. Cette façon de procéder risque d’aboutir à un surapprentissage du modèle, qui de ce fait ne fonctionne pas sur le jeu de données de test.

L’idée d’un troisième jeu de données vise à tester ce point également. Cette approche consiste à fractionner les données en trois, et donc à commencer avec encore moins de données d’apprentissage. Si nous disposons de peu de données, elle peut réduire notre capacité à obtenir un bon modèle.

Les approches statistiques

La plupart des modèles simples qui proviennent des statistiques n’ont pas besoin de jeux de données de test. Nous pouvons plutôt calculer le degré de surajustement du modèle directement comme une signification statistique : la valeur p.

Ces méthodes statistiques, puissantes et bien établies, constituent la base de la science moderne. L’avantage est qu’il n’est jamais nécessaire de fractionner le jeu d’apprentissage et que nous savons bien plus précisément dans quelle mesure nous pouvons faire confiance à un modèle. Par exemple, une valeur p de 0,01 signifie qu’il y a une très faible probabilité que le modèle ait trouvé une relation qui n’existe pas dans le monde réel. En revanche, une valeur p de 0,5 signifie que, même si le modèle peut paraître parfait avec les données de formation, il n’a pas plus de pertinence qu’un tir à pile ou face dans la vraie vie.

L’inconvénient de ces approches est qu’elles ne sont facilement applicables qu’à certains types de modèles, comme les modèles de régression linéaire que nous avons mis en pratique. Pour tous les modèles, à l’exception des plus simples, ces calculs peuvent se révéler extrêmement complexes pour fonctionner correctement. Ils sont donc hors de portée dans le cours actuel. Ils subissent également la même limitation en matière de sélection des données. Si les données de formation sont biaisées, les valeurs p seront trompeuses.