Créer des modèles de classification multiclasse

Effectué

Il est également possible de créer des modèles de classification multiclasse, dans lesquels il existe plus de deux classes possibles. Par exemple, la clinique peut développer le modèle sur le diabète pour classifier les patients comme suit :

  • Non-diabétique
  • Diabétique type-1
  • Diabétique type-2

Les valeurs de probabilité des classes individuelles donnent toujours un total de 1, car le patient ne fait partie que de l’une des trois classes, et la classe la plus probable est prédite par le modèle.

Utilisation de modèles de classification multiclasse

La classification multiclasse peut être considérée comme une combinaison de plusieurs classifieurs binaires. Vous pouvez aborder le problème de deux manières :

  • Un contre le reste (OVR), dans lequel un classifieur est créé pour chaque valeur de classe possible, avec un résultat positif pour les cas où la prédiction est cette classe, et des prédictions négatives pour les cas où la prédiction est toute autre classe. Par exemple, un problème de classification avec quatre classes de formes possibles (carré, cercle, triangle, hexagone) nécessite quatre classifieurs qui prédisent :
    • carré ou non
    • cercle ou non
    • triangle ou non
    • hexagone ou non
  • Un contre un (OVO), dans lequel un classifieur est créé pour chaque paire de classes possible. Le problème de classification avec quatre classes de forme nécessiterait les classifieurs binaires suivants :
    • carré ou cercle
    • carré ou triangle
    • carré ou hexagone
    • cercle ou triangle
    • cercle ou hexagone
    • triangle ou hexagone

Dans les deux approches, le modèle global doit tenir compte de toutes ces prédictions pour déterminer la seule catégorie à laquelle l’élément appartient.

Heureusement, dans la plupart des frameworks de machine learning, notamment scikit-learn, l’implémentation d’un modèle de classification multiclasse n’est pas beaucoup plus complexe qu’une classification binaire, et dans la plupart des cas, les outils d’estimation utilisés pour la classification binaire prennent implicitement en charge la classification multiclasse en abstrayant un algorithme OVR, un algorithme OVO ou en permettant le choix entre les deux.