Définir le problème
En commençant par la première étape, vous souhaitez définir le problème que le modèle doit résoudre, en identifiant :
- Quelle doit être la sortie du modèle.
- Le type de tâche de Machine Learning que vous utilisez.
- Les critères qui font le succès d’un modèle.
En fonction des données dont vous disposez et de la sortie attendue du modèle, vous pouvez identifier la tâche Machine Learning. La tâche détermine les types d’algorithmes que vous pouvez utiliser pour entraîner le modèle.
Voici quelques-unes des tâches courantes de Machine Learning :
- Classification : prédire une valeur catégorique.
- Régression : prédire une valeur numérique.
- Prévision de séries chronologique : prédire des valeurs numériques futures en fonction de données de la série chronologique.
- Vision par ordinateur : classifier des images ou détecter des objets dans des images.
- Traitement en langage naturel (NLP) : extraire des aperçus du texte.
Pour effectuer l’apprentissage d’un modèle, vous disposez d’un ensemble d’algorithmes que vous pouvez utiliser, en fonction de la tâche que vous souhaitez effectuer. Pour évaluer le modèle, vous pouvez calculer des mesures de niveau de performance telles que l’exactitude ou la précision. Les mesures disponibles dépendent également de la tâche que votre modèle doit effectuer et vous aident à décider si un modèle réussit dans sa tâche.
Explorer un exemple
Envisagez un scénario dans lequel vous souhaitez déterminer si des patients souffrent de diabète. Le problème que vous essayez de résoudre et le type de données disponibles déterminent la tâche de Machine Learning que vous choisissez. Dans ce cas, les données disponibles sont d’autres points de données relatifs à la santé des patients. Nous pouvons représenter la sortie que nous voulons en tant qu’information catégorique : le patient souffre de diabète ou ne souffre pas de diabète. La tâche de Machine Learning est donc une tâche de classification.
Comprendre l’ensemble du processus avant de commencer vous donne la possibilité de définir les décisions que vous devez prendre pour concevoir une solution de Machine Learning fonctionnelle. Voici un diagramme montrant une façon d’aborder le problème de l’identification du diabète chez un patient. Dans le diagramme, les données sont prétraitées, fractionnées et entraînées à l’aide d’algorithmes spécifiques. Ensuite, le modèle est évalué pour sa qualité.
- Charger les données : Importez et inspectez le jeu de données.
- Prétraiter les données : Normalisez et nettoyez les données pour la cohérence.
- Fractionner les données : Séparez les données en jeux de données d’entraînement et de test.
- Choisir le modèle : Sélectionnez et configurez un algorithme.
- Entraîner le modèle : Découvrez des motifs à partir des données d’entraînement.
- Noter le modèle : Générez des prédictions à partir des données de test.
- Évaluer : Calculez les indicateurs de performance.
L’entraînement d’un modèle de Machine Learning est souvent un processus itératif où vous devez effectuer chacune de ces étapes plusieurs fois pour trouver le modèle le plus performant.