Améliorer votre modèle de ML.NET
Découvrez comment améliorer votre modèle ML.NET.
Reframeiser le problème
Parfois, l’amélioration d’un modèle peut n’avoir rien à voir avec les données ou techniques utilisées pour entraîner le modèle. Au lieu de cela, il se peut que la mauvaise question soit posée. Examinez le problème sous différents angles et tirez parti des données pour extraire des indicateurs latents et des relations masquées afin d’affiner la question.
Fournir d’autres exemples de données
Comme dans le cas des êtres humains, plus les algorithmes sont entraînés, plus les performances sont susceptibles de s’améliorer. Une façon d’améliorer les performances du modèle consiste à fournir davantage d’exemples de données d’apprentissage aux algorithmes. Plus il apprend de données, plus il est en mesure d’identifier correctement les cas.
Ajouter un contexte aux données
La signification d’un point de données unique peut être difficile à interpréter. La création d’un contexte autour des points de données aide les algorithmes ainsi que les experts en matières concernées à prendre de meilleures décisions. Par exemple, le fait qu’une maison a trois chambres à coucher ne donnent pas une bonne indication de son prix. Toutefois, si vous ajoutez un contexte et que vous savez maintenant qu’il se trouve dans un quartier de banlieue en dehors d’une grande région métropolitaine où l’âge moyen est de 38 ans, le revenu moyen des ménages est de 80 000 $ et les écoles se trouvent dans le 20ème centile le plus élevé, alors l’algorithme a plus d’informations pour baser ses décisions. Tout ce contexte peut être ajouté en tant qu’entrée au modèle Machine Learning en tant que fonctionnalités.
Utiliser des données et des fonctionnalités significatives
Bien que d’autres exemples de données et fonctionnalités puissent améliorer la précision du modèle, ils peuvent également introduire du bruit, car toutes les données et fonctionnalités ne sont pas significatives. Par conséquent, il est important de comprendre quelles fonctionnalités sont celles qui ont le plus d’impact sur les décisions prises par l’algorithme. L’utilisation de techniques telles que Permutation Feature Importance (PFI) permet d’identifier ces fonctionnalités importantes et non seulement d’expliquer le modèle, mais également d’utiliser la sortie comme méthode de sélection de caractéristiques pour réduire la quantité de fonctionnalités bruyantes entrant dans le processus d’entraînement.
Pour plus d'informations sur l'utilisation de l'IFP, voir Expliquer les prédictions du modèle à l'aide de l'importance des fonctionnalités de permutation.
Validation croisée
La validation croisée est une technique d’apprentissage et d’évaluation de modèle qui fractionne les données en plusieurs partitions et entraîne plusieurs algorithmes sur ces partitions. Cette technique améliore la robustesse du modèle en conservant les données du processus d’entraînement. En plus d’améliorer les performances sur les observations invisibles, dans les environnements limités par les données, il peut s’agir d’un outil efficace pour les modèles d’apprentissage avec un jeu de données plus petit.
Consultez le lien suivant pour découvrir comment utiliser la validation croisée dans ML.NET
Réglage des hyperparamètres
L’apprentissage de modèles Machine Learning est un processus itératif et exploratoire. Par exemple, quel est le nombre optimal de clusters lors de l’entraînement d’un modèle à l’aide de l’algorithme K-Moyennes ? La réponse dépend de nombreux facteurs tels que la structure des données. La recherche de ce nombre nécessite l’expérimentation de valeurs différentes pour k, puis l’évaluation des performances pour déterminer la valeur la mieux adaptée. La pratique de réglage des paramètres qui guident le processus d’entraînement pour trouver un modèle optimal est appelée réglage des hyperparamètres.
Choisir un autre algorithme
Les tâches d’apprentissage automatique telles que la régression et la classification contiennent diverses implémentations d’algorithmes. Il peut s’agir du problème que vous essayez de résoudre et que la façon dont vos données sont structurées ne s’intègre pas correctement à l’algorithme actuel. Dans ce cas, envisagez d’utiliser un autre algorithme pour votre tâche pour voir si elle apprend mieux à partir de vos données.
Le lien suivant fournit plus de conseils sur l’algorithme à choisir.