Partager via


Modules de sélection de caractéristiques

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

cet article décrit les modules de Machine Learning Studio (classic) que vous pouvez utiliser pour la sélection des fonctionnalités.

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

La sélection des fonctionnalités est un outil important dans Machine Learning. Machine Learning Studio (classic) fournit plusieurs méthodes pour effectuer la sélection des fonctionnalités. Choisissez une méthode de sélection des fonctionnalités en fonction du type de données dont vous disposez et des exigences de la technique statistique appliquée.

Cet article couvre les points suivants :

chaque module de sélection de fonctionnalités dans Machine Learning Studio (classic) utilise un jeu de données comme entrée. Ensuite, le module applique des méthodes statistiques bien connues aux colonnes de données fournies comme entrée. La sortie est un ensemble de mesures qui peuvent vous aider à identifier les colonnes qui ont la meilleure valeur d’information.

À propos de la sélection des fonctionnalités

Dans Machine Learning et les statistiques, la sélection des fonctionnalités est le processus de sélection d’un sous-ensemble de fonctionnalités pertinentes et utiles à utiliser dans la création d’un modèle analytique. La sélection des fonctionnalités permet de limiter le champ des données aux entrées les plus précieuses. La réduction du champ de données permet de réduire le bruit et d’améliorer les performances de formation.

Souvent, les fonctionnalités sont créées à partir de données brutes via un processus d’ingénierie de caractéristiques. Par exemple, un horodatage en lui-même peut ne pas être utile pour la modélisation jusqu’à ce que les informations soient transformées en unités de jours, mois ou catégories qui sont pertinentes pour le problème, telles que les vacances et les jours ouvrés.

Les nouveaux utilisateurs de Machine Learning peuvent être tentés d’inclure toutes les données disponibles. Ils peuvent s’attendre à ce que l’algorithme trouve un aspect intéressant en utilisant plus de données. Toutefois, la sélection des fonctionnalités peut généralement améliorer votre modèle et empêcher les problèmes courants :

  • Les données contiennent des fonctionnalités redondantes ou non pertinentes, qui ne fournissent pas d’informations supplémentaires par rapport aux fonctionnalités actuellement sélectionnées.
  • Les données contiennent des fonctionnalités non pertinentes qui ne fournissent pas d’informations utiles dans aucun contexte. L’inclusion de champs non pertinents augmente non seulement le temps nécessaire à l’apprentissage des données, mais peut également entraîner des résultats médiocres.
  • Avec certains algorithmes, l’utilisation d’informations en double dans les données d’apprentissage peut entraîner un phénomène appelé multicollinéarité. Dans multicollinéarité, la présence de deux variables fortement corrélées peut rendre les calculs pour les autres variables beaucoup moins précis.

Conseil

certains algorithmes de Machine Learning dans Machine Learning Studio (classic) utilisent également la sélection des fonctionnalités ou la réduction de la dimensionnalité dans le cadre du processus d’apprentissage. Lorsque vous les utilisez, vous pouvez ignorer le processus de sélection des fonctionnalités et laisser l'algorithme déterminer les meilleures entrées.

Utiliser la sélection des fonctionnalités dans une expérience

La sélection des fonctionnalités est généralement effectuée lorsque vous explorez des données et que vous développez un nouveau modèle. Gardez ces conseils à l’esprit lorsque vous utilisez la sélection des fonctionnalités :

  • Lors du test, ajoutez la sélection des fonctionnalités à votre expérience afin de générer des scores qui informent votre décision sur les colonnes à utiliser.
  • Supprimez la sélection de fonctionnalités de l’expérience lorsque vous exploitez un modèle.
  • Exécutez régulièrement la sélection des fonctionnalités pour vous assurer que les données et les meilleures fonctionnalités n’ont pas changé.

La sélection des fonctionnalités est différente de l’ingénierie des fonctionnalités, qui se concentre sur la création de nouvelles fonctionnalités à partir des données existantes.

Ressources

méthodes de sélection des fonctionnalités dans Machine Learning Studio (classic)

les modules de sélection de fonctionnalités suivants sont fournis dans Machine Learning Studio (classic).

Sélection de caractéristiques par filtrage

Lorsque vous utilisez le module de sélection de fonctionnalités basée sur les filtres , vous pouvez choisir parmi les méthodes de sélection de fonctionnalités connues. Le module génère les statistiques de sélection de fonctionnalités et le DataSet filtré.

Votre choix d'une méthode de sélection par filtrage dépend en partie du type de vos données d'entrée.

Méthode Entrées de fonctionnalités prises en charge Étiquettes prises en charge
Corrélation de Pearson Uniquement les colonnes numériques et logiques Une colonne numérique ou logique unique
Score de l'information mutuelle Tous les types de données Une seule colonne d'un type de données quelconque
Coefficient de corrélation de Kendall Uniquement les colonnes numériques et logiques Une colonne numérique ou logique unique

Les colonnes doivent avoir des valeurs qui peuvent être classées
Coefficient de corrélation de Spearman Uniquement les colonnes numériques et logiques Une colonne numérique ou logique unique
Statistique du khi-carré Tous les types de données Une seule colonne d'un type de données quelconque
Score de Fisher Uniquement les colonnes numériques et logiques Une colonne numérique ou logique unique

Un score de 0 est affecté aux colonnes de chaîne
Sélection de la fonctionnalité Basé sur un nombre Tous les types de données Une colonne d'étiquette n'est pas indispensable

Analyse discriminante linéaire de Fisher

L’analyse discriminante linéaire est une technique d’apprentissage supervisé que vous pouvez utiliser pour classer des variables numériques conjointement avec une seule cible catégorique. La méthode est utile pour la sélection des fonctionnalités, car elle identifie la combinaison de fonctionnalités ou de paramètres qui sépare le mieux les groupes.

Vous pouvez utiliser le module d' analyse discriminante linéaire de Fisher pour générer un ensemble de scores à des fins de révision, ou vous pouvez utiliser le jeu de données de remplacement généré par le module pour l’apprentissage.

Importance de la fonctionnalité de permutation

Utilisez le module permutation Feature importance pour simuler l’effet d’un ensemble de fonctionnalités sur votre jeu de données. Le module calcule les scores de performances d’un modèle en fonction de la permutation aléatoire des valeurs de fonctionnalités.

Les scores retournées par le module représentent la modification potentielle de la précision d’un modèle formé si les valeurs changent. Vous pouvez utiliser les scores pour déterminer l’effet de variables individuelles sur le modèle.

Algorithmes d’apprentissage automatique qui incorporent la sélection des fonctionnalités

certains algorithmes de Machine Learning dans Machine Learning Studio (classic) optimisent la sélection des fonctionnalités au cours de l’apprentissage. Ils peuvent également fournir des paramètres qui aident à la sélection des fonctionnalités. Si vous utilisez une méthode qui a sa propre heuristique pour choisir des fonctionnalités, il est souvent préférable de s’appuyer sur cette heuristique au lieu de présélectionner des fonctionnalités.

Ces algorithmes et méthodes de sélection des fonctionnalités sont utilisés en interne :

  • Modèles d’arbre de décision optimisés pour la classification et la régression

    Dans ces modules, une synthèse des fonctionnalités est créée en interne. Les fonctionnalités qui ont un poids de 0 ne sont pas utilisées par les fractionnements d’arborescence. Lorsque vous visualisez le meilleur modèle formé, vous pouvez examiner chacune des arborescences. Si une fonctionnalité n’est jamais utilisée dans une arborescence, la fonctionnalité est probablement un candidat pour la suppression. Pour optimiser la sélection, il est également judicieux d’utiliser le balayage des paramètres.

  • Modèles de régression logistique et modèles linéaires

    Les modules pour la régression logistique multiclasse et binaire prennent en charge les régularisation L1 et L2. Régularisation est un moyen d’ajouter des contraintes au cours de l’apprentissage pour spécifier manuellement un aspect du modèle appris. Régularisation est généralement utilisé pour éviter le surajustement. Machine Learning Studio (classic) prend en charge régularisation pour les normes L1 ou L2 du vecteur de poids dans les algorithmes de classification linéaire :

    • L1 régularisation est utile si l’objectif est de disposer d’un modèle aussi fragmenté que possible.
    • La régularisation L2 empêche que les coordonnées uniques du vecteur de poids ne croissent trop en grandeur. Il est utile si l’objectif est de disposer d’un modèle avec de petits poids globaux.
    • La régression logistique basée sur L1 est plus agressive en ce qui concerne l’affectation d’un poids de 0 aux fonctionnalités. Il est utile pour identifier les fonctionnalités qui peuvent être supprimées.

Notes techniques

Tous les modules de sélection de fonctionnalités et les méthodes analytiques qui prennent en charge les colonnes numériques et logiques prennent également en charge les colonnes date-heure et TimeSpan. Ces colonnes sont traitées comme des colonnes numériques simples dans lesquelles chaque valeur est égale au nombre de graduations.

Les modules suivants ne sont pas dans la catégorie sélection de fonctionnalités , mais vous pouvez les utiliser pour les tâches associées. Les modules peuvent vous aider à réduire la dimensionnalité de vos données ou à rechercher des corrélations :

Si vous avez un DataSet qui contient de nombreuses colonnes, utilisez le module d' analyse du composant principal pour détecter les colonnes qui contiennent le plus d’informations sur les données d’origine.

Ce module se trouve dans la catégorie transformation de données , sous mettre à l' échelle et réduire.

Caractérisation basée sur le nombre est une nouvelle technique que vous pouvez utiliser pour déterminer des fonctionnalités utiles à l’aide de jeux de données volumineux. Utilisez ces modules pour analyser les jeux de données afin de trouver les meilleures fonctionnalités, d’enregistrer un ensemble de fonctionnalités à utiliser avec les nouvelles données ou de mettre à jour un ensemble de fonctionnalités existant.

Utilisez ce module pour calculer un ensemble de coefficients de corrélation de Pearson pour chaque paire possible de variables dans le jeu de données d’entrée. Le coefficient de corrélation de Pearson, également appelé test R de Pearson, est une valeur statistique qui mesure la relation linéaire entre deux variables.

Ce module se trouve dans la catégorie des fonctions statistiques .

Liste des modules

La catégorie sélection de fonctionnalités comprend les modules suivants :

Voir aussi