Calculer une corrélation linéaire
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
Calcule la corrélation linéaire entre des valeurs de colonne dans un jeu de données
Catégorie : Fonctions statistiques
Notes
S’applique à : Machine Learning Studio (classique) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
Vue d’ensemble du module
Cet article explique comment utiliser le module De corrélation linéaire de calcul dans Machine Learning Studio (classique), pour calculer un ensemble de coefficients de corrélation Pearson pour chaque paire possible de variables dans le jeu de données d’entrée.
Le coefficient de corrélation Pearson, parfois appelé test R de Pearson, est une valeur statistique qui mesure la relation linéaire entre deux variables. En examinant les valeurs de coefficient, vous pouvez déduire quelque chose sur la force de la relation entre les deux variables et s’ils sont corrélés positivement ou négativement corrélés.
Guide pratique pour configurer la corrélation linéaire
Avant de calculer le coefficient de corrélation, il existe certaines conditions préalables, telles que le nettoyage de vos données et la vérification que la relation entre les variables est appropriée pour ce module. Vous devez également supprimer ou imputer des valeurs manquantes.
Les restrictions suivantes s’appliquent lors de l’utilisation de ce module :
Le module De corrélation linéaire de calcul peut traiter uniquement les valeurs numériques. Tous les autres types de valeurs, y compris les valeurs manquantes, les valeurs non numériques et les valeurs catégorielles, sont traités comme des valeurs non numériques (NaN).
Une corrélation de Pearson est calculée pour toutes les colonnes numériques du jeu de données qui sont transmises en tant qu'entrée. Veillez à exclure les colonnes appropriées pour cette analyse.
La corrélation linéaire de calcul ne peut pas être utilisée avec des données qui ont des valeurs manquantes.
Étape 1 : Déterminer la linéarité
Si les colonnes que vous testez ne sont pas censées avoir une relation linéaire, il n’y a aucun point dans la génération de ce coefficient. Il est donc judicieux de tester d’abord les colonnes, de voir s’ils ont le bon type de données et le bon type de distribution en général.
Il existe différentes façons de déterminer si la relation entre les colonnes est à peu près linéaire :
Créez un nuage de points des variables dans Studio (classique) à l’aide de l’option Visualiser sur le jeu de données. Cliquez sur l’une des colonnes de variable numérique, développez les visualisations, puis cliquez sur comparer. Sélectionnez une variable différente et un nuage de points est généré automatiquement. Si un autre type de tracé est généré, il signifie qu’au moins une colonne a un type de données différent (non numérique).
Calculez une équation de régression pour les deux variables. Il existe de nombreux packages R qui prennent en charge cela, que vous pouvez charger et utiliser dans le module Execute R Script .
Étape 2 : Nettoyer les données
Vous devez supprimer ou remplir des valeurs manquantes, supprimer ou clipper des valeurs hors norme et vérifier que les colonnes ont le type de données approprié.
Veillez à vérifier les espaces réservés et à remplacer cette valeur par d’autres valeurs appropriées avant d’utiliser ce module. Si des naNs ont été insérés pour des valeurs manquantes lorsque le jeu de données a été chargé à partir de la source, cela peut entraîner une erreur. Les valeurs d’espace réservé telles que 999
ou -1
peuvent également entraîner des résultats incorrects.
Pour préparer vos données, vous pouvez utiliser ces modules :
Vous pouvez ajuster le type de données des colonnes à l’aide de Modifier les métadonnées. Assurez-vous que les colonnes que vous souhaitez analyser sont marquées comme colonnes de caractéristiques.
Étape 3 : Générer le coefficient
Ajoutez le module De corrélation linéaire de calcul à votre expérience. Vous trouverez ce module dans la catégorie Fonctions statistiques dans Machine Learning Studio (classique).
Ajoutez le jeu de données que vous souhaitez analyser.
Nous vous recommandons d’ajouter un module Sélectionner des colonnes dans le jeu de données entre votre jeu de données et le module De corrélation linéaire de calcul , pour supprimer les colonnes inutiles. Configurez le module Sélectionner des colonnes dans le jeu de données pour obtenir uniquement les deux colonnes numériques pour lesquelles vous souhaitez calculer des coefficients.
Sinon, le module De corrélation linéaire de calcul peut générer de nombreuses colonnes de NaNs.
Il n’existe aucun paramètre à définir pour ce module. Toutefois, elle échoue si les colonnes que vous passez, car les entrées ne répondent pas aux exigences.
Exécutez l’expérience.
Résultats pour deux colonnes
Compte tenu de deux colonnes de caractéristiques, le module De corrélation linéaire de calcul retourne le coefficient de corrélation scalaire Pearson product moment (exemple). Le coefficient de corrélation Pearson (souvent indiqué sous forme de r) s’étend en valeur de +1 à -1.
+1
indique une relation linéaire positive forte-1
indique une corrélation linéaire négative forte0
indique aucune relation linéaire entre les deux variables.
L’interprétation des coefficients dépend beaucoup du problème que vous modélisez et des variables que vous étudiez. Il est donc important de comprendre le contexte des données lors de la création de rapports et de l’interprétation du coefficient de corrélation de Pearson.
Si vous êtes certain que les variables ne sont pas liées et que le coefficient de corrélation de Pearson est fortement positif (r.5 > ou donc), vous devez examiner plus loin.
Si vous utilisez la corrélation linéaire sur deux variables que vous savez être parfaitement corrélées et que les valeurs de coefficient ne sont pas ce que vous attendez, cela peut indiquer un problème dans les données.
Résultats pour plus de deux colonnes
Compte tenu d’une matrice (autrement dit, plus de deux colonnes de caractéristiques), le module De corrélation linéaire de calcul retourne un ensemble de corrélations de moments de produit Pearson entre chaque paire de colonnes de caractéristiques.
Par conséquent, le résultat est une table n x n contenant les coefficients pour chaque combinaison des colonnes n . Si des colonnes ne répondent pas aux critères, une valeur NaN (« pas un nombre ») est retournée.
Par exemple, supposons que vous avez passé les deux colonnes wheel-base
numériques et curb-weight
une colonne make
catégorielle (à partir du jeu de données du prix automobile). Le résultat est une table de coefficients 3x3 pour toutes les combinaisons possibles des colonnes d’entrée :
make |
wheel-base |
curb-weight |
---|---|---|
Nan | Nan | Nan |
Nan | 1 | 0.776386 |
Nan | 0.776386 | 1 |
Dans ce tableau, les lignes sont comprises pour représenter chacune des variables,make
wheel-base
et curb-weight
, dans cet ordre.
- La valeur r de la corrélation de
wheel-base
lui-même est 1. - La valeur r de la corrélation de à
curb-weight
estwheel-base
0,776386. - Toutes les corrélations impliquant le résultat de colonne
make
dans NaN, y compris la corrélation avec elle-même, carmake
il s’agit d’une fonctionnalité de chaîne.
Nous vous recommandons de supprimer des colonnes non numériques pour éviter les tables complexes avec de nombreuses valeurs sans signification.
Exemples
Pour voir comment ce module est utilisé dans les expériences Machine Learning, consultez la galerie Azure AI :
- Traitement et analyse des données : cet exemple illustre plusieurs techniques pour modifier vos données. La corrélation linéaire de calcul est utilisée pour identifier les colonnes de caractéristiques potentielles.
Notes techniques
Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.
Informations d’implémentation
Si la colonne transmise en entrée contient des valeurs scalaires, les tableaux d'entrée (x et y) sont traités comme des vecteurs, et la corrélation du produit des moments de Pearson est calculée comme suit :
Dans cette formule, chaque tableau contient n éléments et les moyens des échantillons x et y sont respectivement μx et μy.
Dans le cas d'une matrice, une matrice de données, (X) est entrée, dans laquelle chaque colonne représente un vecteur de valeurs. La matrice de données doit être n-by-m. La sortie est la matrice m-by-m, R définie par
Dans cette formule, μx représente la valeur moyenne de la colonne xi. Les éléments en I,j sont toujours égaux à 1, car ils représentent la corrélation d'un vecteur avec lui-même.
Entrées attendues
Nom | Type | Description |
---|---|---|
Dataset | Table de données | Jeu de données d'entrée |
Sorties
Nom | Type | Description |
---|---|---|
Jeu de données de résultats | Table de données | Matrice de corrélations |
Exceptions
Exception | Description |
---|---|
Erreur 0003 | Cette exception se produit si une ou plusieurs entrées sont null ou vide. |
Erreur 0020 | Cette exception est levée quand le nombre de colonnes dans certains jeux de données transmis au module est trop petit. |
Erreur 0021 | Cette exception est levée quand le nombre de lignes dans certains jeux de données transmis au module est trop petit. |
Pour obtenir la liste des erreurs spécifiques aux modules Studio (classique), consultez Machine Learning codes d’erreur.
Pour obtenir la liste des exceptions d’API, consultez Machine Learning codes d’erreur de l’API REST.