Replace Discrete Values
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
Remplace des valeurs discrètes d'une colonne par des valeurs numériques basées sur une autre colonne
Catégorie : fonctions statistiques
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
Vue d’ensemble du module
cet article explique comment utiliser le module remplacer les valeurs discrètes dans Machine Learning Studio (classic) pour générer un score de probabilité qui peut être utilisé pour représenter une valeur discrète. Ce score peut être utile pour comprendre la valeur des informations des valeurs discrètes.
Fonctionnement :
Vous sélectionnez une colonne qui contient la valeur discrète (ou catégorique), puis vous sélectionnez une autre colonne à utiliser pour la référence.
Selon que la deuxième colonne est catégorique ou non catégorique, le module calcule l’une des valeurs suivantes :
- Probabilité conditionnelle pour la deuxième colonne en fonction des valeurs de la première colonne.
- La moyenne et l' écart type pour chaque groupe de valeurs dans la première colonne.
Le module génère à la fois un DataSet avec les scores et une fonction que vous pouvez enregistrer et appliquer à d’autres jeux de données.
Comment configurer le remplacement des valeurs discrètes
Conseil
Nous vous recommandons de travailler avec une seule paire de colonnes à la fois. Le module ne génère pas d’erreur si vous sélectionnez plusieurs colonnes à analyser. Toutefois, dans la pratique, si vous choisissez plusieurs colonnes, elles sont mises en correspondance par une méthode heuristique interne, et non par ordre de sélection.
Par conséquent, nous vous recommandons de sélectionner une seule paire de colonnes à chaque fois, une pour les colonnes discrètes et une pour les colonnes de remplacement.
Si vous avez besoin de générer des scores pour plusieurs colonnes, utilisez des instances distinctes de remplacement des valeurs discrètes.
Ajoutez le module remplacer les valeurs discrètes à votre expérience. vous pouvez trouver ce module dans le groupe fonctions statistiques de la liste des éléments d’expérimentation dans Machine Learning Studio (classic).
Connecter un jeu de données contenant au moins une colonne de données catégoriques.
Colonnes discrètes: cliquez sur lancer le sélecteur de colonne pour choisir une colonne qui contient des valeurs discrètes (ou catégoriques).
Toutes les colonnes discrètes que vous sélectionnez doivent être catégoriques. Si vous recevez une erreur, utilisez le module modifier les métadonnées pour modifier le type de colonne.
Colonnes de remplacement: cliquez sur lancer le sélecteur de colonne pour choisir la colonne qui contient les valeurs à utiliser pour calculer un score de remplacement.
Si vous sélectionnez plusieurs colonnes pour les colonnes discrètes, vous devez choisir un nombre égal de colonnes de remplacement.
Exécutez l’expérience.
Notes
Vous ne pouvez pas choisir la fonction statistique à appliquer. Le module calcule une mesure appropriée, en fonction du type de données de la colonne sélectionnée pour la colonne de remplacement.
Résultats
Le module calcule l’une des valeurs suivantes pour chaque paire de colonnes :
Si la deuxième colonne contient des valeurs catégoriques, le module calcule la probabilité conditionnelle de la deuxième colonne, en fonction des valeurs de la première colonne.
Par exemple, supposons que vous choisissiez
occupation
le jeu de données de recensement comme colonne discrète et que vous choisissiezgender
comme colonne de remplacement. La sortie du module est la suivante :P(gender | occupation)
Si la deuxième colonne contient des valeurs non catégoriques qui peuvent être converties en nombres (telles que des valeurs numériques ou booléennes non marquées comme catégoriques), le module génère la moyenne et l' écart type pour chaque groupe de valeurs de la première colonne.
Par exemple, supposons que vous utilisez
occupation
comme colonne discrète et que l’autre colonne soit la colonnehours-per-week
numérique. Le module produirait ces nouvelles valeurs :Mean(hours-per-week | occupation)
Std-Dev(hours-per-week | occupation)
En plus des scores de probabilité, le module génère également un jeu de données transformé. Dans ce jeu de données, la colonne sélectionnée en tant que colonnes de remplacement est remplacée par une colonne contenant les scores calculés.
Conseil
Les colonnes du jeu de données source ne sont pas réellement modifiées ou supprimées par l’opération ; les colonnes de score sont nouvelles et générées par le module et sorties à la place des données sources.
Pour afficher les valeurs sources avec les scores de probabilité, utilisez le module Ajouter des colonnes .
Exemples
L’utilisation des valeurs discrètes de remplacement peut être illustrée par des exemples simples.
Exemple 1 : remplacer une valeur catégorique par un score de probabilité
Le tableau suivant contient une colonne catégorielle X, et une colonne Y avec des valeurs True/False qui sont traitées comme des valeurs catégorielles. Quand vous utilisez remplacer des valeurs discrètes, il calcule un score de probabilité conditionnel pour la probabilité de Y donné X, comme indiqué dans la troisième colonne.
X | Y | P(Y|X) |
---|---|---|
Bleu | 0 | P(Y=0|X=Blue) = 0.5 |
Bleu | 1 | P(Y=1|X=Blue) = 0.5 |
Vert | 0 | P(Y=0|X=Green) = 2/3 |
Vert | 0 | P(Y=0|X=Green) = 2/3 |
Vert | 1 | P(Y=1|X=Green) = 1/3 |
Rouge | 0 | P(Y=0|X=Red) = .75 |
Rouge | 0 | P(Y=0|X=Red) = .75 |
Rouge | 1 | P(Y=1|X=Red) = .25 |
Rouge | 0 | P(Y=0|X=Red) = .75 |
Exemple 2 : calculer la moyenne et l’écart type en fonction d’une colonne non catégorique
Lorsque la deuxième colonne est numérique, remplacer les valeurs discrètes calcule la moyenne et l’écart type au lieu d’un score de probabilité conditionnel.
L’exemple suivant est basé sur l’exemple de jeu de données de prix automatique , simplifié comme suit :
Un petit sous-ensemble de colonnes a été sélectionné.
Seules les 30 premières lignes ont été extraites, à l’aide de l’option Head du module partition et Sample .
Le module remplacer les valeurs discrètes a été utilisé pour calculer la moyenne et l' écart type pour le poids des virages de véhicule. à partir de la colonne catégorique,
num-of-doors
.
Le tableau suivant illustre les résultats :
Corps | Num-of-doors | Curb-weight | Mean(curb-weight|num-of-doors) | Std-Dev(curb-weight|num-of-doors) |
---|---|---|---|---|
std | two | 2548 | 2429,785714 | 507,45699 |
std | quatre | 2337 | 2625,6 | 493,409877 |
std | two | 2507 | 2429,785714 | 507,45699 |
turbo | quatre | 3086 | 2625,6 5 | 493,409877 |
std | quatre | 1989 | 2625,6 | 493,409877 |
turbo | 2191 | |||
std | quatre | 2 535 | 2625,6 | 493,409877 |
Vous pouvez vérifier la moyenne pour chaque groupe de valeurs à l’aide de la AVERAGEIF
fonction dans Excel.
Exemple 3 : gestion des valeurs manquantes
Cet exemple montre comment les valeurs manquantes (nulles) sont propagées aux résultats lorsque les scores de probabilité conditionnelle sont calculés.
Si la colonne des valeurs discrètes et la colonne de recherche de calcul contiennent des valeurs manquantes, ces valeurs sont propagées vers la nouvelle colonne.
Si la colonne de valeur discrète contient uniquement des valeurs manquantes, le module ne peut pas traiter la colonne et un message d'erreur s'affiche.
X | Y | P(Y|X) |
---|---|---|
1 | True | P(Y=true|X=1) = 1/2 |
1 | False | P(Y=false|X=1) = 1/2 |
2 | True | P(Y=true|X=2) = 1/3 |
2 | False | P(Y=false|X=2) = 1/3 |
2 | Null | P(Y=null|X=2) = null |
Notes techniques
Vous devez vous assurer que toutes les colonnes discrètes à remplacer sont catégorielles, ou le module renvoie une erreur. Pour ce faire, utilisez le module modifier les métadonnées .
Si la deuxième colonne contient des valeurs booléennes, les valeurs True-False sont traitées comme des valeurs numériques avec les équivalents respectifs de FALSE et TRUE, à savoir 0 et 1.
La formule de la colonne de l'écart type calcule l'écart type de population. Par conséquent, N est utilisé dans le dénominateur à la place de (N-1).
Si la deuxième colonne contient des données non catégoriques (valeurs numériques ou booléennes), le module calcule la moyenne et l’écart type de Y pour la valeur donnée de X.
Autrement dit, pour chaque ligne du jeu de données indexée par
i
:Mean(Y│X)i = Mean(Y│X = Xi)
StdDev(Y│X)i = StdDev(Y│X = Xi)
Si la deuxième colonne contient des données catégoriques ou des valeurs qui ne sont ni numériques ni booléennes, le module calcule la probabilité conditionnelle de Y pour la valeur donnée de X.
Toutes les valeurs booléennes de la deuxième colonne sont traitées comme des données numériques, avec FALSE et TRUE équivalant respectivement à 0 et 1.
Si la colonne discrète est une classe telle qu'une ligne avec une valeur manquante est présente dans la deuxième colonne, la somme des probabilités conditionnelles dans la classe est inférieure à 1.
Entrées attendues
Nom | Type | Description |
---|---|---|
Dataset | Table de données | Jeu de données d'entrée |
Paramètres du module
Nom | Plage | Type | Default | Description |
---|---|---|---|---|
Colonnes discrètes | Quelconque | ColumnSelection | Sélectionne les colonnes qui contiennent des valeurs discrètes | |
Colonnes de remplacement | Quelconque | ColumnSelection | Sélectionne les colonnes qui contiennent les données à utiliser à la place des valeurs discrètes |
Sorties
Nom | Type | Description |
---|---|---|
Jeu de données complété | Table de données | Jeu de données avec des données remplacées |
Fonction de transformation | Interface ITransform | Définition de la fonction de transformation, qui peut être appliquée aux autres jeux de données |
Exceptions
Exception | Description |
---|---|
Erreur 0001 | Une exception se produit si une ou plusieurs colonnes spécifiées du jeu de données sont introuvables. |
Erreur 0003 | Cette exception se produit si une ou plusieurs entrées sont null ou vide. |
Erreur 0020 | Cette exception est levée quand le nombre de colonnes dans certains jeux de données transmis au module est trop petit. |
Erreur 0021 | Cette exception est levée quand le nombre de lignes dans certains jeux de données transmis au module est trop petit. |
Erreur 0017 | Une exception se produit si une ou plusieurs colonnes spécifiées sont d'un type non pris en charge par le module actuel. |
Erreur 0026 | Une exception se produit quand des colonnes du même nom ne sont pas autorisées. |
Erreur 0022 | Cette exception est levée si le nombre de colonnes sélectionnées dans le jeu de données d'entrée n'est pas égal au nombre attendu. |
pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.
pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.