Partager via


Replace Discrete Values

Important

Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.

À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.

La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.

Remplace des valeurs discrètes d'une colonne par des valeurs numériques basées sur une autre colonne

Catégorie : fonctions statistiques

Notes

s’applique à: Machine Learning Studio (classic) uniquement

Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.

Vue d’ensemble du module

cet article explique comment utiliser le module remplacer les valeurs discrètes dans Machine Learning Studio (classic) pour générer un score de probabilité qui peut être utilisé pour représenter une valeur discrète. Ce score peut être utile pour comprendre la valeur des informations des valeurs discrètes.

Fonctionnement :

Vous sélectionnez une colonne qui contient la valeur discrète (ou catégorique), puis vous sélectionnez une autre colonne à utiliser pour la référence.

Selon que la deuxième colonne est catégorique ou non catégorique, le module calcule l’une des valeurs suivantes :

  • Probabilité conditionnelle pour la deuxième colonne en fonction des valeurs de la première colonne.
  • La moyenne et l' écart type pour chaque groupe de valeurs dans la première colonne.

Le module génère à la fois un DataSet avec les scores et une fonction que vous pouvez enregistrer et appliquer à d’autres jeux de données.

Comment configurer le remplacement des valeurs discrètes

Conseil

Nous vous recommandons de travailler avec une seule paire de colonnes à la fois. Le module ne génère pas d’erreur si vous sélectionnez plusieurs colonnes à analyser. Toutefois, dans la pratique, si vous choisissez plusieurs colonnes, elles sont mises en correspondance par une méthode heuristique interne, et non par ordre de sélection.

Par conséquent, nous vous recommandons de sélectionner une seule paire de colonnes à chaque fois, une pour les colonnes discrètes et une pour les colonnes de remplacement.

Si vous avez besoin de générer des scores pour plusieurs colonnes, utilisez des instances distinctes de remplacement des valeurs discrètes.

  1. Ajoutez le module remplacer les valeurs discrètes à votre expérience. vous pouvez trouver ce module dans le groupe fonctions statistiques de la liste des éléments d’expérimentation dans Machine Learning Studio (classic).

  2. Connecter un jeu de données contenant au moins une colonne de données catégoriques.

  3. Colonnes discrètes: cliquez sur lancer le sélecteur de colonne pour choisir une colonne qui contient des valeurs discrètes (ou catégoriques).

    Toutes les colonnes discrètes que vous sélectionnez doivent être catégoriques. Si vous recevez une erreur, utilisez le module modifier les métadonnées pour modifier le type de colonne.

  4. Colonnes de remplacement: cliquez sur lancer le sélecteur de colonne pour choisir la colonne qui contient les valeurs à utiliser pour calculer un score de remplacement.

    Si vous sélectionnez plusieurs colonnes pour les colonnes discrètes, vous devez choisir un nombre égal de colonnes de remplacement.

  5. Exécutez l’expérience.

    Notes

    Vous ne pouvez pas choisir la fonction statistique à appliquer. Le module calcule une mesure appropriée, en fonction du type de données de la colonne sélectionnée pour la colonne de remplacement.

Résultats

Le module calcule l’une des valeurs suivantes pour chaque paire de colonnes :

  • Si la deuxième colonne contient des valeurs catégoriques, le module calcule la probabilité conditionnelle de la deuxième colonne, en fonction des valeurs de la première colonne.

    Par exemple, supposons que vous choisissiez occupation le jeu de données de recensement comme colonne discrète et que vous choisissiez gender comme colonne de remplacement. La sortie du module est la suivante :

    P(gender | occupation)

  • Si la deuxième colonne contient des valeurs non catégoriques qui peuvent être converties en nombres (telles que des valeurs numériques ou booléennes non marquées comme catégoriques), le module génère la moyenne et l' écart type pour chaque groupe de valeurs de la première colonne.

    Par exemple, supposons que vous utilisez occupation comme colonne discrète et que l’autre colonne soit la colonne hours-per-week numérique. Le module produirait ces nouvelles valeurs :

    Mean(hours-per-week | occupation)

    Std-Dev(hours-per-week | occupation)

En plus des scores de probabilité, le module génère également un jeu de données transformé. Dans ce jeu de données, la colonne sélectionnée en tant que colonnes de remplacement est remplacée par une colonne contenant les scores calculés.

Conseil

Les colonnes du jeu de données source ne sont pas réellement modifiées ou supprimées par l’opération ; les colonnes de score sont nouvelles et générées par le module et sorties à la place des données sources.

Pour afficher les valeurs sources avec les scores de probabilité, utilisez le module Ajouter des colonnes .

Exemples

L’utilisation des valeurs discrètes de remplacement peut être illustrée par des exemples simples.

Exemple 1 : remplacer une valeur catégorique par un score de probabilité

Le tableau suivant contient une colonne catégorielle X, et une colonne Y avec des valeurs True/False qui sont traitées comme des valeurs catégorielles. Quand vous utilisez remplacer des valeurs discrètes, il calcule un score de probabilité conditionnel pour la probabilité de Y donné X, comme indiqué dans la troisième colonne.

X Y P(Y|X)
Bleu 0 P(Y=0|X=Blue) = 0.5
Bleu 1 P(Y=1|X=Blue) = 0.5
Vert 0 P(Y=0|X=Green) = 2/3
Vert 0 P(Y=0|X=Green) = 2/3
Vert 1 P(Y=1|X=Green) = 1/3
Rouge 0 P(Y=0|X=Red) = .75
Rouge 0 P(Y=0|X=Red) = .75
Rouge 1 P(Y=1|X=Red) = .25
Rouge 0 P(Y=0|X=Red) = .75

Exemple 2 : calculer la moyenne et l’écart type en fonction d’une colonne non catégorique

Lorsque la deuxième colonne est numérique, remplacer les valeurs discrètes calcule la moyenne et l’écart type au lieu d’un score de probabilité conditionnel.

L’exemple suivant est basé sur l’exemple de jeu de données de prix automatique , simplifié comme suit :

  • Un petit sous-ensemble de colonnes a été sélectionné.

  • Seules les 30 premières lignes ont été extraites, à l’aide de l’option Head du module partition et Sample .

  • Le module remplacer les valeurs discrètes a été utilisé pour calculer la moyenne et l' écart type pour le poids des virages de véhicule. à partir de la colonne catégorique, num-of-doors .

Le tableau suivant illustre les résultats :

Corps Num-of-doors Curb-weight Mean(curb-weight|num-of-doors) Std-Dev(curb-weight|num-of-doors)
std two 2548 2429,785714 507,45699
std quatre 2337 2625,6 493,409877
std two 2507 2429,785714 507,45699
turbo quatre 3086 2625,6 5 493,409877
std quatre 1989 2625,6 493,409877
turbo 2191
std quatre 2 535 2625,6 493,409877

Vous pouvez vérifier la moyenne pour chaque groupe de valeurs à l’aide de la AVERAGEIF fonction dans Excel.

Exemple 3 : gestion des valeurs manquantes

Cet exemple montre comment les valeurs manquantes (nulles) sont propagées aux résultats lorsque les scores de probabilité conditionnelle sont calculés.

  • Si la colonne des valeurs discrètes et la colonne de recherche de calcul contiennent des valeurs manquantes, ces valeurs sont propagées vers la nouvelle colonne.

  • Si la colonne de valeur discrète contient uniquement des valeurs manquantes, le module ne peut pas traiter la colonne et un message d'erreur s'affiche.

X Y P(Y|X)
1 True P(Y=true|X=1) = 1/2
1 False P(Y=false|X=1) = 1/2
2 True P(Y=true|X=2) = 1/3
2 False P(Y=false|X=2) = 1/3
2 Null P(Y=null|X=2) = null

Notes techniques

  • Vous devez vous assurer que toutes les colonnes discrètes à remplacer sont catégorielles, ou le module renvoie une erreur. Pour ce faire, utilisez le module modifier les métadonnées .

  • Si la deuxième colonne contient des valeurs booléennes, les valeurs True-False sont traitées comme des valeurs numériques avec les équivalents respectifs de FALSE et TRUE, à savoir 0 et 1.

  • La formule de la colonne de l'écart type calcule l'écart type de population. Par conséquent, N est utilisé dans le dénominateur à la place de (N-1).

  • Si la deuxième colonne contient des données non catégoriques (valeurs numériques ou booléennes), le module calcule la moyenne et l’écart type de Y pour la valeur donnée de X.

    Autrement dit, pour chaque ligne du jeu de données indexée par i :

    Mean(Y│X)i = Mean(Y│X = Xi)

    StdDev(Y│X)i = StdDev(Y│X = Xi)

  • Si la deuxième colonne contient des données catégoriques ou des valeurs qui ne sont ni numériques ni booléennes, le module calcule la probabilité conditionnelle de Y pour la valeur donnée de X.

  • Toutes les valeurs booléennes de la deuxième colonne sont traitées comme des données numériques, avec FALSE et TRUE équivalant respectivement à 0 et 1.

  • Si la colonne discrète est une classe telle qu'une ligne avec une valeur manquante est présente dans la deuxième colonne, la somme des probabilités conditionnelles dans la classe est inférieure à 1.

Entrées attendues

Nom Type Description
Dataset Table de données Jeu de données d'entrée

Paramètres du module

Nom Plage Type Default Description
Colonnes discrètes Quelconque ColumnSelection Sélectionne les colonnes qui contiennent des valeurs discrètes
Colonnes de remplacement Quelconque ColumnSelection Sélectionne les colonnes qui contiennent les données à utiliser à la place des valeurs discrètes

Sorties

Nom Type Description
Jeu de données complété Table de données Jeu de données avec des données remplacées
Fonction de transformation Interface ITransform Définition de la fonction de transformation, qui peut être appliquée aux autres jeux de données

Exceptions

Exception Description
Erreur 0001 Une exception se produit si une ou plusieurs colonnes spécifiées du jeu de données sont introuvables.
Erreur 0003 Cette exception se produit si une ou plusieurs entrées sont null ou vide.
Erreur 0020 Cette exception est levée quand le nombre de colonnes dans certains jeux de données transmis au module est trop petit.
Erreur 0021 Cette exception est levée quand le nombre de lignes dans certains jeux de données transmis au module est trop petit.
Erreur 0017 Une exception se produit si une ou plusieurs colonnes spécifiées sont d'un type non pris en charge par le module actuel.
Erreur 0026 Une exception se produit quand des colonnes du même nom ne sont pas autorisées.
Erreur 0022 Cette exception est levée si le nombre de colonnes sélectionnées dans le jeu de données d'entrée n'est pas égal au nombre attendu.

pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.

pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.

Voir aussi

Fonctions statistiques