Limiter les valeurs
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
Détecte les valeurs hors norme et ajuste ou remplace leurs valeurs.
Catégorie : transformation des données/mise à l’échelle et réduction
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
Vue d’ensemble du module
cet article explique comment utiliser le module Clip values dans Machine Learning Studio (classic) pour identifier et éventuellement remplacer des valeurs de données qui sont au-dessus ou en dessous d’un seuil spécifié. Cela est utile lorsque vous souhaitez supprimer les valeurs hors norme ou les remplacer par une moyenne, une constante ou une autre valeur de remplacement.
Vous connectez le module à un jeu de données qui contient les nombres à limiter, choisissez les colonnes à utiliser, puis définissez un seuil ou une plage de valeurs ainsi qu’une méthode de remplacement. Le module peut générer uniquement les résultats ou générer les valeurs changées ajoutées au jeu de données d’origine.
Comment configurer le module Limiter les valeurs
Avant de commencer, identifiez les colonnes à limiter et la méthode à utiliser. Nous vous recommandons de tester d’abord la méthode de limitation sur un petit sous-ensemble de données.
Le module applique les mêmes critères et la même méthode de remplacement à toutes les colonnes que vous incluez dans la sélection. Par conséquent, veillez à exclure les colonnes que vous ne voulez pas changer.
Si vous devez appliquer des méthodes de limitation ou des critères différents à certaines colonnes, vous devez utiliser une nouvelle instance du module Limiter les valeurs pour chaque ensemble de colonnes similaires.
Ajoutez le module clip values à votre expérience et connectez-le au jeu de données que vous souhaitez modifier. Ce module est disponible sous Transformation des données, dans la catégorie Mettre à l’échelle et réduire.
Dans Liste des colonnes, utilisez le sélecteur de colonne pour choisir les colonnes auxquelles appliquer les valeurs limites.
Pour Ensemble de seuils, choisissez l’une des options suivantes dans la liste déroulante. Ces options déterminent comment vous définissez les limites supérieure et inférieure des valeurs acceptables par rapport aux valeurs qui doivent être limitées.
ClipPeaks : quand vous détourez des valeurs par pic, vous spécifiez uniquement une limite supérieure. Les valeurs supérieures à cette valeur limite sont remplacées ou supprimées.
ClipSubpeaks: lorsque vous découpez des valeurs par des sous-pics, vous spécifiez uniquement une limite inférieure. Les valeurs inférieures à cette valeur limite sont remplacées ou supprimées.
ClipPeaksAndSubpeaks: lorsque vous découpez des valeurs par pics et sous-pics, vous pouvez spécifier les limites supérieure et inférieure. Les valeurs qui se trouvent en dehors de cette plage sont remplacées ou supprimées. Les valeurs qui correspondent aux valeurs limites ne sont pas changées.
En fonction de votre sélection à l’étape précédente, vous pouvez définir les valeurs de seuil suivantes :
- Seuil inférieur : affiché uniquement si vous choisissez ClipSubPeaks
- Seuil supérieur : affiché uniquement si vous choisissez ClipPeaks
- Seuil : affiché uniquement si vous choisissez ClipPeaksAndSubPeaks
Pour chaque type de seuil, choisissez Constante ou Centile.
Si vous sélectionnez Constante, tapez la valeur maximale ou minimale dans la zone de texte. Supposons, par exemple, que la valeur 999 a été utilisée comme valeur d’espace réservé. Vous pouvez choisir constante pour le seuil supérieur et taper 999 dans valeur constante du seuil supérieur.
Si vous choisissez Centile, vous limitez les valeurs de colonne à une plage de centiles.
Par exemple, supposons que vous voulez conserver uniquement les valeurs de la plage de centiles 10-80 et remplacer toutes les autres. Vous devez choisir centile, puis taper 10 pour la valeur de centile du seuil inférieuret le type 80 pour la valeur de centile du seuil supérieur.
Consultez la section sur les centiles pour avoir des exemples d’utilisation des plages de centiles.
Définissez une valeur de remplacement.
Les nombres qui correspondent exactement aux limites que vous venez de spécifier sont considérés comme étant à l’intérieur de la plage de valeurs autorisée, et ne sont donc pas remplacés ou supprimés. Tous les nombres qui se trouvent en dehors de la plage spécifiée sont remplacés par la valeur de remplacement.
- Valeur de substitution des pics : définit la valeur de substitution pour toutes les valeurs de colonne supérieures au seuil spécifié.
- Valeur de substitution des creux : définit la valeur de substitution à utiliser pour toutes les valeurs de colonne inférieures au seuil spécifié.
- Si vous utilisez l’option ClipPeaksAndSubpeaks, vous pouvez spécifier des valeurs de remplacement distinctes pour les valeurs limitées supérieure et inférieure.
Les valeurs de remplacement suivantes sont prises en charge :
Seuil : remplace les valeurs détourées par la valeur de seuil spécifiée.
Moyenne : remplace les valeurs détourées par la moyenne des valeurs de colonne. La moyenne est calculée avant la limitation des valeurs.
Médiane : remplace les valeurs détourées par la médiane des valeurs de colonne. La médiane est calculée avant la limitation des valeurs.
Valeur manquante. Remplace les valeurs limitées par la valeur manquante (vide).
Ajouter des colonnes d’indicateurs : sélectionnez cette option si vous voulez générer une nouvelle colonne qui indique si l’opération d’écrêtage spécifiée est appliquée aux données de cette ligne. Cette option est particulièrement utile lorsque vous testez un nouvel ensemble de valeurs de découpage et de substitution.
Remplacer l’indicateur : indiquez comment les nouvelles valeurs doivent être générées. Par défaut, le module Limiter les valeurs construit une nouvelle colonne avec les valeurs de pic limitées au seuil souhaité. Les nouvelles valeurs remplacent la colonne d’origine.
Pour conserver la colonne d’origine et ajouter une nouvelle colonne avec les valeurs limitées, désélectionnez cette option.
Exécutez l’expérience.
Cliquez avec le bouton droit sur la sortie du module Limiter les valeurs, puis sélectionnez Visualiser pour examiner les valeurs et vérifier que l’opération de limitation répond à vos attentes.
Exemples
Pour voir comment ce module est utilisé dans Machine Learning expériences, consultez la Azure ai Gallery:
- Valeurs hors norme d' incendie de forêt: cet exemple de la couse EdX dans la science des données montre les méthodes de découpage à l’aide de l’exemple de jeu de données de forêt.
Découpage à l’aide de centiles
Pour comprendre le fonctionnement de la limitation par centile, prenons un jeu de données de 10 lignes, chacune ayant une instance des valeurs 1-10.
Si vous utilisez le centile comme seuil supérieur, à la valeur du 90e centile, 90 % de toutes les valeurs du jeu de données doivent être inférieures à cette valeur.
Si vous utilisez le centile comme seuil inférieur, à la valeur du 10e centile, 10 % de toutes les valeurs du jeu de données doivent être inférieures à cette valeur.
Pour Ensemble de seuils, choisissez ClipPeaksAndSubPeaks.
Pour l'option Seuil supérieur, choisissez Centile, puis, pour Nombre de centiles, tapez 90.
Pour l'option Valeur de remplacement supérieure, choisissez Valeur manquante.
Pour l'option Seuil inférieur, choisissez Centile, puis, pour Nombre de centiles, tapez 10.
Pour l'option Valeur de remplacement inférieure, choisissez Valeur manquante.
Désélectionnez l'option Indicateur de remplacement et sélectionnez l'option Ajouter une colonne d'indicateur.
Maintenant, effectuez la même expérience en utilisant 60 comme seuil supérieur de centile et 30 comme seuil inférieur de centile et utilisez la valeur de seuil comme valeur de remplacement. Le tableau suivant compare ces deux résultats :
Remplacer par valeur manquante ; Seuil supérieur = 90 ; Seuil inférieur = 10
Remplacer par seuil ; Centile supérieur = 60 ; Centile inférieur = 30
Données d’origine | Remplacer par la valeur manquante | Remplacer par le seuil |
---|---|---|
1 2 3 4 5 6 7 8 9 10 |
TRUE TRUE 3, FALSE 4, FALSE 5, FALSE 6, FALSE 7, FALSE 8, FALSE 9, FALSE TRUE |
4, TRUE 4, TRUE 4, TRUE 4, TRUE 5, FALSE 6, FALSE 7, TRUE 7, TRUE 7, TRUE 7, TRUE |
Notes techniques
Vous pouvez utiliser des valeurs de clip uniquement sur des colonnes contenant des nombres ou des valeurs de date/heure.
Si vous incluez des colonnes qui contiennent des données par catégorie ou du texte, les colonnes seront ignorées.
Les valeurs manquantes sont ignorées lorsque la valeur moyenne ou médiane est calculée pour une colonne.
Clip Values ne prend pas en charge les données ordinales.
Les valeurs manquantes ne sont pas modifiées lorsqu'elles sont propagées vers le jeu de données de sortie. La colonne indiquant les valeurs ajustées contient toujours FALSE pour les valeurs manquantes.
Entrées attendues
Nom | Type | Description |
---|---|---|
Dataset | Table de données | Jeu de données d'entrée |
Paramètres du module
Nom | Plage | Type | Default | Description |
---|---|---|---|---|
Ajouter des colonnes de l'indicateur | TRUE/FALSE | Booléen | FAUX | Indique s’il faut ajouter un indicateur pour le découpage d’une valeur. |
Valeur constante pour le seuil inférieur | n'importe laquelle | Float | -1 | Valeur en dessous de laquelle les sous-pics seront découpés |
Valeur constante pour le seuil supérieur | n'importe laquelle | Float | 1 | Valeur au-dessus de laquelle les pics seront découpés |
Valeur constante du seuil inférieur | n'importe laquelle | Float | -1 | Valeur en dessous de laquelle les sous-pics sont découpés |
Valeur constante du seuil supérieur | >=1 | Float | 1 | Valeur au-dessus de laquelle les pics sont découpés |
Liste des colonnes | ColumnSelection | Liste des colonnes à découper | ||
Valeur de remplacement inférieure | Seuil Moyenne Médiane Manquant |
SubstituteValues | Seuil | Valeur utilisée pour les pics de découpage |
Seuil inférieur | Constante Percentile |
Mode seuil | Constante | Valeur en dessous de laquelle les sous-pics seront en mode de découpage |
Overwrite flag (Indicateur de remplacement) | TRUE/FALSE | Booléen | true | Si la ou les colonnes de données découpées doivent remplacer les colonnes de données d’entrée |
Centile pour le seuil inférieur | [1 ; 99] | Integer | 1 | Centile nombre en dessous duquel les sous-pics seront découpés |
Centile pour le seuil supérieur | [1 ; 99] | Integer | 99 | Nombre de centile au-dessus duquel les pics sont découpés |
Centile du seuil inférieur | [1 ; 99] | Integer | 1 | Centile nombre en dessous duquel les sous-pics sont découpés |
Centile du seuil supérieur | [1 ; 99] | Entier | 99 | Nombre de centile au-dessus duquel les pics sont découpés |
Ensemble de seuils | ClipPeaks ClipSubPeaks ClipPeaksAndSubPeaks |
Seuil défini | ClipPeaks | Spécifie le type de seuil à utiliser |
Valeur de remplacement pour peaks | Seuil Moyenne Médiane Manquant |
SubstituteValues | Seuil | Valeur utilisée pendant les pics de découpage |
Valeur de remplacement pour subpeaks | Seuil Moyenne Médiane Manquant |
SubstituteValues | Seuil | Valeur utilisée pendant les pics de découpage |
Seuil | Constante Percentile |
Mode seuil | Constante | Valeur au-dessus et au-dessous de laquelle les pics seront en mode de découpage |
Valeur de remplacement supérieure | Seuil Moyenne Médiane Manquant |
Seuil | Seuil | Valeur utilisée pour les pics de découpage |
Seuil supérieur | Constante Percentile |
Mode seuil | Constante | Valeur au-dessus de laquelle les pics seront en mode de découpage |
Sorties
Nom | Type | Description |
---|---|---|
Jeu de données de résultats | Table de données | Jeu de données avec colonnes ajustées |
Exceptions
Exception | Description |
---|---|
Erreur 0011 | Une exception se produit si l’argument du jeu de colonnes transmis ne s’applique à aucune des colonnes du jeu de données. |
Erreur 0017 | Une exception se produit si une ou plusieurs colonnes spécifiées présentent un type non pris en charge par le module actuel. |
pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.
pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.