Convertir en jeu de données
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
Convertit l’entrée de données au format de jeu de données interne utilisé par Microsoft Machine Learning
Catégorie : conversions de format de données
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
Vue d’ensemble du module
cet article explique comment utiliser le module convertir en jeu de données dans Machine Learning Studio (classic) pour convertir les données dont vous pouvez avoir besoin pour une expérience au format interne utilisé par Studio (classique).
la Conversion n’est pas nécessaire dans la plupart des cas, car Machine Learning convertit implicitement les données au format de jeu de données natif lorsqu’une opération est effectuée sur les données.
Toutefois, l'enregistrement des données au format de jeu de données est recommandé si vous avez effectué une opération de normalisation ou de nettoyage sur un ensemble de données et que vous souhaitez vous assurer que les modifications seront utilisées dans les prochaines expériences.
Notes
Le module Convertir au format Dataset modifie uniquement le format des données et n'enregistre pas une nouvelle copie des données dans l'espace de travail. Pour enregistrer le jeu de données, double-cliquez sur le port de sortie, sélectionnez Enregistrer comme jeu de données, puis tapez un nouveau nom.
Comment utiliser le module Convertir en jeu de données
Nous vous recommandons d’utiliser le module Modifier les métadonnées pour préparer le jeu de données avant d’utiliser le module Convertir en jeu de données. Vous pouvez ajouter ou changer des noms de colonnes, ajuster des types de données, etc.
Ajoutez le module convertir au jeu de données à votre expérience. vous pouvez trouver ce module dans la catégorie conversions de Format de données dans Machine Learning Studio (classic).
Connectez-le à n’importe quel module qui génère un jeu de données.
Tant que les données sont tabulaires, vous pouvez les convertir en jeu de données. cela comprend les données chargées à l’aide des données d' importation, les données créées à l’aide de la saisie manuelledes données, les données générées par le code dans les modules personnalisés, les jeux de données transformés à l’aide de la transformation applyou les jeux de données générés ou modifiés à l’aide de la transformation apply SQL
Dans la liste déroulante Action, indiquez si vous souhaitez effectuer un nettoyage sur les données avant d’enregistrer le jeu de données :
Aucun : utilisez les données telles quelles.
SetMissingValue: spécifiez un espace réservé inséré dans le jeu de données partout où il existe une valeur manquante. L’espace réservé par défaut est le caractère de point d’interrogation ( ?), mais vous pouvez utiliser l’option de valeur manquante personnalisée pour taper une autre valeur.
Remplacer des valeurs : utilisez cette option pour spécifier une seule valeur exacte à remplacer par toute autre valeur exacte. Par exemple, en supposant que vos données contiennent la chaîne
obs
utilisée en tant qu’espace réservé pour les valeurs manquantes, vous pouvez spécifier une opération de remplacement personnalisée à l’aide des options suivantes :Définir remplacer par personnalisé
Pour Valeur personnalisée, tapez la valeur que vous souhaitez rechercher. Dans ce cas, vous devez taper
obs
.Pour Nouvelle valeur, tapez la nouvelle valeur par laquelle remplacer la chaîne d’origine. Dans ce cas, vous pouvez taper
?
Notez que l’opération Remplacer des valeurs s’applique uniquement aux correspondances exactes. Par exemple, ces chaînes ne sont pas affectées :
obs.
,obsolete
.- SparseOutput: indique que le jeu de données est fragmenté. En créant un vecteur de données éparses, vous pouvez vous assurer que les valeurs manquantes n’affectent pas une distribution de données éparses. Après avoir sélectionné cette option, vous devez indiquer comment les valeurs manquantes et les valeurs zéro doivent être gérées.
Pour supprimer une valeur différente de zéro, cliquez sur l’option supprimer et tapez une seule valeur à supprimer. Vous pouvez supprimer des valeurs manquantes ou définir une valeur personnalisée à supprimer du vecteur. Seules les correspondances exactes sont supprimées. Par exemple, si vous tapez
x
dans la zone de texte Supprimer la valeur , la lignexx
n’est pas affectée.Par défaut, l’option Supprimer les zéros est définie sur
True
, ce qui signifie que toutes les valeurs zéro sont supprimées lors de la création de la colonne éparse.Exécutez l’expérience, ou cliquez avec le bouton droit sur le module convertir en DataSet , puis sélectionnez exécuter la sélection.
Résultats
- Pour enregistrer le jeu de données résultant avec un nouveau nom, cliquez avec le bouton droit sur la sortie de Convertir en jeu de données et sélectionnez Enregistrer comme jeu de données.
Exemples
Vous pouvez voir des exemples d’utilisation du module convertir en jeu de données dans l' Azure ai Gallery:
Exemple CRM: lit à partir d’un dataset partagé et enregistre une copie du DataSet dans l’espace de travail local.
Exemple de retards de vol: enregistre un jeu de données qui a été nettoyé en remplaçant les valeurs manquantes afin que vous puissiez l’utiliser pour des expériences ultérieures.
Notes techniques
Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.
Un module qui accepte un jeu de données comme entrée peut également accepter des données au format CSV, TSV ou ARFF. Avant l'exécution d'un quelconque code de module, les entrées sont prétraitées, ce qui équivaut à exécuter le module Convertir au format Dataset sur l'entrée.
Vous ne pouvez pas effectuer de conversion depuis le format SVMLight au format de jeu de données.
Quand vous spécifiez une opération de remplacement personnalisé, l’opération de recherche et de remplacement s’applique à des valeurs complètes ; les correspondances partielles ne sont pas autorisées. Par exemple, vous pouvez remplacer un 3 par -1 ou 33, mais vous ne pouvez pas remplacer un 3 dans un nombre à deux chiffres, tel que 35.
Pour les opérations de remplacement personnalisé, le remplacement échoue silencieusement si vous utilisez comme remplacement tout caractère qui n’est pas conforme au type de données actuel de la colonne.
Si vous devez enregistrer des données qui utilisent des données numériques éparses et qui ont des valeurs manquantes, en interne, Studio (Classic) prend en charge les tableaux épars à l’aide d’un SparseVector, qui est une classe de la bibliothèque numérique Math.NET. Préparez vos données qui utilisent des zéros et qui ont des valeurs manquantes, puis utilisez Convert to DataSet avec les arguments SparseOutput et Remove NULLS = true.
Entrées attendues
Nom | Type | Description |
---|---|---|
Dataset | Table de données | Jeu de données d'entrée |
Paramètres du module
Nom | Plage | Type | Default | Description |
---|---|---|---|---|
Action | Liste | Méthode d'action | None | Action à appliquer sur le jeu de données d'entrée |
Output
Nom | Type | Description |
---|---|---|
Jeu de données de résultats | Table de données | Jeu de données de sortie |
Voir aussi
Conversion des formats de données
Liste alphabétique des modules