Fractionner les donnés avec Split Rows
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
cet article explique comment utiliser l’option fractionner les lignes dans le module fractionner les données de Machine Learning Studio (classic). Cette option est particulièrement utile lorsque vous devez diviser des jeux de données utilisés pour l’apprentissage et le test, soit de manière aléatoire, soit selon certains critères.
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
L’option fractionner les lignes prend en charge les fractionnements aléatoires et stratifiés. Par exemple, vous pouvez spécifier une division 70-30, ou un fractionnement 10-90 avec votre variable cible, de manière égale dans les deux jeux de données.
Pour obtenir des informations générales sur le partitionnement des données pour les expériences Machine Learning, consultez fractionner des données et partitionner et fractionner.
Tâches associées
D’autres options du module fractionner les données prennent en charge différentes façons de diviser les données :
Fractionner des données à l’aide d’expressions régulières: appliquez une expression régulière à une colonne de texte unique et divisez le DataSet en fonction des résultats.
Fractionner des données à l’aide d’expressions relatives: appliquer une expression à une colonne numérique et diviser le DataSet en fonction des résultats
Jeux de données de recommandation de fractionnement: diviser les jeux de données utilisés dans les modèles de recommandation. Le jeu de données doit contenir trois colonnes : éléments, utilisateurs et évaluations.
Diviser un jeu de données en deux groupes
Ajoutez le module fractionner les données à votre expérience dans Studio (Classic) et connectez le jeu de données que vous souhaitez fractionner.
Pour Mode de fractionnement, sélectionnez Lignes fractionnées.
Fraction de lignes dans le premier jeu de données de sortie. Utilisez cette option pour déterminer le nombre de lignes de la première sortie (à gauche). Toutes les autres lignes rejoindront la deuxième sortie (à droite).
Le rapport représente le pourcentage de lignes envoyées au premier jeu de données de sortie, et vous devez entrer un nombre décimal compris entre 0 et 1.
Par exemple, si vous entrez 0,75 en tant que valeur, le jeu de données est fractionné selon un taux de 75:25, 75 % des lignes rejoignent le premier jeu de données de sortie et 25 %, le second.
Sélectionnez l'option Fractionnement aléatoire si vous souhaitez rendre aléatoire la sélection de données dans les deux groupes. Cette option est recommandée lors de la création de jeux de données de formation et de test.
Valeur initiale aléatoire: tapez une valeur entière non négative pour initialiser la séquence Pseudo-aléatoire des instances à utiliser. Cette valeur de départ par défaut est utilisée dans tous les modules qui génèrent des nombres aléatoires.
Spécifier une valeur de départ rend les résultats généralement reproductibles. Pour répéter les résultats d’une opération de fractionnement, vous devez spécifier une valeur de départ pour le générateur de nombres aléatoires. Sinon, la valeur de départ aléatoire est définie sur 0 par défaut, ce qui signifie qu’elle est obtenue à partir de l’horloge système. Dès lors, la répartition des données peut légèrement varier chaque fois que vous effectuez un fractionnement.
Fractionnement stratifié : Définissez cette option sur True pour vous assurer que les deux jeux de données de sortie contiennent un échantillon représentatif des valeurs dans la colonne de strate ou la colonne clé de stratification.
Avec un échantillonnage stratifié, les données sont divisées de manière à ce que chaque jeu de données de sortie obtienne approximativement le même pourcentage de chaque valeur cible. Par exemple, vous souhaiterez peut-être vous assurer que vos jeux de formation et de test sont à peu près équilibrés en ce qui concerne le résultat, ou en ce qui concerne une autre colonne telle que le sexe.
Exécutez l’expérience, ou cliquez avec le bouton droit sur le module et sélectionnez exécuter sélectionné.
Exemples
Les exemples suivants montrent comment effectuer des fractionnements simples à l’aide du mode fractionner les lignes .
Fractionner en deux parties égales
Ajoutez le module fractionner les données après le jeu de données sans aucune autre modification. Par défaut, le module fractionne le jeu de données en deux parties égales. Pour les données contenant un nombre impair de lignes, le deuxième résultat fournit le reste.
Fractionner en tiers
Supposons que vous souhaitiez fractionner un jeu de données en deux parties, avec une troisième des données utilisées pour l’apprentissage et le reste pour les tests ou les fractionnements supplémentaires.
Pour ce faire, ajoutez un module fractionner les données et définissez la fraction de lignes dans la première sortie sur 0,33. La deuxième sortie contient les deux tiers restants.
Pour diviser la deuxième sortie en parties égales, ajoutez une autre instance du module fractionner les données , et cette fois, utilisez la valeur par défaut pour une division 50-50.
Notes techniques
Cette section contient des détails, des conseils et des réponses aux questions fréquentes concernant l’implémentation.
Informations d’implémentation
Ce module nécessite que le DataSet contienne au moins deux lignes ; dans le cas contraire, une erreur est générée.
Si vous utilisez l'option permettant de spécifier le nombre de lignes souhaité, le nombre spécifié doit être un entier positif inférieur au nombre total de lignes dans le jeu de données.
Toutes les valeurs de pourcentage doivent être comprises dans la plage 0 et 1.
Si vous spécifiez un nombre ou un pourcentage comme nombre à virgule flottante inférieur à un, et que vous n’utilisez pas le symbole de pourcentage (%), le nombre est interprété comme une valeur proportionnelle.
Exigences supplémentaires pour l’échantillonnage stratifié
La colonne strates peut contenir uniquement des données nominales ou catégoriques. Si la colonne contient des données numériques continues, un message d’erreur est généré.
Une colonne avec un trop grand nombre de valeurs uniques n’est pas un bon candidat pour la stratification. Vous pouvez essayer de réduire certaines catégories ou regrouper des valeurs à l’avance.