Joindre des données
Cet article décrit comment utiliser le composant Joindre des données dans le concepteur Azure Machine Learning pour fusionner deux jeux de données à l’aide d’une opération de jointure basée sur la base de données.
Configuration de Joindre des données
Pour joindre deux jeux de données, ces derniers doivent être liés par une colonne clé. Les clés composites utilisant plusieurs colonnes sont également prises en charge.
Ajoutez les jeux de données que vous souhaitez combiner, puis faites glisser le composant Joindre des données dans votre pipeline.
Vous pouvez rechercher le composant dans la catégorie Transformation des données, sous Manipulation.
Connectez les jeux de données au composant Joindre des données.
Sélectionnez Lancer le sélecteur de colonne pour choisir au moins une colonne clé. Assurez-vous de choisir les colonnes pour les entrées de gauche et de droite.
Pour une clé unique :
Sélectionnez une colonne clé unique pour les deux entrées.
Pour une clé composite :
Sélectionnez toutes les colonnes clés dans le même ordre pour l’entrée de gauche et de droite. Le composant Joindre des données joindra les tables lorsque toutes les colonnes clés correspondront. Activez l’option Autoriser les doublons et conserver l’ordre des colonnes de la sélection si l’ordre des colonnes n’est pas identique à celui de la table d’origine.
Sélectionnez l’option Respecter la casse si vous souhaitez conserver le respect de la casse sur une jointure de colonne de texte.
Utilisez la liste déroulante Type de jointure pour spécifier la méthode de combinaison des jeux de données.
Jointure interne : une jointure interne est l’opération de jointure la plus courante. Elle renvoie les lignes combinées uniquement lorsque les valeurs des colonnes clés correspondent.
Jointure externe gauche : une jointure externe gauche renvoie les lignes jointes pour toutes les lignes issues de la table de gauche. Lorsqu’une ligne dans la table de gauche ne présente aucune ligne correspondante dans la table de droite, la ligne retournée contient des valeurs manquantes pour toutes les colonnes issues de la table de droite. Vous pouvez également spécifier une valeur de remplacement pour les valeurs manquantes.
Jointure externe entière : une jointure externe complète renvoie toutes les lignes de la table de gauche (table1) et de la table de droite (table2).
Pour chacune des lignes d’une des tables qui ne correspond à aucune ligne dans l’autre, le résultat inclut une ligne contenant les valeurs manquantes.
Semi-jointure gauche : une semi-jointure gauche renvoie uniquement les valeurs issues de la table de gauche lorsque les valeurs des colonnes clés correspondent.
Pour l’option Conserver les colonnes clés de droite dans la table jointe :
- Sélectionnez cette option pour afficher les clés des deux tables d’entrée.
- Désélectionnez-la pour retourner uniquement les colonnes clés issues de l’entrée de gauche.
Envoyez le pipeline.
Pour afficher les résultats, cliquez avec le bouton droit sur Joindre des données, puis sélectionnez Visualiser.
Étapes suivantes
Consultez les composants disponibles pour Azure Machine Learning.