Analyse des composants principaux (PCA, Principal Component Analysis)
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
Calcule un ensemble de fonctionnalités de dimensionnalité réduite pour un apprentissage plus efficace
Catégorie : transformation des données/exemple et fractionnement
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
Vue d’ensemble du module
cet article explique comment utiliser le module d' analyse de composant Principal dans Machine Learning Studio (classic) pour réduire la dimensionnalité de vos données d’apprentissage. Le module analyse vos données et crée un ensemble de fonctionnalités réduit qui capture toutes les informations contenues dans le jeu de données, mais dans un plus petit nombre de fonctionnalités.
Le module crée également une transformation que vous pouvez appliquer aux nouvelles données, afin d'obtenir une réduction de dimensionnalité et une compression des fonctionnalités similaires, sans nécessiter d'apprentissage supplémentaire.
En savoir plus sur l'analyse en composantes principales (ACP)
L’analyse des composants principaux (PCA, principal Component Analysis) est une technique populaire dans Machine Learning. Il s’appuie sur le fait que de nombreux types de données d’espace vectoriel sont compressibles, et que la compression peut être obtenue le plus efficacement en échantillonnant.
Les avantages supplémentaires de PCA sont la visualisation améliorée des données et l’optimisation de l’utilisation des ressources par l’algorithme d’apprentissage.
le module d' analyse du composant Principal dans Machine Learning Studio (classic) prend un ensemble de colonnes de fonctionnalités dans le jeu de données fourni et crée une projection de l’espace de fonctionnalité qui a une dimensionnalité plus faible. L’algorithme utilise des techniques de randomisation pour identifier un sous-espace de fonctionnalité qui capture la plupart des informations dans la matrice de fonctionnalités complète. Par conséquent, les matrices de données transformées capturent la variance dans les données d’origine tout en réduisant l’effet de bruit et en minimisant le risque de surajustement.
Pour obtenir des informations générales sur l’analyse des composants principaux (PCA), consultez cet article de Wikipédia. Pour plus d’informations sur les approches de l’APC utilisées dans ce module, consultez les articles suivants :
Recherche de la structure avec caractère aléatoire : algorithmes probabilistes pour la construction de décompositions de matrice approximatives. Halko, Martinsson et Tropp, 2010.
Combinaison de la randomisation structurée et non structurée dans l’APC à grande échelle Combinaison de la randomisation structurée et non structurée dans l’APC à grande échelle. Karampatziakis et Mineiro, 2013.
Configuration de l’analyse des composants principaux
Ajoutez le module d' analyse du composant principal à votre expérience. Vous pouvez le trouver dans la section transformation des données, dans la catégorie mettre à l' échelle et réduire .
Connecter le jeu de données que vous souhaitez transformer, puis choisissez les colonnes de fonctionnalités à analyser.
S’il n’est pas encore évident que les colonnes sont des fonctionnalités et des étiquettes, nous vous recommandons d’utiliser le module modifier les métadonnées pour marquer les colonnes à l’avance.
Nombre de dimensions à réduire: tapez le nombre de colonnes souhaité dans la sortie finale. Chaque colonne représente une dimension capturant une partie des informations contenues dans les colonnes d’entrée.
Par exemple, si le jeu de données source comporte huit colonnes et que vous tapez
3
, trois nouvelles colonnes sont retournées pour capturer les informations des huit colonnes sélectionnées. Les colonnes sont nomméesCol1
,Col2
etCol3
. Ces colonnes ne correspondent pas directement aux colonnes sources ; au lieu de cela, les colonnes contiennent une approximation de l’espace de fonctionnalité décrit par les colonnes d’origine 1-8.Conseil
L’algorithme fonctionne de façon optimale lorsque le nombre de dimensions réduites est bien plus petit que les dimensions d’origine.
Normaliser le jeu de données dense à zéro: sélectionnez cette option si le jeu de données est dense, ce qui signifie qu’il contient peu de valeurs manquantes. Si cette option est sélectionnée, le module normalise les valeurs des colonnes sur une moyenne de zéro avant tout autre traitement.
Pour les jeux de données épars, cette option ne doit pas être sélectionnée. Si un jeu de données épars est détecté, le paramètre est substitué.
Exécutez l’expérience.
Résultats
Le module génère un ensemble réduit de colonnes que vous pouvez utiliser pour créer un modèle. Vous pouvez enregistrer la sortie en tant que nouveau jeu de données ou l’utiliser dans votre expérience.
Si vous le souhaitez, vous pouvez enregistrer le processus d’analyse en tant que transformation enregistrée, pour l’appliquer à un autre jeu de données à l’aide de l’option appliquer la transformation.
Le jeu de données auquel vous appliquez la transformation doit avoir le même schéma que le DataSet d’origine.
Exemples
Pour obtenir des exemples d’utilisation de l’analyse des composants principaux dans Machine Learning, consultez la Azure ai Gallery:
Clustering : Rechercher des sociétés similaires: utilise l’analyse des composants principaux pour réduire le nombre de valeurs d’exploration de texte à un nombre gérable de fonctionnalités.
Bien que dans cet exemple d’Assistant PCA soit appliqué à l’aide d’un script R personnalisé, il montre comment PCA est généralement utilisé.
Notes techniques
Il existe deux étapes pour le calcul des composants de dimension inférieure.
- La première consiste à construire un sous-espace à faible dimension qui capture l’action de la matrice.
- La seconde consiste à limiter la matrice au sous-espace, puis à calculer une factorisation standard de la matrice réduite.
Entrées attendues
Nom | Type | Description |
---|---|---|
Dataset | Table de données | Jeu de données dont les dimensions doivent être réduites |
Paramètres du module
Nom | Type | Plage | Facultatif | Description | Default |
---|---|---|---|---|---|
Colonnes sélectionnées | ColumnSelection | Obligatoire | Colonnes sélectionnées auxquelles appliquer l'analyse PCA | ||
Nombre de dimensions après réduction | Entier | >=1 | Obligatoire | Nombre de dimensions souhaitées dans le jeu de données réduit | |
Normaliser un jeu de données dense à une moyenne de zéro | Boolean | Obligatoire | true | Indiquer si la moyenne des colonnes d'entrée est normalisée pour les jeux de données denses (pour les données éparses, le paramètre est ignoré) |
Sorties
Nom | Type | Description |
---|---|---|
Jeu de données de résultats | Table de données | Jeu de données avec des dimensions réduites |
Transformation PCA | Interface ITransform | Transformation qui, appliquée à un jeu de données, génère un nouveau jeu de données avec des dimensions réduites |
Exceptions
Exception | Description |
---|---|
Erreur 0001 | Une exception se produit si une ou plusieurs colonnes spécifiées du jeu de données sont introuvables. |
Erreur 0003 | Cette exception se produit si une ou plusieurs entrées sont null ou vide. |
Erreur 0004 | Une exception se produit si le paramètre est inférieur ou égal à une valeur spécifique. |
pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.
pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.