Totaliser les données
Important
Le support de Machine Learning Studio (classique) prend fin le 31 août 2024. Nous vous recommandons de passer à Azure Machine Learning avant cette date.
À partir du 1er décembre 2021, vous ne pourrez plus créer de nouvelles ressources Machine Learning Studio (classique). Jusqu’au 31 août 2024, vous pouvez continuer à utiliser les ressources Machine Learning Studio (classique) existantes.
- Consultez les informations sur le déplacement des projets de machine learning de ML Studio (classique) à Azure Machine Learning.
- En savoir plus sur Azure Machine Learning.
La documentation ML Studio (classique) est en cours de retrait et ne sera probablement plus mise à jour.
Génère un rapport de statistiques descriptives de base pour les colonnes d'un jeu de données
Catégorie : fonctions statistiques
Notes
s’applique à: Machine Learning Studio (classic) uniquement
Des modules par glisser-déposer similaires sont disponibles dans Concepteur Azure Machine Learning.
Vue d’ensemble du module
cet article explique comment utiliser le module synthétiser des données dans Machine Learning Studio (classic) pour créer un ensemble de mesures statistiques standard qui décrivent chaque colonne dans la table d’entrée.
Ces statistiques de synthèse sont utiles lorsque vous souhaitez comprendre les caractéristiques du jeu de données complet. Par exemple, vous pouvez vous poser les questions suivantes :
- Combien y a-t-il de valeurs manquantes dans chaque colonne ?
- Combien y a-t-il de valeurs uniques dans une colonne de caractéristiques ?
- Quels sont la moyenne et l’écart type de chaque colonne ?
Le module calcule les scores importants de chaque colonne et retourne une ligne de statistiques récapitulatives pour chaque variable (colonne de données) fournie comme entrée.
Conseil
Vous savez peut-être déjà que vous pouvez obtenir une liste succincte de statistiques à l’aide de l’option visualiser dans Studio (Classic). Toutefois, cette visualisation est créée en fonction d’un nombre de lignes supérieur. En revanche, le module synthétiser les données calcule ses statistiques sur toutes les lignes de données.
Comment utiliser la synthèse des données
Ajoutez le module synthétiser les données à votre expérience. Vous pouvez trouver ce module dans la catégorie des fonctions statistiques de Studio (Classic).
Connectez le jeu de données pour lequel vous voulez générez un rapport.
Si vous voulez créer un rapport sur certaines colonnes seulement, utilisez le module Sélectionner des colonnes dans le jeu de données pour projeter un sous-ensemble de colonnes à utiliser.
Aucun paramètre supplémentaire n’est nécessaire. Par défaut, le module analyse toutes les colonnes fournies en entrée et, en fonction du type des valeurs dans les colonnes, génère un ensemble de statistiques pertinent, comme décrit dans la section Résultats.
Exécutez l’expérience, ou cliquez avec le bouton droit sur le module et sélectionnez exécuter sélectionné.
Résultats
Le rapport du module peut comprendre les statistiques suivantes.
Les statistiques exactes qui sont générées dépendent du type de données de la colonne. Pour plus d’informations, consultez la section Notes techniques .
L’hypothèse est faite que les instances appartiennent à un échantillon représentatif d’une population. Si vous devez calculer des statistiques sur un remplissage, utilisez les options du module Compute élémentaire Statistics , qui peut calculer des statistiques d’échantillonnage ou de remplissage.
Nom de la colonne | Description |
---|---|
Fonctionnalité | Nom de la colonne |
Count | Nombre total des lignes |
Unique Value Count | Nombre de valeurs uniques dans la colonne |
Missing Value Count | Nombre de valeurs uniques dans la colonne |
Min | Valeur la plus basse de la colonne |
Max | Valeur la plus haute de la colonne |
Mean | Moyenne de toutes les valeurs de colonne |
Mean Deviation | Écart moyen des valeurs de colonne |
1st Quartile | Valeur au premier quartile |
Median | Valeur de colonne médiane |
3rd Quartile | Valeur au troisième quartile |
Mode | Mode des valeurs de colonne |
Plage | Entier représentant le nombre de valeurs comprises entre les valeurs maximale et minimale |
Sample Variance | Variance de la colonne. Voir la section Note |
Sample Standard Deviation | Écart type de la colonne. Voir la section Note |
Sample Skewness | Asymétrie de la colonne. Voir la section Note |
Sample Kurtosis | Kurtosis de la colonne. Voir la section Note |
P0.5 | 0,5e centile |
P1 | 1er centile |
P5 | 5e centile |
P95 | 95e centile |
P99.5 | 99,5e centile |
Conseil
Sortie du rapport de statistiques sous la forme d’un jeu de données tabulaire, afin que vous puissiez utiliser les données dans les outils de création de rapports BI ou utiliser les valeurs comme entrée pour une autre opération de l’expérience.
Exemples
Pour obtenir des exemples d’utilisation du module synthétiser des données dans une expérience, consultez la Azure ai Gallery:
télécharger le jeu de données à partir de UCI: lit un jeu de données au format CSV à l’aide de son URL dans le référentiel Machine Learning UCI et génère des statistiques de base sur le jeu de données.
Traitement et analyse des jeux de données: charge le DataSet dans l’espace de travail, modifie les noms des colonnes et ajoute des métadonnées.
Prédiction des performances des élèves: lit les données stockées au format TSV à partir du stockage d’objets BLOB Azure.
Notes techniques
Pour les colonnes numériques et booléennes, vous pouvez générer la moyenne, la médiane, le mode et l’écart type.
Pour les colonnes non numériques, seules les valeurs de Count, d'Unique value count et de Missing value count sont calculées. Pour les autres statistiques, une valeur Null est renvoyée.
Les colonnes contenant des valeurs booléennes sont traitées à l'aide des règles suivantes :
Lors du calcul de Min, un opérateur logique AND est appliqué.
Lors du calcul de Max, un opérateur logique or est appliqué
Lors du calcul de Range, le module vérifie d'abord si le nombre de valeurs uniques dans la colonne est égal à 2.
Lors du calcul des statistiques nécessitant des calculs à virgule flottante, les valeurs True sont traitées comme 1,0, et les valeurs False comme 0,0.
Entrées attendues
Nom | Type | Description |
---|---|---|
Dataset | Table de données | Jeu de données d'entrée |
Output
Nom | Type | Description |
---|---|---|
Jeu de données de résultats | Table de données | Profil du jeu de données d'entrée contenant des statistiques descriptives |
Exceptions
Exception | Description |
---|---|
Erreur 0003 | Une exception se produit si une ou plusieurs entrées ont la valeur Null ou sont vides. |
Erreur 0020 | Cette exception est levée quand le nombre de colonnes dans certains jeux de données transmis au module est trop petit. |
Erreur 0021 | Cette exception est levée quand le nombre de lignes dans certains jeux de données transmis au module est trop petit. |
pour obtenir la liste des erreurs spécifiques aux modules Studio (classiques), consultez Machine Learning codes d’erreur.
pour obtenir la liste des exceptions d’api, consultez Machine Learning les Codes d’erreur de l' api REST.
Voir aussi
Fonctions statistiques
Calculer des statistiques élémentaires