Méthodes de discrétisation (exploration de données)

Article
2017-03-06

Certains algorithmes utilisés pour créer des modèles d’exploration de données dans SQL Server Analysis Services nécessitent des types de contenu spécifiques pour fonctionner correctement. Par exemple, l’algorithme Microsoft Naive Bayes ne peut pas utiliser de colonnes continues comme entrée et ne peut pas prédire les valeurs continues. En outre, certaines colonnes peuvent contenir tellement de valeurs que l'algorithme ne peut pas identifier facilement les motifs intéressants qui ressortent des données et qui vont servir à créer un modèle.

Dans ce cas, vous pouvez discrétiser les données des colonnes afin de pouvoir utiliser les algorithmes pour créer un modèle d'exploration de données. Ladiscrétisation est le processus consistant à mettre des valeurs dans des compartiments afin d’obtenir un nombre limité d’états possibles. Les compartiments eux-mêmes sont traités comme des valeurs discrètes et ordonnées. Vous pouvez discrétiser les colonnes de nombres et de chaînes.

Plusieurs méthodes vous permettent de discrétiser des données. Si votre solution d’exploration de données utilise des données relationnelles, vous pouvez déterminer le nombre de compartiments à utiliser pour le regroupement des données en définissant la valeur de la propriété DiscretizationBucketCount . Le nombre de compartiments par défaut est 5.

Si votre solution d’exploration de données utilise les données d’un cube OLAP (Online Analytical Processing), l’algorithme d’exploration de données calcule automatiquement le nombre de compartiments à générer, en utilisant l’équation suivante, où « n » est le nombre de valeurs distinctes de données dans la colonne :

Number of Buckets = sqrt(n)

Si vous ne souhaitez pas qu’Analysis Services calcule le nombre de compartiments, vous pouvez utiliser la DiscretizationBucketCount propriété pour spécifier manuellement le nombre de compartiments.

Le tableau suivant décrit les méthodes que vous pouvez utiliser pour discrétiser des données dans Analysis Services.

Méthode de discrétisation	Description
`AUTOMATIC`	Analysis Services détermine la méthode de discrétisation à utiliser.
`CLUSTERS`	L'algorithme divise les données en groupes en échantillonnant les données d'apprentissage, en initialisant à un certain nombre de points aléatoires, puis en exécutant plusieurs itérations de l'algorithme MC (Microsoft Clustering) à l'aide de la méthode de clustering EM (expectation-maximisation). La méthode `CLUSTERS` est utile car elle fonctionne sur n'importe quelle courbe de distribution. Cependant, elle nécessite une durée de traitement plus longue que les autres méthodes de discrétisation. Cette méthode peut uniquement être utilisée sur des colonnes numériques.
`EQUAL_AREAS`	L'algorithme divise les données en groupes contenant un nombre égal de valeurs. Cette méthode convient surtout aux courbes de distribution normales, mais elle n'est pas efficace si la distribution comprend un nombre élevé de valeurs dans un groupe resserré de valeurs continues. Par exemple, si la moitié des éléments a un coût de 0, la moitié des données se trouvera sous un point unique de la courbe. Dans ce type de distribution, cette méthode disperse les données pour tenter d'établir une discrétisation équivalente dans plusieurs zones, ce qui engendre une représentation inexacte des données.

Notes

Vous pouvez utiliser la méthode EQUAL_AREAS pour discrétiser des chaînes.
La méthode CLUSTERS utilise un échantillon aléatoire de 1 000 enregistrements pour discrétiser les données. Utilisez la méthode EQUAL_AREAS si vous ne voulez pas que l'algorithme échantillonne les données.
Le didacticiel du modèle d'exploration de données du réseau neuronal fournit un exemple montrant comment la discrétisation peut être personnalisée. Pour plus d’informations, consultez Leçon 5 : Création de modèles de régression logistique et de réseau neuronal (didacticiel sur l’exploration de données intermédiaire).

Voir aussi

Types de contenu (Exploration de données)
Types de contenu (DMX)
Algorithmes d'exploration de données (Analysis Services - Exploration de données)
Structures d'exploration de données (Analysis Services – exploration de données)
Types de données (Exploration de données)
Colonnes de structure d'exploration de données
Distributions de colonnes (exploration de données)

Partager via

Méthodes de discrétisation (exploration de données)

Notes

Voir aussi

Ressources supplémentaires