Personnaliser les modèles et les structures d'exploration de données

Article
03/06/2017

Après avoir sélectionné un algorithme qui répond aux besoins de votre entreprise, vous pouvez personnaliser le modèle d'exploration de données de plusieurs façons pour éventuellement améliorer les résultats.

Utilisez des colonnes de données différentes dans le modèle ou modifiez l'utilisation, le type de contenu ou la méthode de discrétisation pour les colonnes.
Créez des filtres sur le modèle d'exploration de données pour limiter les données utilisées dans l'apprentissage du modèle.
Modifiez l'algorithme utilisé pour analyser les données.
Définissez les paramètres d'algorithme pour contrôler les seuils, les fractionnements d'arborescence et d'autres conditions importantes.

Cette rubrique décrit ces options.

Modification des données utilisées par le modèle

Les décisions que vous prenez concernant les colonnes de données à utiliser dans le modèle et la façon d'utiliser et de traiter ces données affectent considérablement les résultats de l'analyse. Les rubriques suivantes fournissent des informations vous permettant de comprendre ces choix.

Utilisation de la sélection des fonctionnalités

La plupart des algorithmes d’exploration de données dans Analysis Services utilisent un processus appelé sélection de fonctionnalités pour sélectionner uniquement les attributs les plus utiles pour l’ajout à un modèle. Le fait de réduire le nombre de colonnes et d'attributs peut améliorer les performances et la qualité du modèle. Les méthodes de sélection de fonctionnalités qui sont disponibles diffèrent en fonction de l'algorithme que vous choisissez.

Sélection des fonctionnalités (exploration de données).

Modification de l'utilisation

Vous pouvez modifier les colonnes incluses dans un modèle d'exploration de données et la façon dont chaque colonne est utilisée. Si vous n'obtenez pas les résultats attendus, vous devez référencer les colonnes vous avez utilisées comme entrée et vous demander si les colonnes sont un choix adéquat et si vous pouvez faire quelque chose pour améliorer la gestion des données, notamment :

Identifier des variables catégorielles étiquetées par erreur en tant que nombres.
Ajouter des catégories pour réduire le nombre d'attributs et permettre de trouver des corrélations plus facilement.
Modifier la façon dont les nombres sont placés dans un conteneur ou discrétisés.
Supprimer des colonnes qui possèdent de nombreuses valeurs uniques ou qui sont des données de référence réelles inutiles pour l'analyse, telles qu'une adresse ou un deuxième prénom.

Vous n’avez pas besoin de supprimer physiquement des colonnes de la structure d’exploration de données ; vous pouvez simplement marquer la colonne comme Ignorer. La colonne est supprimée du modèle d'exploration de données, mais elle peut encore être utilisée par d'autres modèles d'exploration de données dans la structure, ou référencée dans une requête d'extraction.

Créer des alias pour des colonnes du modèle

Quand Analysis Services crée le modèle d’exploration de données, il utilise les mêmes noms de colonnes que dans la structure d’exploration de données. Vous pouvez ajouter un alias à toute colonne du modèle d'exploration de données. Cela peut simplifier la compréhension du contenu ou de l'utilisation des colonnes, ou permettre de raccourcir les noms afin de simplifier la création de requêtes. Les alias sont également utiles lorsque vous souhaitez créer une copie d'une colonne et lui donner un nom descriptif.

Vous pouvez créer un alias en modifiant la propriété Name de la colonne du modèle d'exploration de données. Analysis Services continue d’utiliser le nom d’origine comme ID de la colonne, et la nouvelle valeur pour laquelle vous tapez Name devient l’alias de colonne et apparaît dans la grille entre parenthèses en regard de l’utilisation de la colonne.

alias sur les colonnes du modèle d’exploration de données

Le graphique illustre des modèles connexes qui ont plusieurs copies d'une colonne de structure d'exploration de données, tous en rapport avec le Revenu. Chaque copie de la colonne de structure a été discrétisée d'une manière différente. Les modèles du diagramme utilisent chacun une colonne différente de la structure d’exploration de données ; toutefois, pour simplifier la comparaison des colonnes des différents modèles, la colonne dans chaque modèle a été renommée [Revenus].

Ajout de filtres

Vous pouvez ajouter un filtre à un modèle d'exploration de données. Un filtre est un ensemble de conditions WHERE qui restreignent les données dans les cas de modèles à un certain sous-ensemble. Le filtre est utilisé lors de la formation du modèle et peut éventuellement être utilisé lorsque vous testez le modèle ou créez des graphiques d'analyse de précision.

En ajoutant des filtres, vous pouvez réutiliser des structures d'exploration de données mais aussi créer des modèles basés sur des sous-ensembles de données très différents. vous pouvez aussi simplement utiliser des filtres pour éliminer certaines lignes et améliorer la qualité de l'analyse.

Pour plus d’informations, consultez Filtres pour les modèles d’exploration de données (Analysis Services - Exploration de données).

Modifier l'algorithme

Bien que les nouveaux modèles ajoutés à une structure d'exploration de données partagent le même jeu de données, vous pouvez obtenir des résultats différents en utilisant un algorithme différent (si les données le prennent en charge), ou en modifiant les paramètres de l'algorithme. Vous pouvez également définir des indicateurs de modélisation.

Le choix de l'algorithme détermine le type de résultats que vous obtiendrez. Pour obtenir des informations générales sur le fonctionnement d’un algorithme spécifique ou sur les scénarios métier dans lesquels vous pourriez tirer parti de l’utilisation d’un algorithme particulier, consultez Algorithmes d’exploration de données (Analysis Services - Exploration de données).

Consultez la rubrique de références techniques pour chaque algorithme pour obtenir une description des exigences et des restrictions, ainsi que des informations détaillées sur les personnalisations prises en charge par chaque algorithme.


Algorithme MDT (Microsoft Decision Trees)	Algorithme MTS (Microsoft Time Series)
Algorithme de clustering Microsoft	Microsoft Neural Network Algorithm
Algorithme MNB (Microsoft Naive Bayes)	Algorithme MLR (Microsoft Logistic Regression)
Algorithme Microsoft Association	Algorithme MLR (Microsoft Linear Regression)
Algorithme MSC (Microsoft Sequence Clustering)

Personnaliser les paramètres d'algorithme

Chaque algorithme prend en charge des paramètres que vous pouvez utiliser pour personnaliser le comportement de l'algorithme et optimiser les résultats de votre modèle. Pour obtenir une description de l'utilisation de chaque paramètre, consultez les rubriques suivantes :

La rubrique relative à chaque type d'algorithme répertorie également les fonctions de prédiction qui peuvent être utilisées avec les modèles basés sur cet algorithme.

Nom de la propriété	S’applique à
AUTO_DETECT_PERIODICITY	Informations techniques de référence sur l’algorithme MTS (Microsoft Time Series)
CLUSTER_COUNT	Références techniques relatives à l'algorithme de gestion de clusters Microsoft Références techniques relatives à l'algorithme MSC (Microsoft Sequence Clustering)
CLUSTER_SEED	Références techniques relatives à l'algorithme de gestion de clusters Microsoft
CLUSTERING_METHOD	Références techniques relatives à l'algorithme de gestion de clusters Microsoft
COMPLEXITY_PENALTY	Références techniques relatives à l'algorithme MDT (Microsoft Decision Trees) Informations techniques de référence sur l’algorithme MTS (Microsoft Time Series)
FORCE_REGRESSOR	Références techniques relatives à l'algorithme MDT (Microsoft Decision Trees) Références techniques relatives à l'algorithme MLR (Microsoft Linear Regression) Indicateurs de modélisation (Exploration de données)
FORECAST_METHOD	Informations techniques de référence sur l’algorithme MTS (Microsoft Time Series)
HIDDEN_NODE_RATIO	Microsoft Neural Network Algorithm Technical Reference
HISTORIC_MODEL_COUNT	Informations techniques de référence sur l’algorithme MTS (Microsoft Time Series)
HISTORICAL_MODEL_GAP	Informations techniques de référence sur l’algorithme MTS (Microsoft Time Series)
HOLDOUT_PERCENTAGE	Références techniques relatives à l’algorithme MLR (Microsoft Logistic Regression) Microsoft Neural Network Algorithm Technical Reference Remarque : ce paramètre est différent de la valeur du pourcentage de données d’exclusion qui s’applique à une structure d’exploration de données.
HOLDOUT_SEED	Références techniques relatives à l’algorithme MLR (Microsoft Logistic Regression) Microsoft Neural Network Algorithm Technical Reference Remarque : ce paramètre est différent de la valeur de départ de données d’exclusion qui s’applique à une structure d’exploration de données.
INSTABILITY_SENSITIVITY	Informations techniques de référence sur l’algorithme MTS (Microsoft Time Series)
MAXIMUM_INPUT_ATTRIBUTES	Références techniques relatives à l'algorithme de gestion de clusters Microsoft Références techniques relatives à l'algorithme MDT (Microsoft Decision Trees) Références techniques relatives à l'algorithme MLR (Microsoft Linear Regression) Références techniques relatives à l'algorithme MNB (Microsoft Naive Bayes) Microsoft Neural Network Algorithm Technical Reference Références techniques relatives à l’algorithme MLR (Microsoft Logistic Regression)
MAXIMUM_ITEMSET_COUNT	Références techniques relatives à l’algorithme Microsoft Association
MAXIMUM_ITEMSET_SIZE	Références techniques relatives à l’algorithme Microsoft Association
MAXIMUM_OUTPUT_ATTRIBUTES	Références techniques relatives à l'algorithme MDT (Microsoft Decision Trees) Références techniques relatives à l'algorithme MLR (Microsoft Linear Regression) Références techniques relatives à l’algorithme MLR (Microsoft Logistic Regression) Références techniques relatives à l'algorithme MNB (Microsoft Naive Bayes) Microsoft Neural Network Algorithm Technical Reference
MAXIMUM_SEQUENCE_STATES	Références techniques relatives à l'algorithme MSC (Microsoft Sequence Clustering)
MAXIMUM_SERIES_VALUE	Informations techniques de référence sur l’algorithme MTS (Microsoft Time Series)
MAXIMUM_STATES	Références techniques relatives à l'algorithme de gestion de clusters Microsoft Microsoft Neural Network Algorithm Technical Reference Références techniques relatives à l'algorithme MSC (Microsoft Sequence Clustering)
MAXIMUM_SUPPORT	Références techniques relatives à l’algorithme Microsoft Association
MINIMUM_IMPORTANCE	Références techniques relatives à l’algorithme Microsoft Association
MINIMUM_ITEMSET_SIZE	Références techniques relatives à l’algorithme Microsoft Association
MINIMUM_DEPENDENCY_PROBABILITY	Références techniques relatives à l'algorithme MNB (Microsoft Naive Bayes)
MINIMUM_PROBABILITY	Références techniques relatives à l’algorithme Microsoft Association
MINIMUM_SERIES_VALUE	Informations techniques de référence sur l’algorithme MTS (Microsoft Time Series)
MINIMUM_SUPPORT	Références techniques relatives à l’algorithme Microsoft Association Références techniques relatives à l'algorithme de gestion de clusters Microsoft Références techniques relatives à l'algorithme MDT (Microsoft Decision Trees) Références techniques relatives à l'algorithme MSC (Microsoft Sequence Clustering) Informations techniques de référence sur l’algorithme MTS (Microsoft Time Series)
MISSING_VALUE_SUBSTITUTION	Informations techniques de référence sur l’algorithme MTS (Microsoft Time Series)
MODELLING_CARDINALITY	Références techniques relatives à l'algorithme de gestion de clusters Microsoft
PERIODICITY_HINT	Informations techniques de référence sur l’algorithme MTS (Microsoft Time Series)
PREDICTION_SMOOTHING	Informations techniques de référence sur l’algorithme MTS (Microsoft Time Series)
SAMPLE_SIZE	Références techniques relatives à l'algorithme de gestion de clusters Microsoft Références techniques relatives à l’algorithme MLR (Microsoft Logistic Regression) Microsoft Neural Network Algorithm Technical Reference
SCORE_METHOD	Références techniques relatives à l'algorithme MDT (Microsoft Decision Trees)
SPLIT_METHOD	Références techniques relatives à l'algorithme MDT (Microsoft Decision Trees)
STOPPING_TOLERANCE	Références techniques relatives à l'algorithme de gestion de clusters Microsoft

Voir aussi

Algorithmes d’exploration de données (Analysis Services - Exploration de données)Architecture physique (Analysis Services - Exploration de données)

Partager via