Leçon 1 : Création de la structure d’exploration de données Bike Buyer
Dans cette leçon, vous allez créer une structure d’exploration de données qui vous permet de prédire si un client potentiel d’Adventure Works Cycles achètera un vélo. Si vous n’êtes pas familiarisé avec les structures d’exploration de données et leur rôle dans l’exploration de données, consultez Structures d’exploration de données (Analysis Services - Exploration de données).
La structure d’exploration de données Bike Buyer que vous allez créer dans cette leçon prend en charge l’ajout de modèles d’exploration de données basés sur l’algorithme Microsoft Clustering AlgorithmMicrosoft Decision Trees. Au cours d'autres leçons, vous utiliserez les modèles d'exploration de données clustering pour examiner différentes méthodes de regroupement des clients et exploiterez les modèles d'exploration de données d'arbre de décision pour déterminer si un client potentiel est susceptible d'acheter un vélo.
Instruction CREATE MINING STRUCTURE
Pour créer une structure d’exploration de données, vous utilisez l’instruction CREATE MINING STRUCTURE (DMX). Le code de l’instruction peut être divisé en parties suivantes :
Attribution d'un nom à la structure.
Définition de la colonne clé.
Définition des colonnes d'exploration de données.
Définition d'un jeu de données de test facultatif.
L'exemple générique suivant utilise l'instruction CREATE MINING STRUCTURE :
CREATE MINING STRUCTURE [<mining structure name>]
(
<key column>,
<mining structure columns>
)
WITH HOLDOUT (<holdout specifier>)
La première ligne du code définit le nom de la structure :
CREATE MINING STRUCTURE [<mining structure name>]
Pour plus d’informations sur le nommage d’un objet dans Les extensions d’exploration de données (DMX), consultez Identificateurs (DMX).
La ligne suivante du code définit la colonne clé de la structure d'exploration de données qui identifie de manière unique une entité au sein des données source :
<key column>,
Dans la structure d'exploration de données que vous allez créer, l'identificateur du client, CustomerKey
, définit une entité dans les données sources.
La ligne suivante du code permet de définir les colonnes d'exploration de données qu'utilisent les modèles d'exploration de données associés à la structure d'exploration de données :
<mining structure columns>
Vous pouvez utiliser la fonction DISCRETIZE dans <les colonnes> de structure d’exploration de données pour discrétiser les colonnes continues à l’aide de la syntaxe suivante :
DISCRETIZE(<method>,<number of buckets>)
Pour plus d’informations sur la discrétisation des colonnes, consultez Méthodes de discrétisation (exploration de données). Pour plus d’informations sur les types de colonnes de structure d’exploration de données que vous pouvez définir, consultez Colonnes de structure d’exploration de données.
La dernière ligne du code définit une partition facultative dans la structure d'exploration de données :
WITH HOLDOUT (<holdout specifier>)
Vous spécifiez une partie des données à utiliser pour tester des modèles d'exploration de données associés à la structure, puis les données restantes sont utilisées pour l'apprentissage des modèles. Par défaut, Analysis Services crée un jeu de données de test qui contient 30 % de toutes les données de cas. Vous ajoutez ensuite la spécification selon laquelle le jeu de données de test doit contenir 30 pour cent des cas jusqu'à un maximum de 1000 cas. Si 30 pour cent des cas représente moins de 1000, le jeu de données de test contient alors la plus petite quantité.
Tâches de la leçon
Vous allez effectuer les tâches suivantes dans cette leçon :
créer une nouvelle requête vide ;
Modifiez la requête pour créer la structure d’exploration de données.
exécutez la requête.
Création de la requête
La première étape consiste à se connecter à un instance d’Analysis Services et à créer une requête DMX dans SQL Server Management Studio.
Pour créer une requête DMX dans SQL Server Management Studio
Ouvrez SQL Server Management Studio.
Dans la boîte de dialogue Se connecter au serveur , pour Type de serveur, sélectionnez Analysis Services. Dans Nom du serveur, tapez
LocalHost
ou tapez le nom du instance d’Analysis Services auquel vous souhaitez vous connecter pour cette leçon. Cliquez sur Connexion.Dans Explorateur d'objets, cliquez avec le bouton droit sur le instance d’Analysis Services, pointez sur Nouvelle requête, puis cliquez sur DMX pour ouvrir le Éditeur de requête et une nouvelle requête vide.
Modification de la requête
L'étape suivante implique de modifier l'instruction CREATE MINING STRUCTURE décrite ci-avant en vue de créer la structure d'exploration de données Bike Buyer.
Pour personnaliser l'instruction CREATE MINING STRUCTURE
Dans l'Éditeur de requête, copiez l'exemple générique de l'instruction CREATE MINING STRUCTURE dans la requête vide.
Remplacez le code suivant :
[<mining structure>]
par :
[Bike Buyer]
Remplacez le code suivant :
<key column>
par :
CustomerKey LONG KEY
Remplacez le code suivant :
<mining structure columns>
par :
[Age] LONG DISCRETIZED(Automatic,10), [Bike Buyer] LONG DISCRETE, [Commute Distance] TEXT DISCRETE, [Education] TEXT DISCRETE, [Gender] TEXT DISCRETE, [House Owner Flag] TEXT DISCRETE, [Marital Status] TEXT DISCRETE, [Number Cars Owned] LONG DISCRETE, [Number Children At Home] LONG DISCRETE, [Occupation] TEXT DISCRETE, [Region] TEXT DISCRETE, [Total Children]LONG DISCRETE, [Yearly Income] DOUBLE CONTINUOUS
Remplacez le code suivant :
WITH HOLDOUT (holdout specifier>)
par :
WITH HOLDOUT (30 PERCENT or 1000 CASES)
L'instruction complète de la structure d'exploration de données doit se présenter comme suit :
CREATE MINING STRUCTURE [Bike Buyer] ( [Customer Key] LONG KEY, [Age]LONG DISCRETIZED(Automatic,10), [Bike Buyer] LONG DISCRETE, [Commute Distance] TEXT DISCRETE, [Education] TEXT DISCRETE, [Gender] TEXT DISCRETE, [House Owner Flag] TEXT DISCRETE, [Marital Status] TEXT DISCRETE, [Number Cars Owned]LONG DISCRETE, [Number Children At Home]LONG DISCRETE, [Occupation] TEXT DISCRETE, [Region] TEXT DISCRETE, [Total Children]LONG DISCRETE, [Yearly Income] DOUBLE CONTINUOUS ) WITH HOLDOUT (30 PERCENT or 1000 CASES)
Dans le menu Fichier , cliquez sur Enregistrer DMXQuery1.dmx sous.
Dans la boîte de dialogue Enregistrer sous , accédez au dossier approprié et nommez le fichier
Bike Buyer Structure.dmx
.
Exécution de la requête
La dernière étape concerne l'exécution de la requête. Après avoir créé et enregistrée une requête, elle doit être exécutée. Autrement dit, l'instruction doit être exécutée pour créer la structure d'exploration de données sur le serveur. Pour plus d’informations sur l’exécution de requêtes dans Éditeur de requête, consultez Éditeur de requête du moteur de base de données (SQL Server Management Studio).
Pour exécuter la requête
Dans Éditeur de requête, dans la barre d’outils, cliquez sur Exécuter.
Le status de la requête s’affiche sous l’onglet Messages en bas de Éditeur de requête une fois l’exécution de l’instruction terminée. Les messages doivent révéler le texte suivant :
Executing the query Execution complete
Une nouvelle structure nommée Bike Buyer existe maintenant sur le serveur.
Dans la leçon suivante, vous allez ajouter des modèles d'exploration de données à la structure que vous venez de créer.