Mesure de la précision du modèle d'exploration de données (Analysis Services - Exploration de données)
SQL Server Analysis Services fournit plusieurs façons de déterminer si vos modèles d'exploration de données sont précis.
Vous pouvez utiliser des graphiques pour représenter visuellement la précision d'un modèle d'exploration de données : Un graphique de courbes d'élévation compare la précision des prédictions de chaque modèle. Un graphique des bénéfices présente l'augmentation théorique des bénéfices associée à l'utilisation de chaque modèle. Un nuage de points compare des valeurs réelles à des valeurs prédites, et est utilisé pour les modèles de régression ou d'autres modèles qui prédisent des attributs continus à l'aide d'entrées continues.
Vous pouvez utiliser une matrice de classification pour présenter sous forme de tableau des prédictions exactes et inexactes.
Vous pouvez utiliser la validation croisée pour valider, d'un point de vue statistique, la fiabilité de votre modèle d'exploration de données.
Pour plus d'informations, consultez Outils de création de diagramme de précision de modèle (Analysis Services - Exploration de données). Tous les types de graphiques décrits dans cette rubrique peuvent également être créés par programme en utilisant XML/A ou AMO. Pour plus d'informations sur la programmation de solutions Analysis Services, consultez Guide du développeur (Analysis Services - Exploration de données).
Notes
Après avoir déterminé que le modèle est raisonnablement précis, vous devez évaluer ses résultats dans le contexte du problème professionnel auquel le modèle devait répondre.
Cette rubrique décrit le workflow général dans Business Intelligence Development Studio ou SQL Server Management Studio pour mesurer la précision d'un modèle d'exploration de données. En fonction du type de modèle d'exploration de données que vous utilisez et le graphique que vous choisissez, certaines options peuvent être légèrement différentes, non disponibles ou configurées par défaut, mais le processus global est le suivant :
Choisissez un modèle ou une structure à tester.
Choisissez les données de test.
Filtrez éventuellement les données de test.
Choisissez un type de graphique et ouvrez-le dans la visionneuse appropriée.
Personnalisez éventuellement le graphique.
Pour obtenir une procédure pas à pas, consultez Procédure : créer un graphique d'analyse de précision pour un modèle d'exploration de données.
Choix d'un modèle ou d'une structure
Il est usuel de générer plusieurs modèles d'exploration de données pour chaque structure d'exploration de données, et que chaque modèle utilise un algorithme ou un ensemble de paramètres différent. Analysis Services permet de tester facilement plusieurs modèles d'exploration de données associés dans le même graphique. Toutefois, vous pouvez également sélectionner un seul modèle d'exploration de données pour la sortie dans un graphique d'analyse de précision.
Dans Business Intelligence Development Studio, vous sélectionnez une structure d'exploration de données, puis cliquez sur l'onglet Graphique d'analyse de précision de l'exploration de données pour ouvrir une zone de conception pour les graphiques d'analyse de précision. Dans SQL Server Management Studio, vous cliquez avec le bouton droit sur la structure d'exploration de données, puis sélectionnez Afficher le graphique de courbe d'élévation pour ouvrir la même zone de conception et créer n'importe quel type de graphique d'analyse de précision.
Si vous ajoutez plusieurs modèles d'exploration de données à un graphique, vous devez choisir des modèles d'exploration de données qui ont le même attribut prédictible. Si vous créez un graphique de courbes d'élévation, un graphique des bénéfices, un nuage de points ou une matrice de classification, vous pouvez choisir les modèles à représenter graphiquement en utilisant l'onglet Sélection d'entrée. Toutefois, si vous créez un rapport de validation croisée, Analysis Services analysera tous les modèles qui ont le même attribut prédictible.
Choix des données de test
Avant de pouvoir créer un graphique de courbes d'élévation, un graphique des bénéfices ou un nuage de points, vous devez spécifier les données que vous utiliserez pour évaluer le modèle. Dans la mesure où les données que vous utilisez pour l'évaluation ont une grande incidence sur les résultats d'évaluation, SQL Server 2008 Analysis Services fournit les options suivantes pour spécifier les données de test :
Utilisation d'une partition d'exclusion définie comme jeu de test lors de la création de la structure d'exploration de données. En utilisant une partie des données de la structure d'exploration de données comme données de test, vous pouvez mesurer de manière cohérente tous les modèles de la structure.
Définition d'une source de données externes à utiliser comme données de test.
Définition d'une source de données externes et application de filtres pour limiter les données à un sous-ensemble pertinent de cas. En définissant un filtre, vous pouvez sélectionner des données de test remplissant des conditions particulières ou contenant des cas d'un intérêt particulier.
Utilisation d'un filtre appliqué aux cas d'apprentissage utilisés par le modèle. En définissant un filtre de modèle, vous pouvez limiter les cas à un sous-ensemble de données et également garantir qu'un modèle donné est toujours évalué en utilisant des données semblables.
Si vous créez un rapport de validation croisée dans Business Intelligence Development Studio ou SQL Server Management Studio, Analysis Services utilise par défaut la partition d'exclusion définie pour le modèle, le cas échéant. Si aucune partition d'exclusion n'a été définie, Analysis Services utilise l'intégralité des cas d'apprentissage.
Si vous créez un graphique de courbes d'élévation, un graphique des bénéfices, un nuage de points ou une matrice de classification dans Business Intelligence Development Studio ou SQL Server Management Studio, vous utilisez l'onglet Sélection d'entrée sur la vue Graphique d'analyse de précision de l'exploration de données du Concepteur d'exploration de données pour spécifier les données à utiliser pour tester les modèles d'exploration de données. Les options disponibles sont les suivantes :
Utiliser des scénarios de test de modèle d'exploration de données
Les scénarios de test de modèle d'exploration de données proviennent des mêmes données que celles se trouvant dans la structure d'exploration de données, mais un filtre est appliqué au modèle pour limiter le nombre de scénarios utilisés pour le test. Un filtre de modèle constitue un ensemble de conditions que vous créez puis stockez avec le modèle d'exploration de données. La condition de filtre étant enregistrée avec le modèle d'exploration de données, elle est appliquée par défaut lors de l'apprentissage du modèle. Lorsque vous testez un modèle, vous pouvez utiliser le filtre tel quel ou vous pouvez utiliser un jeu de données différent pour le test, ignorant ainsi le filtre de modèle. Si vous souhaitez changer le filtre appliqué à un modèle d'exploration de données, vous pouvez modifier le filtre de modèle, puis retraiter le modèle. Vous pouvez également créer une copie du modèle, puis créer un filtre différent sur la copie.
Pour plus d'informations sur les filtres de modèle, consultez Création de filtres pour les modèles d'exploration de données (Analysis Services - Exploration de données).
Pour une description de la création d'un filtre sur un modèle d'exploration de données, consultez Procédure : appliquer un filtre à un modèle d'exploration de données.
Utiliser des scénarios de test de structure d'exploration de données
Vous pouvez utiliser cette option pour mesurer la précision si vous avez défini un jeu de données de test lors de la création de la structure d'exploration de données, en définissant un pourcentage d'exclusion ou un nombre maximal de scénarios à utiliser pour l'exclusion. La définition du jeu de test est stockée avec la structure. Par conséquent, le jeu de test peut être utilisé avec n'importe quel modèle basé sur la structure.
Notes
Vous ne pouvez pas créer de filtre directement sur les données d'exclusion de la structure d'exploration de données. Toutefois, si vous voulez appliquer un filtre à ces données, vous pouvez, comme solution de contournement, réutiliser la vue de source de données d'origine comme source de données externes, puis appliquer un filtre à la source de données externes.
Pour plus d'informations, consultez Partitionnement des données en jeux d'apprentissage et jeux de test (Analysis Services – Exploration de données).
Spécifier un autre jeu de données
Dans SQL Server 2005, le seul moyen de tester la précision d'un modèle d'exploration de données était d'utiliser un jeu de données externes. Cette option est encore présente dans SQL Server 2008, mais vous pouvez à présent aussi définir un filtre sur les données externes.
Pour utiliser une source de données externes, toutes les colonnes des données externes que vous voulez utiliser pour l'entrée doivent être mappées aux colonnes du modèle d'exploration de données. Vous pouvez choisir d'ignorer certaines colonnes, mais le jeu de données externes doit au moins contenir une colonne qui peut être mappée à la colonne prédictible du modèle d'exploration de données. En fonction du modèle, il peut également s'avérer nécessaire de mapper la ou les colonnes des données externes ayant les attributs requis pour la prédiction.
Dans le Concepteur d'exploration de données, vous utilisez l'onglet Sélection d'entrée et la boîte de dialogue Spécifier le mappage des colonnes pour sélectionner la table d'entrée utilisée pour la validation des modèles. Lorsque vous sélectionnez une table d'entrée, les colonnes des tables Structure d'exploration de données et Sélectionner une ou plusieurs tables d'entrée sont automatiquement mappées ensemble. Vous pouvez modifier les mappages en fonction des besoins en cliquant sur une colonne dans la table Structure d'exploration de données et en la faisant glisser jusqu'à la table Sélectionner une ou plusieurs tables d'entrée. Si les données d'entrée contiennent une table imbriquée, vous pouvez également inclure cette table en utilisant le lien Sélectionner la table imbriquée.
Notes
La colonne prédictible doit toujours être mappée. Les colonnes qui ne sont pas mappées sont fournies en tant que valeurs NULL au modèle d'exploration de données.
Une fois les colonnes correspondantes mappées, vous pouvez éventuellement spécifier un état cible pour la colonne prédictible. Si vous laissez l'état de la colonne prédictible vide, le graphique de courbes d'évaluation prédit la manière dont le modèle fonctionne, quel que soit l'état de la colonne prédictible. Pour plus d'informations sur les différences entre la création de graphiques de courbes d'évaluation avec ou sans un état spécifié de la colonne prédictible, consultez Graphique de courbes d'élévation (Analysis Services - Exploration de données).
Vous avez également la possibilité de créer un filtre sur les données externes. Pour une description de la création d'un filtre, consultez Procédure : filtrer les lignes d'entrée d'un graphique d'analyse de précision.
L'option Synchroniser les colonnes de prédiction et les valeurs coordonne les attributs prédictibles dans la source de données externes et le modèle d'exploration de données, de sorte que, même s'ils portent un nom différent, ils sont dérivés de la même colonne prédictible au cours de l'apprentissage du modèle. Cela s'avère utile lorsque deux colonnes de structure d'exploration de données pointent vers les mêmes données sous-jacentes, mais que les colonnes sont peut-être intitulées différemment.
Si vous désactivez la case à cocher Synchroniser les colonnes de prévision et les valeurs, vous pouvez sélectionner une colonne prédictible et une valeur quelconques, et les résultats sont représentés ensemble, même s'ils n'ont aucune signification. Vous pouvez désactiver cette option si vous essayez de comparer deux attributs prédictibles qui ne sont pas explicitement mappés au même ensemble de valeurs. Vous devez toutefois savoir que les deux attributs risquent de ne pas être comparables en ce qui concerne la précision. Par exemple, un modèle qui discrétise le revenu en compartiments sous la forme Élevé, Moyen et Bas peut être comparable à un modèle qui regroupe le revenu par plages de 150 000+, 50 000-100 000 et 10 000-50 000. Toutefois, avant de désactiver la case à cocher, vous devez vérifier que les attributs sont comparables.
Pour plus d'informations :Procédure : sélectionner une colonne prévisible pour un graphique d'analyse de précision, Utilisation des outils d'exploration de données
Filtrage de données
Vous pouvez filtrer les données utilisées pour effectuer l'apprentissage et le test d'un modèle d'exploration de données de la façon suivante :
Créez un filtre stocké avec le modèle.
Appliquez un filtre à une source de données externes.
Lorsque vous définissez un filtre, vous créez en fait une clause WHERE sur les données entrantes. Si vous filtrez un jeu de données d'entrée utilisé pour évaluer un modèle, l'expression de filtre est traduite en instruction Transact-SQL et appliquée à la table d'entrée lorsque le graphique est créé. En conséquence, le nombre de scénarios de test peut être réduit de façon significative.
Par opposition, lorsque vous appliquez un filtre à un modèle d'exploration de données, l'expression de filtre que vous créez est traduite en instruction DMX (Data Mining Extensions) et appliquée au modèle individuel. Lorsque vous appliquez un filtre à un modèle, seul un sous-ensemble des données d'origine est utilisé pour l'apprentissage du modèle. Si vous avez défini un jeu de données de test au moment de la création de la structure, les cas de modèles utilisés pour l'apprentissage incluent uniquement les cas qui se trouvent dans le jeu d'apprentissage de la structure d'exploration de données et qui remplissent les conditions du filtre. Par ailleurs, lorsque vous sélectionnez l'option Utiliser des scénarios de test de modèle d'exploration de données, les scénarios de test incluent uniquement les scénarios qui se trouvent dans le jeu de test de la structure d'exploration de données et qui remplissent les conditions du filtre. Les conditions de filtre s'appliquent également aux requêtes d'extraction sur les cas de modèles.
Toutefois, si vous n'avez pas défini de jeu de données d'exclusion, les cas de modèles utilisés pour le test incluent tous les cas du jeu de données qui remplissent les conditions du filtre.
Par conséquent, plusieurs modèles, même s'ils se basent sur la même structure d'exploration de données, peuvent avoir des filtres différents et, de ce fait, utiliser différentes données pour l'apprentissage et le test. Si vous sélectionnez l'option Utiliser des scénarios de test de modèle d'exploration de données lorsque vous créez le graphique d'analyse de précision, vous devez être conscient que le nombre total de cas dans les jeux de test et d'apprentissage peut beaucoup varier entre les modèles testés.
Notes
Si vous ajoutez un filtre à un modèle d'exploration de données existant ou modifiez les conditions de filtre, vous devez retraiter le modèle pour voir les effets du filtre.
Pour examiner les cas d'apprentissage réels utilisés, vous pouvez créer une requête de contenu DMX, comme celle ci-dessous :
SELECT * from <model>.CASES WHERE IsTrainingCase()
ou :
SELECT * from <model>.CASES WHERE IsTestCase()
Pour comparer ces cas aux cas de la structure, créez la requête de contenu DMX suivante :
SELECT * FROM <structure>.CASES WHERE IsTestCase()
Notes
Pour exécuter une requête de contenu sur les cas de modèles, vous devez activer Drillthrough sur le modèle.
Pour plus d'informations sur les types de filtres applicables et sur l'évaluation des expressions de filtre, consultez Syntaxe de filtre de modèle et exemples (Analysis Services - Exploration de données).
Choix d'un type de graphique et affichage du graphique
En fonction du type de graphique que vous choisissez, vous avez la possibilité de configurer d'autres options, de parcourir le graphique ou de copier le graphique dans le Presse-papiers et de travailler avec les données dans Excel.
Remarque Les graphiques et leurs définitions ne sont pas enregistrés. Si vous fermez la fenêtre qui contient un graphique, vous devez créer à nouveau le graphique.
Graphique de courbes d'élévation
Une fois que vous avez configuré les options des modèles et les données de test, cliquez sur l'onglet Graphique de courbes d'élévation pour afficher les résultats. Vous pouvez également copier le graphique dans le Presse-papiers, ou afficher les détails de courbes de tendance ou de points de données individuels dans la légende d'exploration de données.
Pour plus d'informations, consultez Graphique de courbes d'élévation (Analysis Services - Exploration de données) et Onglet Graphique de courbes d'élévation (vue Graphique d'analyse de précision de l'exploration de données).
Graphique des bénéfices
Une fois que vous avez configuré les options des modèles et les données de test, cliquez sur l'onglet Graphique de courbes d'élévation, sélectionnez Graphique des bénéfices dans la liste Type de graphique pour définir des options de graphique des bénéfices, puis cliquez sur OK pour afficher les résultats. Vous pouvez utiliser la boîte de dialogue Paramètres du graphique des bénéfices autant de fois que vous le souhaitez pour essayer différentes options de coût et réafficher le graphique. La légende d'exploration de données contient des informations détaillées sur les bénéfices estimés pour chaque modèle. Vous pouvez également copier le graphique et le contenu de la légende d'exploration de données dans le Presse-papiers pour les utiliser dans Excel.
Pour plus d'informations, consultez Graphique des bénéfices (Analysis Services - Exploration de données) et Boîte de dialogue Paramètres du graphique des bénéfices (vue Graphique d'analyse de précision de l'exploration de données).
Nuage de points
Si vous avez sélectionné le type de modèle approprié, lorsque vous cliquez sur l'onglet Graphique de courbes d'élévation, le type de graphique est défini automatiquement sur Nuage de points et un nuage de points s'affiche. Aucune configuration supplémentaire n'est possible. Vous pouvez également copier le graphique dans le Presse-papiers et coller le graphique en tant que graphique dans Excel ou une autre application.
Pour plus d'informations, consultez Nuage de points (Analysis Services - Exploration de données).
Matrice de classification
Pour une matrice de classification, utilisez l'onglet Sélection d'entrée pour choisir les modèles et les données de test, puis cliquez sur l'onglet Matrice de classification pour afficher les résultats. Le contenu d'une matrice de classification est identique pour tous les types de modèles et ne peut pas être configuré. Vous pouvez également copier les données du graphique dans le Presse-papiers, puis les utiliser dans Excel.
Pour plus d'informations, consultez Matrice de classification (Analysis Services - Exploration de données) ou Onglet Matrice de classification (vue Graphique d'analyse de précision de l'exploration de données).
Rapport de validation croisée
Pour un rapport de validation croisée, après avoir sélectionné une structure d'exploration de données ou un modèle d'exploration de données dans l'Explorateur de solutions, cliquez sur l'onglet Validation croisée, configurez toutes les options pertinentes, puis cliquez sur Obtenir les résultats pour générer le rapport. Aucune configuration supplémentaire n'est possible. Le format du rapport de validation croisée est le même pour tous les types de modèles, et ne peut pas être configuré. Toutefois, le contenu du rapport diffère en fonction du type de modèle que vous analysez et du type de données de l'attribut prédictible. Vous pouvez également copier les résultats du rapport dans le Presse-papiers et utiliser les données dans Excel.
Pour plus d'informations, consultez Validation croisée (Analysis Services - Exploration de données) ou Rapport de validation croisée (Analysis Services - Exploration de données).
Voir aussi