Matrice de classification (Analysis Services - Exploration de données)
L'onglet Matrice de classification de l'onglet Graphique d'analyse de précision de l'exploration de données du Concepteur d'exploration de données affiche une matrice pour chaque modèle spécifié sous l'onglet Sélection d'entrée. En consultant ce graphique, qui est parfois appelé matrice de confusion, vous pouvez voir rapidement la fréquence de prédictions correctes du modèle.
Les lignes de chaque matrice représentent les valeurs prédites pour le modèle, tandis que les colonnes représentent les valeurs réelles. La matrice de classification est créée en triant tous les cas dans des catégories : si la valeur prédite a correspondu à la valeur réelle, et si la valeur prédite était correcte ou incorrecte. Ces catégories sont parfois appelées faux positif, vrai positif, faux négatif et vrai négatif. Tous les cas dans chaque catégorie sont ensuite comptés et les totaux sont affichés dans la matrice.
Cette section explique comment créer une matrice de classification et comment interpréter les résultats.
[!REMARQUE]
Une matrice de classification peut être utilisée uniquement avec des attributs prévisibles discrets.
Scénario
Considérons, par exemple, le modèle que vous avez créé dans le cadre du Didacticiel sur l'exploration de données de base. Le modèle TM_DecisionTree, qui sert à créer une campagne de publipostage ciblée, peut être utilisé pour prédire quels clients sont les plus susceptibles d'acheter un vélo. Si le client est susceptible d'acheter un vélo, la valeur de la colonne [Bike Buyer] est 1 ; si le client n'est pas susceptible d'acheter un vélo, la valeur de la colonne [Bike Buyer] est 0.
Pour évaluer si le modèle est efficace pour effectuer des prédictions, vous le testez sur un jeu de données pour lequel les valeurs de [Bike Buyer] sont déjà connues. En général, vous utilisez un jeu de données de test que vous avez mis de côté lors de la création de la structure d'exploration de données utilisée pour l'apprentissage du modèle. Étant donné que ces données contiennent déjà les résultats réels, vous pouvez déterminer rapidement combien de fois que le modèle a prédit la valeur attendue.
Fonctionnement de la matrice de classification
Le tableau suivant présente les résultats obtenus lorsqu'une matrice de classification est créée pour le modèle TM_DecisionTree. Étant donné qu'il y a seulement deux valeurs possibles pour cet attribut prévisible, 0 et 1, il est assez simple d'indiquer la fréquence à laquelle le modèle effectue une prédiction correcte.
Prédiction |
0 (Réel) |
1 (Réel) |
---|---|---|
0 |
362 |
144 |
1 |
121 |
373 |
La première cellule de résultat, qui contient la valeur 362, indique le nombre de vrais positifs pour la valeur 0. Étant donné que 0 indique que le client n'a pas acheté de vélo, cette statistique vous dit que le modèle a prédit la valeur correcte pour les non-acheteurs de vélo dans 362 cas.
La cellule immédiatement au-dessous de celle-ci, qui contient la valeur 121, vous indique le nombre de faux positifs, c'est-à-dire le nombre de fois où le modèle a prédit que qu'une personne achèterait un vélo alors qu'en réalité elle ne l'a pas fait.
La cellule qui contient la valeur 144 indique le nombre de faux positifs pour la valeur 1. Étant donné que 1 signifie que le client a acheté un vélo, cette statistique vous indique que dans 144 cas, le modèle a prédit qu'une personne n'achèterait pas de vélo alors qu'en réalité, elle l'a fait.
Enfin, la cellule qui contient la valeur 373 indique le nombre de vrais positifs pour la valeur cible 1. En d'autres termes, dans 373 cas, le modèle a prédit correctement qu'une personne achèterait un vélo.
En additionnant les valeurs dans les cellules qui sont adjacentes en diagonale, vous pouvez déterminer la précision globale du modèle. Une diagonale vous indique le nombre total de prédictions exactes, et l'autre diagonale vous indique le nombre total de prédictions erronées.
Utilisation de plusieurs valeurs prévisibles
Le cas [Bike Buyer] est particulièrement simple à interpréter car il n'y a que deux valeurs possibles. Lorsque l'attribut prévisible a plusieurs valeurs possibles, la matrice de classification ajoute une nouvelle colonne pour chaque valeur réelle possible, puis compte le nombre de correspondances pour chaque valeur prédite. Le tableau suivant présente les résultats sur un modèle différent, où trois valeurs (0, 1, 2) sont possibles.
Prédiction |
0 (Réel) |
1 (Réel) |
2 (Réel) |
---|---|---|---|
0 |
111 |
3 |
5 |
1 |
2 |
123 |
17 |
2 |
19 |
0 |
20 |
Bien que l'ajout de plusieurs colonnes rende la disposition du rapport plus complexe, les détails supplémentaires peuvent être très utiles lorsque vous voulez évaluer le coût d'une prédiction incorrecte. Pour créer des sommes sur les diagonales ou comparer les résultats de différentes combinaisons de lignes, vous pouvez cliquer le bouton Copier fourni sous l'onglet Matrice de classification et coller le rapport dans Excel. Vous pouvez également utiliser un client tel que le Client d'exploration de données pour Excel, qui prend en charge SQL Server 2005 et SQL Server 2008, pour créer, directement dans Excel, un rapport de classification qui inclut des décomptes et des pourcentages. Pour plus d'informations, consultez SQL Server Data Mining (en anglais).
Création d'une matrice de classification
Lorsque vous créez une matrice de classification, vous suivez les étapes de base suivantes :
Sous l'onglet Graphique d'analyse de précision de l'exploration de données du Concepteur d'exploration de données, cliquez sur l'onglet Sélection d'entrée.
Sous l'onglet Sélection d'entrée, sélectionnez un modèle à évaluer.
Spécifiez l'attribut prévisible et, éventuellement, la valeur prévisible.
Choisissez le jeu de données à utiliser dans l'évaluation.
Cliquez sur l'onglet Matrice de classification pour générer automatiquement un rapport au format de matrice de classification.
Pour obtenir une procédure pas à pas qui s'applique à tous les types de graphiques, consultez Procédure : créer un graphique d'analyse de précision pour un modèle d'exploration de données.
Le Didacticiel sur l'exploration de données de base inclut également une procédure pas à pas de création d'un graphique de courbes d'élévation pour le modèle de publipostage ciblé. Pour plus d'informations, consultez Test de la précision à l'aide de graphiques de courbes d'élévation (Didacticiel sur l'exploration de données de base).
Voir aussi