Partager via


Test de la précision à l'aide de graphiques de courbes d'élévation (Didacticiel sur l'exploration de données de base)

Sous l’onglet Graphique de précision de l’exploration de données des Designer d’exploration de données, vous pouvez calculer la façon dont chacun de vos modèles effectue des prédictions et comparer les résultats de chaque modèle directement avec les résultats des autres modèles. Cette méthode de comparaison est appelée graphique d’élévation. En général, la précision prédictive d'un modèle d'exploration de données se mesure par la finesse ou la précision de classification. Pour ce didacticiel, nous utiliserons le graphique de courbes d'élévation uniquement.

Au cours de cette rubrique, vous allez effectuer les tâches suivantes :

Choix des données d'entrée

La première étape du test de précision de vos modèles d'exploration de données consiste à sélectionner la source de données que vous allez utiliser pour les tests. Vous allez tester le degré de précision des modèles avec vos données de test, puis vous les utiliserez avec des données externes.

Pour sélectionner le jeu de données

  1. Basculez vers l’onglet Graphique de précision d’exploration de données dans Designer d’exploration de données dans SQL Server Data Tools (SSDT), puis sélectionnez l’onglet Sélection d’entrée.

  2. Dans la zone de groupe Sélectionner le jeu de données à utiliser pour le graphique de précision , sélectionnez Utiliser les cas de test de la structure d’exploration de données. Il s'agit du jeu de données que vous avez mis de côté lorsque vous avez créé la structure d'exploration de données.

    Pour plus d’informations sur les autres options, consultez Choisir un type de graphique de précision et Définir les options de graphique.

Définition des paramètres du graphique d'analyse de précision

Pour créer un graphique d'analyse de précision, vous devez définir trois éléments :

  • Les modèles à inclure dans le graphique d'analyse de précision

  • L'attribut prédictible à mesurer Certains modèles peuvent avoir plusieurs cibles, mais chaque graphique ne mesure qu'un seul résultat à la fois.

    Pour utiliser une colonne comme nom de colonne prédictible dans un graphique de précision, les colonnes doivent avoir le type d’utilisation ou PredictPredict Only. En outre, le type de contenu de la colonne cible doit être Discrete ou Discretized. En d'autres termes, vous ne pouvez pas utiliser le graphique de courbes d'élévation pour mesurer la précision par rapport à des valeurs numériques continues.

  • Voulez-vous mesurer la précision générale du modèle ou sa précision dans la prédiction d’une valeur particulière (par exemple, [Bike Buyer] = 'Oui')

Pour générer le graphique de courbes d'élévation

  1. Sous l’onglet Sélection d’entrée des Designer d’exploration de données, sous Sélectionner les colonnes du modèle d’exploration de données prévisibles à afficher dans le graphique d’élévation, cochez la case Synchroniser les colonnes et les valeurs de prédiction.

  2. Dans la colonne Nom de colonne prévisible , vérifiez que Bike Buyer est sélectionné pour chaque modèle.

  3. Dans la colonne Afficher , sélectionnez chacun des modèles.

    Par défaut, tous les modèles de la structure d'exploration de données sont sélectionnés. Vous pouvez choisir de ne pas inclure un modèle, mais pour ce didacticiel, conservez tous les modèles sélectionnés.

  4. Dans la colonne Prédire la valeur , sélectionnez 1. La même valeur est automatiquement remplie dans chaque modèle comportant la même colonne prédictible.

  5. Sélectionnez l’onglet Graphique d’élévation .

    Lorsque vous cliquez sur l'onglet, une requête de prédiction s'exécute pour obtenir des prédictions pour les données de test, et les résultats sont comparés aux valeurs connues. Les résultats sont reportés sur le graphique.

    Si vous avez spécifié un résultat cible particulier à l’aide de l’option Prédire la valeur , le graphique d’élévation trace les résultats des estimations aléatoires et les résultats d’un modèle idéal.

    • La ligne d'estimation aléatoire indique la précision du modèle sans utiliser de données pour éclairer ses prédictions : c'est-à-dire, un fractionnement 50-50 entre deux résultats. Le graphique de courbes d'élévation vous aide à visualiser le gain de performances de votre modèle par rapport à une estimation aléatoire.

    • La ligne de modèle idéal représente la limite supérieure de précision. Elle indique les éventuels avantages que vous pouvez retirer si votre modèle a toujours effectué des prédictions précises.

    Les modèles d'exploration de données que vous avez créés se situent généralement entre ces deux extrêmes. Toute amélioration de l’estimation aléatoire est considérée comme lift.

  6. Utilisez la légende pour repérer les lignes colorées qui représentent le modèle idéal et le modèle d'estimation aléatoire.

    Vous remarquerez que le modèle offre la TM_Decision_Tree plus grande élévation, surpassant les modèles Clustering et Naive Bayes.

Pour obtenir une explication détaillée d’un graphique d’élévation similaire à celui créé dans cette leçon, consultez Lift Chart (Analysis Services - Data Mining).

Tâche suivante de la leçon

Test d'un modèle filtré (Didacticiel sur l'exploration de données de base)

Voir aussi

Graphique de courbes d'élévation (Analysis Services - Exploration de données)
Onglet Graphique de courbes d'élévation (vue Graphique d'analyse de précision de l'exploration de données)