Algorithme MNB (Microsoft Naive Bayes)
L’algorithme Microsoft Naive Bayes est un algorithme de classification basé sur les théorèmes de Bayes et fourni par Microsoft SQL Server Analysis Services pour une utilisation dans la modélisation prédictive. Le terme Naïve dans le nom Naïve Bayes est dérivé du fait que l'algorithme utilise des techniques bayésiennes, mais ne prend pas en compte les dépendances qui peuvent exister.
Cet algorithme est moins informatiquement intense que d’autres algorithmes Microsoft, et est donc utile pour générer rapidement des modèles d’exploration de données afin de découvrir les relations entre les colonnes d’entrée et les colonnes prévisibles. Vous pouvez utiliser cet algorithme pour effectuer l'exploration initiale de données et appliquer ensuite les résultats pour créer des modèles d'exploration de données supplémentaires avec d'autres algorithmes qui sont informatiquement plus lourds et plus précis.
Exemple
Dans le cadre d'une stratégie promotionnelle continue, le service marketing de la société Adventure Works Cycle a décidé de cibler les clients potentiels en envoyant des prospectus. Afin de réduire les coûts de la campagne, ils ne veulent envoyer des prospectus qu'aux clients susceptibles de répondre. La société stocke des informations dans une base de données sur des statistiques démographiques et la réponse à un publipostage antérieur. Ils souhaitent utiliser ces données pour déterminer si les statistiques démographiques, telles que l'âge et la situation géographique, peuvent permettre de prédire la réponse à une promotion, en comparant les clients potentiels aux clients existants qui présentent des caractéristiques similaires. Plus particulièrement, ils veulent déterminer les différences entre les clients ayant acheté un vélo et ceux qui n'en ont pas acheté.
En utilisant l’algorithme Microsoft Naive Bayes, le service marketing peut rapidement prédire un résultat pour un profil client particulier et peut donc déterminer quels clients sont les plus susceptibles de répondre aux demandes. En utilisant la visionneuse Microsoft Naive Bayes dans SQL Server Data Tools (SSDT), elle peut également examiner visuellement spécifiquement quelles colonnes d’entrée contribuent à des réponses positives aux flèches.
Fonctionnement de l'algorithme
L’algorithme Microsoft Naive Bayes calcule la probabilité de chaque état de chaque colonne d’entrée, compte tenu de chaque état possible de la colonne prévisible.
Pour comprendre comment cela fonctionne, utilisez la visionneuse Microsoft Naive Bayes dans SQL Server Data Tools (SSDT) (comme illustré dans le graphique suivant) pour explorer visuellement la façon dont l’algorithme distribue les états.
Ici, la visionneuse Microsoft Naive Bayes répertorie chaque colonne d’entrée dans le jeu de données et montre comment les états de chaque colonne sont distribués, en fonction de chaque état de la colonne prévisible.
Vous utiliserez cette vue du modèle pour identifier les colonnes d'entrée qui jouent un rôle important dans la différenciation des états de la colonne prédictible.
Par exemple, dans la ligne de Commute Distance illustrée ici, la distribution des valeurs d’entrée est visiblement différente pour les acheteurs par rapport aux non-acheteurs. Cela vous indique que l'entrée, Commute Distance = 0-1 mile, est un prédicteur potentiel.
La visionneuse fournit également des valeurs pour les distributions. Vous pouvez ainsi voir que pour les clients qui effectuent un trajet de un à deux miles pour aller au travail, la probabilité qu’ils achètent un vélo est de 0,387, tandis que la probabilité qu’ils n’en achètent pas est de 0,287. Dans cet exemple, l'algorithme utilise les données numériques, provenant des caractéristiques du client (telles que la distance domicile-travail), pour prédire si un client va ou non acheter un vélo.
Pour plus d’informations sur l’utilisation de la visionneuse Microsoft Naive Bayes, consultez Parcourir un modèle à l’aide de la visionneuse Microsoft Naive Bayes.
Données requises pour les modèles Naive Bayes
Lorsque vous préparez des données à utiliser dans l’apprentissage d'un modèle Naive Bayes, vous devez vous familiariser avec les spécifications liées à l'algorithme, y compris la quantité de données requise et leur mode d'utilisation.
Les spécifications liées à un modèle Naive Bayes se présentent comme suit :
Colonne à index unique : chaque modèle doit contenir une colonne numérique ou une colonne de texte qui identifie de façon unique chaque enregistrement. Les clés composées ne sont pas autorisées.
Colonnes d’entrée Dans un modèle Naive Bayes, toutes les colonnes doivent être des colonnes discrètes ou discrétisées. Pour plus d’informations sur la discrétisation des colonnes, consultez Méthodes de discrétisation (exploration de données).
Pour un modèle Naive Bayes, il est également important de garantir que les attributs d'entrée sont indépendants les uns des autres. Cela est particulièrement important lorsque vous utilisez le modèle pour effectuer une prédiction.
La raison est que, si vous utilisez deux colonnes de données qui sont déjà étroitement liées, l'effet est de multiplier l'influence de ces colonnes, qui peuvent masquer d'autres facteurs qui influencent les résultats.
Inversement, la capacité de l'algorithme à identifier les corrélations entre les variables est utile lorsque vous explorez un modèle ou un dataset, pour d'identifier les relations entre des entrées.
Au moins une colonne prévisible L’attribut prédictible doit contenir des valeurs discrètes ou discrétisées.
Les valeurs de la colonne prédictible peuvent être traitées comme entrées. Cette approche peut être utile lorsque vous explorez un nouveau dataset, afin de rechercher des relations entre les colonnes.
Affichage du modèle
Pour explorer le modèle, vous pouvez utiliser la Visionneuse de l’algorithme MNB (Microsoft Naive Bayes). Elle illustre la manière dont les attributs d’entrée sont liés à l’attribut prédictible. Elle présente également un profil détaillé de chaque cluster, une liste des attributs qui permettent de distinguer les clusters les uns des autres, ainsi que les caractéristiques du jeu de données d'apprentissage complet. Pour plus d’informations, consultez Explorer un modèle à l’aide de la visionneuse de l’algorithme MNB (Microsoft Naive Bayes).
Si vous souhaitez en savoir plus, vous pouvez parcourir le modèle dans microsoft Generic Content Tree Viewer (Exploration de données). Pour plus d’informations sur le type d’informations stockées dans le modèle, consultez Contenu du modèle d’exploration de données pour les modèles Naive Bayes (Analysis Services - Exploration de données).
Élaboration de prédictions
Après l'apprentissage d'un modèle, les résultats sont stockés sous la forme d'un jeu de modèles que vous pouvez explorer ou utiliser pour effectuer des prédictions.
Vous pouvez créer des requêtes pour obtenir des prédictions sur la manière dont les nouvelles données sont liées à l'attribut prédictible, ou vous pouvez extraire des statistiques qui décrivent les corrélations recherchées par le modèle.
Pour plus d’informations sur la façon de créer des requêtes sur un modèle d’exploration de données, consultez Requêtes d’exploration de données. Pour obtenir des exemples montrant comment utiliser des requêtes avec un modèle Naive Bayes, consultez Exemples de requêtes de modèle Naive Bayes.
Notes
Prend en charge l'utilisation du langage PMML (Predictive Model Markup Language) pour créer des modèles d'exploration de données.
Prend en charge l’extraction.
Ne prend pas en charge la création de dimensions d’exploration de données.
Prend en charge l'utilisation de modèles d'exploration de données OLAP.
Voir aussi
Algorithmes d’exploration de données (Analysis Services - Exploration de données)Sélection de fonctionnalités (exploration de données)Exemples de requête de modèle Naive BayesModèle d’exploration de contenu pour les modèles Naive Bayes (Analysis Services - Exploration de données)Référence technique sur l’algorithme Microsoft Naive Bayes