Algorithme MLR (Microsoft Logistic Regression)
L'algorithme MLR (Microsoft Logistic Regression) est une variante de l'algorithme MNN (Microsoft Neural Network), où le paramètre HIDDEN_NODE_RATIO a la valeur 0. Cette valeur de paramètre crée un modèle de réseau de neurones qui ne contient pas de couche cachée et qui est par conséquent équivalent à la régression logistique.
Supposons que la colonne prévisible contient uniquement deux états mais que vous voulez tout de même effectuer une analyse de régression, en associant les colonnes d'entrée à la probabilité que la colonne prévisible contiendra un état spécifique. Le diagramme suivant représente les résultats obtenus en attribuant les valeurs 1 et 0 aux états de la colonne prévisible, en calculant la probabilité que la colonne contiendra un état spécifique et en effectuant une régression linéaire par rapport à une variable d'entrée.
L'axe des abscisses (X) contient les valeurs d'une colonne d'entrée. L'axe des ordonnées (Y) contient les probabilités que la colonne prévisible contiendra l'un ou l'autre des états. Le problème de cette méthode est que la régression linéaire ne contraint pas la colonne à avoir une valeur comprise entre 0 et 1, même s'il s'agit des valeurs minimale et maximale de la colonne. Vous pouvez effectuer une régression logistique pour résoudre ce problème. Au lieu de créer une ligne droite, l'analyse de régression logistique crée une courbe en forme de « S » contenant les contraintes de valeur maximale et minimale. Par exemple, le diagramme suivant représente les résultats obtenus en effectuant une régression logistique par rapport aux mêmes données que pour l'exemple précédent.
Notez que la courbe reste toujours entre la valeur 1 et la valeur 0. Vous pouvez utiliser la régression logistique pour identifier les colonnes d'entrée qui jouent un rôle important dans la détermination de l'état de la colonne prévisible.
Utilisation de l'algorithme
Utilisez la Visionneuse de l'algorithme MNN (Microsoft Neural Network) pour explorer un modèle d'exploration de données de régression linéaire.
Un modèle de régression logistique doit contenir une colonne clé, une ou plusieurs colonnes d'entrée et une ou plusieurs colonnes prévisibles.
L'algorithme MLR (Microsoft Logistic Regression) prend en charge des types de contenu de colonne d'entrée, des types de contenu de colonne prévisible et des indicateurs de modélisation spécifiques qui sont répertoriés dans le tableau suivant.
Types de contenu de colonne d'entrée |
Continu, Cyclique, Discret, Discrétisé, Clé, Table et Ordonné |
Types de contenu de colonne prévisible |
Continu, Cyclique, Discret, Discrétisé et Ordonné |
Indicateurs de modélisation |
MODEL_EXISTENCE_ONLY et NOT NULL |
Tous les algorithmes Microsoft prennent en charge un ensemble commun de fonctions. Toutefois, l'algorithme MLR (Microsoft Logistic Regression) prend en charge des fonctions supplémentaires qui sont décrites dans le tableau suivant.
|
Pour obtenir la liste des fonctions qui sont communes à tous les algorithmes Microsoft, consultez Algorithmes d'exploration de données. Pour plus d'informations sur l'utilisation de ces fonctions, consultez Fonctions DMX (Data Mining Extensions).
Les modèles qui utilisent l'algorithme MLR (Microsoft Logistic Regression) ne prennent pas en charge l'extraction ni les dimensions d'exploration de données, car la structure des nœuds du modèle d'exploration de données ne correspond pas nécessairement directement aux données sous-jacentes.
L'algorithme MLR (Microsoft Logistic Regression) prend en charge plusieurs paramètres qui affectent les performances et la précision du modèle d'exploration de données obtenu. Le tableau suivant décrit chacun de ces paramètres.
Paramètre | Description |
---|---|
HOLDOUT_PERCENTAGE |
Spécifie le pourcentage de cas extraits des données d'apprentissage pour calculer l'erreur d'exclusion. HOLDOUT_PERCENTAGE constitue l'un des critères d'arrêt pendant l'apprentissage du modèle d'exploration de données. La valeur par défaut est 30. |
HOLDOUT_SEED |
Spécifie un nombre à utiliser en tant que valeur de départ du générateur de nombres pseudo-aléatoires lors de la détermination aléatoire des données d'exclusion. Si la valeur de HOLDOUT_SEED est définie sur 0, l'algorithme génère la valeur de départ en fonction du nom du modèle d'exploration de données, afin de garantir que le contenu du modèle reste inchangé pendant le retraitement. La valeur par défaut est 0. |
MAXIMUM_INPUT_ATTRIBUTES |
Définit le nombre d'attributs d'entrée que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités. La valeur par défaut est 255. |
MAXIMUM_OUTPUT_ATTRIBUTES |
Définit le nombre d'attributs de sortie que l'algorithme peut traiter avant d'appeler la sélection des fonctionnalités. La valeur 0 désactive la sélection des fonctionnalités. La valeur par défaut est 255. |
MAXIMUM_STATES |
Spécifie le nombre maximal d'états d'attribut que l'algorithme prend en charge. Si le nombre d'états d'un attribut est supérieur au nombre maximal d'états, l'algorithme sélectionne les états les plus fréquents pour cet attribut et ignore le reste des états. La valeur par défaut est 100. |
SAMPLE_SIZE |
Spécifie le nombre de cas à utiliser pour l'apprentissage du modèle. Le fournisseur d'algorithme utilise soit ce nombre, soit le pourcentage du nombre total de cas qui ne sont pas inclus dans le pourcentage d'exclusion conformément au paramètre HOLDOUT_PERCENTAGE : c'est la plus petite valeur qui est retenue. En d'autres termes, si HOLDOUT_PERCENTAGE a la valeur 30, l'algorithme utilisera soit la valeur de ce paramètre, soit une valeur égale à 70 % du nombre total de cas, en prenant la plus petite valeur des deux. La valeur par défaut est 10000. |
Voir aussi
Concepts
Algorithmes d'exploration de données
Sélection des fonctionnalités pour l'exploration de données
Utilisation des outils d'exploration de données
Affichage d'un modèle d'exploration de données à l'aide de la Visionneuse de l'algorithme MNN (Microsoft Neural Network)