Technische Referenz für den Microsoft Linear Regression-Algorithmus
Gilt für: SQL Server 2019 und früheren Analysis Services Azure Analysis Services Fabric/Power BI Premium
Wichtig
Data Mining wurde in SQL Server 2017 Analysis Services als veraltet eingestuft und wurde jetzt in SQL Server 2022 Analysis Services eingestellt. Die Dokumentation wird für veraltete und eingestellte Features nicht aktualisiert. Weitere Informationen finden Sie unter Abwärtskompatibilität von Analysis Services.
Der Microsoft Linear Regression-Algorithmus ist eine spezielle Version des Microsoft Decision Trees-Algorithmus, der für die Modellierung von Paaren kontinuierlicher Attribute optimiert ist. In diesem Thema wird die Implementierung des Algorithmus erläutert und beschrieben, wie das Verhalten des Algorithmus angepasst wird. Ferner werden Links zu weiteren Informationen über das Abfragen von Modellen zur Verfügung gestellt.
Implementierung des Linear Regression-Algorithmus
Der Microsoft Decision Trees-Algorithmus kann für viele Tasks verwendet werden: die lineare Regression, die Klassifizierung oder die Zuordnungsanalyse. Um diesen Algorithmus für die lineare Regression zu implementieren, werden die Parameter des Algorithmus gesteuert, um die Zunahme der Struktur zu beschränken und alle Daten im Modell in einem einzigen Knoten zu speichern. Mit anderen Worten, obwohl die lineare Regression auf einer Entscheidungsstruktur basiert, enthält die Struktur nur einen einzigen Stamm und keine Verzweigungen: Alle Daten befinden sich im Stammknoten.
Um dies zu erreichen, ist der MINIMUM_LEAF_CASES -Parameter größer als oder gleich der Gesamtzahl der Fälle im Dataset, mit dem der Algorithmus das Miningmodell trainiert. Bei dieser Parametereinstellung erstellt der Algorithmus nie eine Teilung, was der Grund dafür ist, dass der Algorithmus eine lineare Regression ausführt.
Die Gleichung, die die Regressionsgleichung darstellt, weist im Allgemeinen die Form „y = ax + b“ auf und wird als Regressionsgleichung bezeichnet. Die Variable Y stellt die Ausgabevariable dar, X stellt die Eingabevariable dar, und a und b sind anpassbare Koeffizienten. Sie können die Koeffizienten, Achsenabschnitte und andere Informationen über die Regressionsformel abrufen, indem Sie das fertige Miningmodell abfragen. Weitere Informationen finden Sie unter Beispiele für lineare Regressionsmodellabfrage.
Bewertungsmethoden und Funktionsauswahl
Alle SQL Server Analysis Services Data Mining-Algorithmen verwenden automatisch die Featureauswahl, um die Analyse zu verbessern und die Verarbeitungslast zu reduzieren. Die für die Funktionsauswahl bei der linearen Regression verwendete Methode ist der Interessantheitsgrad, da das Modell nur kontinuierliche Spalten unterstützt. Die folgende Tabelle zeigt zu Referenzzwecken den Unterschied bei der Funktionsauswahl für den Linear Regression-Algorithmus und den Decision Trees-Algorithmus.
Algorithmus | Analysemethode | Kommentare |
---|---|---|
Lineare Regression | Interessantheitsgrad | Standard. Andere Funktionsauswahlmethoden, die für den Decision Trees-Algorithmus verfügbar sind, sind nur für diskrete Variablen gültig und gelten daher nicht für lineare Regressionsmodelle. |
Entscheidungsstrukturen | Interessantheitsgrad Shannon-Entropie Bayes-Methode mit K2-A-priori-Verteilung Bayes-Dirichlet mit uniformer A-priori-Verteilung (Standard) |
Wenn irgendeine Spalte nicht binäre kontinuierliche Werte enthält, wird der Interessantheitsgrad für alle Spalten verwendet, um die Konsistenz zu gewährleisten. Andernfalls wird die Standardmethode oder die angegebene Methode verwendet. |
Die Algorithmusparameter, die die Funktionsauswahl für ein Entscheidungsstrukturmodell steuern, sind MAXIMUM_INPUT_ATTRIBUTES und MAXIMUM_OUTPUT.
Anpassen des Linear Regression-Algorithmus
Der Microsoft Linear Regression-Algorithmus unterstützt Parameter, die sich auf das Verhalten, die Leistung und die Genauigkeit des resultierenden Miningmodells auswirken. Sie können außerdem Modellierungsflags für die Miningmodellspalten oder Miningstrukturspalten festlegen, um die Verarbeitung der Daten zu steuern.
Festlegen von Algorithmusparametern
In der folgenden Tabelle sind die Parameter aufgeführt, die für den Microsoft Linear Regression-Algorithmus bereitgestellt werden.
Parameter | Beschreibung |
---|---|
MAXIMUM_INPUT_ATTRIBUTES | Definiert die Anzahl von Eingabeattributen, die der Algorithmus verarbeiten kann, bevor die Funktionsauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Funktionsauswahl zu deaktivieren. Der Standardwert ist 255. |
MAXIMUM_OUTPUT_ATTRIBUTES | Definiert die Anzahl von Ausgabeattributen, die der Algorithmus verarbeiten kann, bevor die Funktionsauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Funktionsauswahl zu deaktivieren. Der Standardwert ist 255. |
FORCE_REGRESSOR | Zwingt den Algorithmus, die angegebenen Spalten als Regressoren zu verwenden, und zwar unabhängig von ihrer durch den Algorithmus berechneten Bedeutung. |
Modellierungsflags
Der Microsoft Linear Regression-Algorithmus unterstützt die folgenden Modellierungsflags. Wenn Sie die Miningstruktur oder das Miningmodell erstellen, definieren Sie Modellierungsflags, die angeben, wie die Werte in den einzelnen Spalten während der Analyse behandelt werden. Weitere Informationen finden Sie unter Modellierungsflags (Data Mining).
Modellierungsflag | Beschreibung |
---|---|
NOT NULL | Gibt an, dass die Spalte keinen NULL-Wert enthalten kann. Ein Fehler tritt auf, wenn Analysis Services während des Modelltrainings einen NULL-Wert erkennt. Gilt für die Miningstrukturspalten. |
REGRESSOR | Gibt an, dass die Spalte kontinuierliche numerische Werte enthält, die bei der Analyse als potenzielle unabhängige Variablen behandelt werden sollen. Gilt für die Miningmodellspalten. Hinweis: Das Kennzeichnen einer Spalte als Regressor gewährleistet nicht, dass die Spalte im fertigen Modell als Regressor verwendet wird. |
Regressoren in linearen Regressionsmodellen
Lineare Regressionsmodelle basieren auf dem Microsoft Decision Trees-Algorithmus. Auch wenn Sie den Microsoft Linear Regression-Algorithmus nicht verwenden, kann jedes Entscheidungsstrukturmodell eine Struktur oder Knoten enthalten, die eine Regression für ein kontinuierliches Attribut darstellen.
Sie müssen nicht angeben, dass eine kontinuierliche Spalte einen Regressor darstellt. Der Microsoft Decision Trees-Algorithmus partitioniert das Dataset in Regionen mit aussagekräftigen Mustern, auch wenn Sie das REGRESSOR-Flag nicht für die Spalte festlegen. Der Unterschied besteht darin, dass der Algorithmus beim Festlegen des Modellierungsflags versucht, Regressionsgleichungen im Format a*C1 + b*C2 + ...
entsprechend den Mustern in den Knoten der Struktur zu finden. Dann wird die Summe der Restwerte berechnet, und wenn die Abweichung zu groß ist, wird die Struktur unterteilt.
Wenn Sie beispielsweise das Kaufverhalten von Kunden mithilfe des Attributs „Income“ vorhersagen und das REGRESSOR-Modellierungsflag für die Spalte „[Income]“ festlegen, versucht der Algorithmus zuerst, die Werte mithilfe einer Standardregressionsformel zuzuordnen. Ist die Abweichung zu groß, dann wird die Regressionsformel ignoriert und die Struktur nach einem anderen Attribut unterteilt. Der Decision Tree-Algorithmus versucht nach der Unterteilung, jedem der Zweige einen Regressor für Income zuzuordnen.
Sie können durch Einsatz des FORCED_REGRESSOR-Parameters gewährleisten, dass der Algorithmus einen bestimmten Regressor verwendet. Dieser Parameter kann mit dem Microsoft Decision Trees-Algorithmus und dem Microsoft Linear Regression-Algorithmus verwendet werden.
Anforderungen
Ein lineares Regressionsmodell muss eine Schlüsselspalte, Eingabespalten und mindestens eine vorhersagbare Spalte enthalten.
Eingabespalten und vorhersagbare Spalten
Der Microsoft Linear Regression-Algorithmus unterstützt die spezifischen Eingabespalten und vorhersagbaren Spalten, die in der folgenden Tabelle aufgeführt sind. Weitere Informationen dazu, was die Inhaltstypen bedeuten, wenn sie in einem Miningmodell verwendet werden, finden Sie unter Inhaltstypen (Data Mining).
Spalte | Inhaltstypen |
---|---|
Eingabeattribut | Continuous, Cyclical, Key, Table und Ordered |
Vorhersagbares Attribut | Continuous, Cyclical und Ordered |
Hinweis
Zyklische und sortierte Inhaltstypen werden unterstützt, der Algorithmus behandelt sie jedoch als diskrete Werte und führt keine spezielle Verarbeitung durch.
Weitere Informationen
Microsoft Linear Regression-Algorithmus
Beispiele für lineare Regressionsmodellabfrage
Miningmodellinhalt von linearen Regressionsmodellen (Analysis Services – Data Mining)