Freigeben über


Berechnen der linearen Korrelation

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Berechnet die lineare Korrelation zwischen Spaltenwerte in einem Dataset.

Kategorie: Statistische Funktionen

Hinweis

Giltnur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul "Lineare Berechnungskorrelation" in Machine Learning Studio (klassisch) verwenden, um eine Reihe von Pearson-Korrelationskoeffizienten für jedes mögliche Variablenpaar im Eingabedatensatz zu berechnen.

Der Pearson-Korrelationskoeffizient, manchmal als Pearson-R-Test bezeichnet, ist ein statistischer Wert, der die lineare Beziehung zwischen zwei Variablen misst. Indem Sie die Koeffizientenwerte untersuchen, können Sie etwas über die Stärke der Beziehung zwischen den beiden Variablen ableiten und ob sie positiv korreliert oder negativ korreliert sind.

So konfigurieren Sie lineare Korrelation

Vor der Berechnung des Korrelationskoeffizienten gibt es einige Voraussetzungen, z. B. das Bereinigen ihrer Daten und die Überprüfung, ob die Beziehung zwischen den Variablen für dieses Modul geeignet ist. Sie müssen auch fehlende Werte entfernen oder abrechnen.

Die folgenden Einschränkungen gelten für die Verwendung dieses Moduls:

  • Das Modul "Lineare Berechnungskorrelation" kann nur numerische Werte verarbeiten. Alle anderen Typen von Werten, einschließlich fehlender Werte, nicht numerischer Werte und kategorischer Werte, werden als NaN behandelt.

  • Die Pearson-Korrelation wird für alle numerischen Spalten im Dataset berechnet, die als Eingabe übergeben werden. Achten Sie darauf, alle Spalten auszuschließen, die für diese Analyse geeignet sind.

  • Die lineare Korrelation kann nicht mit Daten verwendet werden, die fehlende Werte aufweisen.

Schritt 1: Bestimmen der Linearität

Wenn die von Ihnen getesteten Spalten keine lineare Beziehung aufweisen sollen, gibt es keinen Punkt beim Generieren dieses Koeffizienten. Daher empfiehlt es sich, die Spalten zuerst zu testen, um festzustellen, ob sie über die richtige Art von Daten und die richtige Art der Verteilung im Allgemeinen verfügen.

Es gibt verschiedene Möglichkeiten, wie Sie bestimmen können, ob die Beziehung zwischen den Spalten ungefähr linear ist:

  • Erstellen Sie ein Punktdiagramm der Variablen in Studio (klassisch), indem Sie die Option "Visualisieren " im Dataset verwenden. Klicken Sie auf eine der numerischen Variablenspalten, erweitern Sie Visualisierungen, und klicken Sie auf "Vergleichen". Wählen Sie eine andere Variable aus, und ein Punktdiagramm wird automatisch generiert. Wenn ein anderer Zeichnungstyp generiert wird, bedeutet dies, dass mindestens eine Spalte einen anderen (nicht numerischen) Datentyp aufweist.

  • Berechnen einer Regressionsgleichung für die beiden Variablen. Es gibt viele R-Pakete, die dies unterstützen, was Sie im Execute R Script-Modul laden und verwenden können.

Schritt 2: Bereinigen von Daten

Sie müssen fehlende Werte entfernen oder ausfüllen, Ausreißer entfernen oder ausschneiden und sicherstellen, dass die Spalten den richtigen Datentyp haben.

Stellen Sie sicher, dass Sie nach Platzhaltern suchen und diesen Wert durch andere geeignete Werte ersetzen, bevor Sie dieses Modul verwenden. Wenn NaNs für fehlende Werte eingefügt wurden, wenn das Dataset aus der Quelle geladen wurde, könnte ein Fehler verursacht werden. Platzhalterwerte wie 999 z. B. oder -1 können auch schlechte Ergebnisse verursachen.

Um Ihre Daten vorzubereiten, können Sie diese Module verwenden:

Sie können den Datentyp der Spalten mithilfe von Metadaten bearbeiten anpassen. Stellen Sie sicher, dass die zu analysierenden Spalten als Featurespalten gekennzeichnet sind.

Schritt 3: Generieren des Koeffizienten

  1. Fügen Sie dem Experiment das Modul "Lineare Lineare Korrelation berechnen " hinzu. Dieses Modul finden Sie in der Kategorie "Statistische Funktionen" in Machine Learning Studio (klassisch).

  2. Fügen Sie das Dataset hinzu, das Sie analysieren möchten.

  3. Es wird empfohlen, ein Select Columns in Dataset-Modul zwischen Ihrem Dataset und dem Modul "Lineare Korrelation berechnen" hinzuzufügen, um unnötige Spalten zu entfernen. Konfigurieren Sie das Modul "Spalten auswählen" im Datasetmodul , um nur die beiden numerischen Spalten abzurufen, für die Sie Koeffizienten berechnen möchten.

    Andernfalls generiert das Modul "Lineare Berechnungskorrelation " möglicherweise viele Spalten von NaNs.

  4. Für dieses Modul sind keine Parameter festgelegt. Es schlägt jedoch fehl, wenn die Spalten, die Sie übergeben, als Eingaben nicht den Anforderungen entsprechen.

  5. Führen Sie das Experiment aus.

Ergebnisse für zwei Spalten

Bei zwei Featurespalten gibt das Modul " Lineare Berechnungskorrelation " den Skalar-Pearson-Korrelationskoeffizienten (Beispiel) zurück. Der Pearson-Korrelationskoeffizient (häufig als r bezeichnet) liegt in Wert von +1 bis -1.

  • +1 gibt eine starke positive lineare Beziehung an

  • -1 gibt eine starke negative lineare Korrelation an

  • 0 gibt keine lineare Beziehung zwischen den beiden Variablen an.

Die Interpretation der Koeffizienten hängt sehr vom Problem ab, das Sie modellieren, und die Variablen, die Sie untersuchen. Daher ist es wichtig, den Kontext der Daten beim Melden und Interpretieren des Korrelationskoeffizienten von Pearson zu verstehen.

  • Wenn Sie sicher sind, dass die Variablen nicht verknüpft sind und der Korrelationskoeffizienten von Pearson stark positiv ist (r.5 > oder so), sollten Sie weitere Untersuchungen durchführen.

  • Wenn Sie eine lineare Korrelation für zwei Variablen verwenden, die Sie wissen, dass sie perfekt korreliert sind, und die Koeffizientenwerte sind nicht das, was Sie erwarten, kann es ein Problem in den Daten geben.

Ergebnisse für mehr als zwei Spalten

Angesichts einer Matrix (also mehr als zwei Featurespalten) gibt das Modul " Lineare Berechnungskorrelation " einen Satz von Pearson-Produktmomentkorrelationen zwischen den einzelnen Featurespalten zurück.

Daher ist das Ergebnis eine n x n-Tabelle , die die Koeffizienten für jede Kombination der n-Spalten enthält. Wenn spalten die Kriterien nicht erfüllen, wird ein NaN -Wert ("kein Zahlwert") zurückgegeben.

Angenommen, Sie haben in den beiden numerischen Spalten wheel-base und curb-weight plus einer kategorisierten Spalte make (aus dem Automobilpreis-Dataset) übergeben. Das Ergebnis ist eine 3x3-Tabelle mit Koeffizienten für alle möglichen Kombinationen der Eingabespalten:

make wheel-base curb-weight
Nan Nan Nan
Nan 1 0.776386
Nan 0.776386 1

In dieser Tabelle werden die Zeilen verstanden, um jede der Variablen,makewheel-base und curb-weight, in dieser Reihenfolge darzustellen.

  • Der r-Wert für die Korrelation von wheel-base sich selbst ist 1.
  • Der r-Wert für die Korrelation von wheel-basecurb-weight 0,776386.
  • Alle Korrelationen mit dem Spaltenergebnis make in NaN, einschließlich der Korrelation mit sich selbst, da make es sich um ein Zeichenfolgenfeature handelt.

Es wird empfohlen, nicht numerische Spalten zu entfernen, um komplexe Tabellen mit vielen sinnlosen Werten zu vermeiden.

Beispiele

Informationen dazu, wie dieses Modul in Machine Learning-Experimenten verwendet wird, finden Sie im Azure AI-Katalog:

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Details zur Implementierung

Wenn die als Eingabe übergebene Spalte Skalare enthält, werden die Eingabearrays (x und y) als Vektoren behandelt, und die Pearson-Korrelation wird wie folgt berechnet:

linear correlation formula

In dieser Formel enthält jedes Array n-Elemente und die Mittel der x - und y-Proben sind μx und μy.

Für eine Matrix wird eine Matrix aus Daten (X) eingegeben, in der jede Spalte einem Vektor aus Werten entspricht. Geben Sie die Datenmatrix als n mal m-Matrix an. Die jeweilige Ausgabe ist gleich der m mal m-Matrix R, die wie folgt definiert ist:

formula for linear correlation

In dieser Formel stellt μx den Mittelwert der Spalte xi dar. Die Elemente bei I,j sind immer 1, da sie der Korrelation eines Vektors mit sich selbst entsprechen.

Erwartete Eingaben

Name type BESCHREIBUNG
Dataset Datentabelle Eingabedataset

Ausgaben

Name type BESCHREIBUNG
Ergebnisdataset Datentabelle Korrelationsmatrix

Ausnahmen

Ausnahme Beschreibung
Fehler 0003 Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0020 Die Ausnahme tritt auf, wenn die Anzahl der Spalten in einigen Datasets, die an das Modul übergeben wurden, zu klein ist.
Fehler 0021 Die Ausnahme tritt auf, wenn die Anzahl der Zeilen in einigen Datasets, die an das Modul übergeben wurden, zu klein ist.

Eine Liste der Fehler, die für Studio-Module (klassische) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Statistische Funktionen
Modulliste von A bis Z