Sdílet prostřednictvím


Výpočet lineární korelace

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Vypočítá lineární korelaci mezi hodnotami sloupců v datové sadě.

Kategorie: Statistické funkce

Poznámka

Platí jenom pro: Machine Learning Studio (jenom Classic)

Podobné moduly pro přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

Tento článek popisuje, jak pomocí modulu Compute Linear Correlation v Machine Learning Studiu (classic) vypočítat sadu pearsonových korelačních koeficientů pro každou možnou dvojici proměnných ve vstupní datové sadě.

Pearsonův korelační koeficient, někdy označovaný jako Pearsonův test R, je statistická hodnota, která měří lineární vztah mezi dvěma proměnnými. Prozkoumáním hodnot koeficientu můžete odvodit něco o síle vztahu mezi těmito dvěma proměnnými a to, jestli jsou pozitivně korelovány nebo negativně korelovány.

Konfigurace lineární korelace

Před výpočtem korelačního koeficientu existují některé předpoklady, jako je čištění dat a ověření vztahu mezi proměnnými pro tento modul. Je také nutné odebrat nebo imputovat chybějící hodnoty.

Při použití tohoto modulu platí následující omezení:

  • Modul Compute Linear Correlation může zpracovávat pouze číselné hodnoty. Všechny ostatní typy hodnot, včetně chybějících hodnot, nečíselných hodnot a kategorických hodnot, se považují za sítě NAN.

  • Pearsonova korelace se vypočítá pro všechny číselné sloupce v datové sadě, které se předávají jako vstup. Nezapomeňte vyloučit všechny sloupce, které jsou vhodné pro tuto analýzu.

  • Výpočetní lineární korelaci nelze použít s daty, která mají chybějící hodnoty.

Krok 1: Určení linearity

Pokud se u sloupců, které testujete, očekáváte, že budou mít nějaký druh lineární relace, neexistuje žádný bod vygenerování tohoto koeficientu. Proto je vhodné nejprve otestovat sloupce, abyste zjistili, jestli mají správný druh dat a správný druh distribuce obecně.

Existují různé způsoby, jak určit, jestli je relace mezi sloupci přibližně lineární:

  • Vytvořte bodový graf proměnných v sadě Studio (classic) pomocí možnosti Vizualizovat v datové sadě. Klikněte na jeden z číselných sloupců proměnných, rozbalte vizualizace a klikněte na porovnat. Vyberte jinou proměnnou a bodový graf se automaticky vygeneruje. Pokud se vygeneruje jiný typ grafu, znamená to, že alespoň jeden sloupec má jiný (nečíselný) datový typ.

  • Vypočítá regresní rovnici pro dvě proměnné. Existuje mnoho balíčků jazyka R, které to podporují, které můžete načíst a použít v modulu Spustit skript jazyka R .

Krok 2: Vyčištění dat

Je nutné odebrat nebo vyplnit chybějící hodnoty, odebrat nebo vystřižovat odlehlé hodnoty a zajistit, aby sloupce měly správný datový typ.

Před použitím tohoto modulu nezapomeňte zkontrolovat zástupné symboly a nahradit tuto hodnotu jinými odpovídajícími hodnotami. Pokud byly při načtení datové sady ze zdroje vloženy hodnoty NaNs pro chybějící hodnoty, mohlo by dojít k chybě. Zástupné hodnoty, například 999 nebo -1 můžou způsobit chybné výsledky.

K přípravě dat můžete použít tyto moduly:

Datový typ sloupců můžete upravit pomocí možnosti Upravit metadata. Ujistěte se, že sloupce, které chcete analyzovat, jsou označené jako sloupce funkcí.

Krok 3: Vygenerování koeficientu

  1. Přidejte do experimentu modul Compute Linear Correlation . Tento modul najdete v kategorii Statistické funkce v Machine Learning Studiu (classic).

  2. Přidejte datovou sadu, kterou chcete analyzovat.

  3. Doporučujeme přidat do datové sady modul Select Columns (Vybrat sloupce) mezi datovou sadu a modul Compute Linear Correlation (Výpočet lineární korelace ), abyste odebrali nepotřebné sloupce. Nakonfigurujte modul Vybrat sloupce v datové sadě tak, aby získal pouze dva číselné sloupce, pro které chcete vypočítat koeficienty.

    V opačném případě může modul Compute Linear Correlation generovat mnoho sloupců nan.

  4. Pro tento modul nejsou nastavené žádné parametry. Pokud však sloupce, které předáváte jako vstupy, nesplňují požadavky, selže.

  5. Spusťte experiment.

Výsledky pro dva sloupce

Vzhledem ke dvěma sloupcům funkce vrátí modul Compute Linear Correlation skalární Pearsonův moment (vzorek) korelační koeficient. Pearsonův korelační koeficient (často označený jako r) se pohybuje v hodnotě od +1 do -1.

  • +1 označuje silnou pozitivní lineární relaci.

  • -1 označuje silnou negativní lineární korelaci.

  • 0 označuje žádný lineární vztah mezi těmito dvěma proměnnými.

Interpretace koeficientů závisí velmi na problému, který modelujete, a proměnných, které studujete. Proto je důležité pochopit kontext dat při vytváření sestav a interpretaci Pearsonova korelačního koeficientu.

  • Pokud jste si jistí, že proměnné nesouvisejí a přesto je pearsonův korelační koeficient silně pozitivní (r.5 > nebo tak), měli byste prozkoumat podrobněji.

  • Pokud používáte lineární korelaci u dvou proměnných, o kterých víte, že mají být dokonale korelovány, a hodnoty koeficientu nejsou to, co očekáváte, může to znamenat problém v datech.

Výsledky pro více než dva sloupce

Vzhledem k matici (tj. více než dva sloupce funkcí) vrátí modul Compute Linear Correlation sadu pearsonových momentových korelací mezi jednotlivými dvojicemi sloupců funkcí.

Výsledek je tedy n x n tabulka obsahující koeficienty pro každou kombinaci n sloupců. Pokud některé sloupce nesplňují kritéria, vrátí se hodnota NaN (ne číslo).

Předpokládejme například, že jste předali dva číselné sloupce wheel-base a curb-weight navíc jeden sloupec make kategorií (z datové sady Automobile price). Výsledkem je tabulka koeficientů 3x3 pro všechny možné kombinace vstupních sloupců:

make wheel-base curb-weight
Nan Nan Nan
Nan 1 0.776386
Nan 0.776386 1

V této tabulce jsou řádky srozumitelné pro každou z proměnnýchmake, wheel-basea curb-weightv tomto pořadí.

  • Hodnota r pro korelaci wheel-base samotného je 1.
  • Hodnota r pro korelaci wheel-base s curb-weight hodnotou 0,776386.
  • Všechny korelace zahrnující výsledek sloupce make v NaN, včetně korelace se samotným, protože make je to řetězcová funkce.

Doporučujeme odebrat nečíselné sloupce, abyste se vyhnuli složitým tabulkám s mnoha bezvýznamnými hodnotami.

Příklady

Pokud chcete zjistit, jak se tento modul používá v experimentech strojového učení, podívejte se do galerie Azure AI:

Technické poznámky

Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.

Podrobnosti o implementaci

Pokud sloupec předaný jako vstup obsahuje skaláry, vstupní pole (x a y) se považují za vektory a korelace Pearsonova okamžiku produktu se vypočítá takto:

linear correlation formula

V tomto vzorci obsahuje každé pole n prvků a průměry vzorků x a y jsou μx a μy v uvedeném pořadí.

Pro matici je matice dat (X) vstup, ve kterém každý sloupec představuje vektor hodnot. Matice dat by měla být n-by-m. Výstupem je matice m-by-m, R definovaná

formula for linear correlation

V tomto vzorci μx představuje střední hodnotu sloupce x i. Prvky na I,j vždy rovnají 1, protože představují korelaci vektoru se samotným.

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Vstupní datová sada

Výstupy

Název Typ Description
Datová sada výsledků Tabulka dat Matice korelací

Výjimky

Výjimka Description
Chyba 0003 K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdné.
Chyba 0020 K výjimce dochází, pokud je počet sloupců v některých datových sadách předaných modulu příliš malý.
Chyba 0021 K výjimce dochází v případě, že počet řádků v některých datových sadách předaných do modulu je příliš malý.

Seznam chyb specifických pro moduly Studio (Classic) najdete v tématu Machine Learning kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning kódy chyb rozhraní REST API.

Viz také

Statistické funkce
Seznam modulů A-Z