Výpočet lineární korelace
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- Přečtěte si informace o přesouvání projektů strojového učení z ML Studia (classic) na Azure Machine Learning.
- Přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Vypočítá lineární korelaci mezi hodnotami sloupců v datové sadě.
Kategorie: Statistické funkce
Poznámka
Platí jenom pro: Machine Learning Studio (jenom Classic)
Podobné moduly pro přetažení jsou k dispozici v návrháři Azure Machine Learning.
Přehled modulu
Tento článek popisuje, jak pomocí modulu Compute Linear Correlation v Machine Learning Studiu (classic) vypočítat sadu pearsonových korelačních koeficientů pro každou možnou dvojici proměnných ve vstupní datové sadě.
Pearsonův korelační koeficient, někdy označovaný jako Pearsonův test R, je statistická hodnota, která měří lineární vztah mezi dvěma proměnnými. Prozkoumáním hodnot koeficientu můžete odvodit něco o síle vztahu mezi těmito dvěma proměnnými a to, jestli jsou pozitivně korelovány nebo negativně korelovány.
Konfigurace lineární korelace
Před výpočtem korelačního koeficientu existují některé předpoklady, jako je čištění dat a ověření vztahu mezi proměnnými pro tento modul. Je také nutné odebrat nebo imputovat chybějící hodnoty.
Při použití tohoto modulu platí následující omezení:
Modul Compute Linear Correlation může zpracovávat pouze číselné hodnoty. Všechny ostatní typy hodnot, včetně chybějících hodnot, nečíselných hodnot a kategorických hodnot, se považují za sítě NAN.
Pearsonova korelace se vypočítá pro všechny číselné sloupce v datové sadě, které se předávají jako vstup. Nezapomeňte vyloučit všechny sloupce, které jsou vhodné pro tuto analýzu.
Výpočetní lineární korelaci nelze použít s daty, která mají chybějící hodnoty.
Krok 1: Určení linearity
Pokud se u sloupců, které testujete, očekáváte, že budou mít nějaký druh lineární relace, neexistuje žádný bod vygenerování tohoto koeficientu. Proto je vhodné nejprve otestovat sloupce, abyste zjistili, jestli mají správný druh dat a správný druh distribuce obecně.
Existují různé způsoby, jak určit, jestli je relace mezi sloupci přibližně lineární:
Vytvořte bodový graf proměnných v sadě Studio (classic) pomocí možnosti Vizualizovat v datové sadě. Klikněte na jeden z číselných sloupců proměnných, rozbalte vizualizace a klikněte na porovnat. Vyberte jinou proměnnou a bodový graf se automaticky vygeneruje. Pokud se vygeneruje jiný typ grafu, znamená to, že alespoň jeden sloupec má jiný (nečíselný) datový typ.
Vypočítá regresní rovnici pro dvě proměnné. Existuje mnoho balíčků jazyka R, které to podporují, které můžete načíst a použít v modulu Spustit skript jazyka R .
Krok 2: Vyčištění dat
Je nutné odebrat nebo vyplnit chybějící hodnoty, odebrat nebo vystřižovat odlehlé hodnoty a zajistit, aby sloupce měly správný datový typ.
Před použitím tohoto modulu nezapomeňte zkontrolovat zástupné symboly a nahradit tuto hodnotu jinými odpovídajícími hodnotami. Pokud byly při načtení datové sady ze zdroje vloženy hodnoty NaNs pro chybějící hodnoty, mohlo by dojít k chybě. Zástupné hodnoty, například 999
nebo -1
můžou způsobit chybné výsledky.
K přípravě dat můžete použít tyto moduly:
Datový typ sloupců můžete upravit pomocí možnosti Upravit metadata. Ujistěte se, že sloupce, které chcete analyzovat, jsou označené jako sloupce funkcí.
Krok 3: Vygenerování koeficientu
Přidejte do experimentu modul Compute Linear Correlation . Tento modul najdete v kategorii Statistické funkce v Machine Learning Studiu (classic).
Přidejte datovou sadu, kterou chcete analyzovat.
Doporučujeme přidat do datové sady modul Select Columns (Vybrat sloupce) mezi datovou sadu a modul Compute Linear Correlation (Výpočet lineární korelace ), abyste odebrali nepotřebné sloupce. Nakonfigurujte modul Vybrat sloupce v datové sadě tak, aby získal pouze dva číselné sloupce, pro které chcete vypočítat koeficienty.
V opačném případě může modul Compute Linear Correlation generovat mnoho sloupců nan.
Pro tento modul nejsou nastavené žádné parametry. Pokud však sloupce, které předáváte jako vstupy, nesplňují požadavky, selže.
Spusťte experiment.
Výsledky pro dva sloupce
Vzhledem ke dvěma sloupcům funkce vrátí modul Compute Linear Correlation skalární Pearsonův moment (vzorek) korelační koeficient. Pearsonův korelační koeficient (často označený jako r) se pohybuje v hodnotě od +1 do -1.
+1
označuje silnou pozitivní lineární relaci.-1
označuje silnou negativní lineární korelaci.0
označuje žádný lineární vztah mezi těmito dvěma proměnnými.
Interpretace koeficientů závisí velmi na problému, který modelujete, a proměnných, které studujete. Proto je důležité pochopit kontext dat při vytváření sestav a interpretaci Pearsonova korelačního koeficientu.
Pokud jste si jistí, že proměnné nesouvisejí a přesto je pearsonův korelační koeficient silně pozitivní (r.5 > nebo tak), měli byste prozkoumat podrobněji.
Pokud používáte lineární korelaci u dvou proměnných, o kterých víte, že mají být dokonale korelovány, a hodnoty koeficientu nejsou to, co očekáváte, může to znamenat problém v datech.
Výsledky pro více než dva sloupce
Vzhledem k matici (tj. více než dva sloupce funkcí) vrátí modul Compute Linear Correlation sadu pearsonových momentových korelací mezi jednotlivými dvojicemi sloupců funkcí.
Výsledek je tedy n x n tabulka obsahující koeficienty pro každou kombinaci n sloupců. Pokud některé sloupce nesplňují kritéria, vrátí se hodnota NaN (ne číslo).
Předpokládejme například, že jste předali dva číselné sloupce wheel-base
a curb-weight
navíc jeden sloupec make
kategorií (z datové sady Automobile price). Výsledkem je tabulka koeficientů 3x3 pro všechny možné kombinace vstupních sloupců:
make |
wheel-base |
curb-weight |
---|---|---|
Nan | Nan | Nan |
Nan | 1 | 0.776386 |
Nan | 0.776386 | 1 |
V této tabulce jsou řádky srozumitelné pro každou z proměnnýchmake
, wheel-base
a curb-weight
v tomto pořadí.
- Hodnota r pro korelaci
wheel-base
samotného je 1. - Hodnota r pro korelaci
wheel-base
scurb-weight
hodnotou 0,776386. - Všechny korelace zahrnující výsledek sloupce
make
v NaN, včetně korelace se samotným, protožemake
je to řetězcová funkce.
Doporučujeme odebrat nečíselné sloupce, abyste se vyhnuli složitým tabulkám s mnoha bezvýznamnými hodnotami.
Příklady
Pokud chcete zjistit, jak se tento modul používá v experimentech strojového učení, podívejte se do galerie Azure AI:
- Zpracování a analýza dat: Tato ukázka ukazuje několik technik pro úpravu dat. Výpočetní lineární korelace se používá k identifikaci potenciálních sloupců funkcí.
Technické poznámky
Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.
Podrobnosti o implementaci
Pokud sloupec předaný jako vstup obsahuje skaláry, vstupní pole (x a y) se považují za vektory a korelace Pearsonova okamžiku produktu se vypočítá takto:
V tomto vzorci obsahuje každé pole n prvků a průměry vzorků x a y jsou μx a μy v uvedeném pořadí.
Pro matici je matice dat (X) vstup, ve kterém každý sloupec představuje vektor hodnot. Matice dat by měla být n-by-m. Výstupem je matice m-by-m, R definovaná
V tomto vzorci μx představuje střední hodnotu sloupce x i. Prvky na I,j vždy rovnají 1, protože představují korelaci vektoru se samotným.
Očekávané vstupy
Název | Typ | Description |
---|---|---|
Datová sada | Tabulka dat | Vstupní datová sada |
Výstupy
Název | Typ | Description |
---|---|---|
Datová sada výsledků | Tabulka dat | Matice korelací |
Výjimky
Výjimka | Description |
---|---|
Chyba 0003 | K výjimce dochází v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdné. |
Chyba 0020 | K výjimce dochází, pokud je počet sloupců v některých datových sadách předaných modulu příliš malý. |
Chyba 0021 | K výjimce dochází v případě, že počet řádků v některých datových sadách předaných do modulu je příliš malý. |
Seznam chyb specifických pro moduly Studio (Classic) najdete v tématu Machine Learning kódy chyb.
Seznam výjimek rozhraní API najdete v tématu Machine Learning kódy chyb rozhraní REST API.