Analýza hlavní komponenty
Důležité
Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.
Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).
- přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
- přečtěte si další informace o Azure Machine Learning.
Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.
Vypočítá sadu funkcí s menším rozměrem pro efektivnější učení.
Kategorie: transformace/ukázka a rozdělení dat
Poznámka
platí pro: jenom Machine Learning Studio (classic)
podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.
Přehled modulu
tento článek popisuje, jak použít modul analýzy hlavních komponent v Machine Learning studiu (classic) k omezení dimenzionálního data školicích dat. Modul analyzuje vaše data a vytvoří omezenou sadu funkcí, která zachycuje všechny informace obsažené v datové sadě, ale s menším počtem funkcí.
Modul také vytvoří transformaci, kterou můžete použít na nová data, abyste dosáhli podobného snížení rozměru a komprimace funkcí bez nutnosti dalšího školení.
Další informace o analýze základních komponent
Analýza hlavních komponent (DPS) je oblíbená technika v rámci Machine Learning. Spoléhá na to, že mnoho typů dat ve vektorovém prostoru je komprimovat a že komprese může být efektivně dosaženo vzorkováním.
Přidání výhod DPS je vylepšená vizualizace dat a optimalizace využití prostředků pomocí výukového algoritmu.
modul analýza hlavní komponenty v Machine Learning studiu (classic) převezme sadu sloupců funkcí v zadané datové sadě a vytvoří projekci prostoru funkcí, který má nižší dimenzionální hodnotu. Algoritmus používá metody náhodnosti k identifikaci podprostoru funkce, který zachycuje většinu informací v celé matrici funkce. Proto transformované matice dat zachycují odchylku v původních datech a zároveň snižuje vliv hluku a minimalizuje riziko přebudování.
Obecné informace o analýze hlavních komponent (DPS) najdete v tomto článku Wikipedii. Informace o přístupech DPS používaných v tomto modulu najdete v těchto článcích:
Hledání struktury s náhodností: pravděpodobnostní algoritmy pro vytváření přibližných rozkladů matice. Halko, Martinsson a Tropp, 2010.
Kombinování strukturovaných a nestrukturovaných náhodností ve velkém měřítku DPS Kombinování strukturovaných a nestrukturovaných Náhodností ve velkém měřítku DPS. Karampatziakis a Mineiro, 2013.
Jak nakonfigurovat analýzu základní součásti
Přidejte do experimentu modul Analýza hlavní součásti . Můžete ji najít v části transformace datv kategorii škálování a zmenšení .
Připojení datovou sadu, kterou chcete transformovat, a vyberte sloupce funkcí, které chcete analyzovat.
Pokud ještě nevymažete, které sloupce jsou funkce a které jsou popisky, doporučujeme použít modul Upravit metadata k tomu, abyste sloupce označili předem.
Počet rozměrů, které se mají snížit: zadejte požadovaný počet sloupců v konečném výstupu. Každý sloupec představuje dimenzi, která zachytí určitou část informací ve vstupních sloupcích.
Pokud má zdrojová datová sada například osm sloupců a Vy zadáte
3
, vrátí se tři nové sloupce, které zachytí informace o osmi vybraných sloupcích. Sloupce jsou pojmenoványCol1
,Col2
aCol3
. Tyto sloupce nejsou namapovány přímo na zdrojové sloupce; místo toho sloupce obsahují aproximaci prostoru funkce, který je popsaný v původních sloupcích 1-8.Tip
Algoritmus funguje optimálně, pokud je počet zmenšených dimenzí mnohem menší než původní rozměry.
Normalizovat hustou datovou sadu na nulový význam: tuto možnost vyberte, pokud je datová sada zhuštěná, což znamená, že obsahuje několik chybějících hodnot. Pokud je tato možnost vybrána, modul normalizuje hodnoty ve sloupcích na střední hodnotu nula před jakýmkoli jiným zpracováním.
Pro zhuštěné datové sady by tato možnost neměla být vybraná. Pokud je zjištěna zhuštěná datová sada, je parametr přepsán.
Spusťte experiment.
Výsledky
Modul vypíše omezenou sadu sloupců, které můžete použít při vytváření modelu. Výstup můžete uložit jako novou datovou sadu nebo použít v experimentu.
V případě potřeby můžete proces analýzy Uložit jako uloženou transformaci a použít ji pro jinou datovou sadu pomocí transformace použít.
Datová sada, na kterou aplikujete transformaci, musí mít stejné schéma jako původní datová sada.
Příklady
Příklady, jak se ve službě Machine Learning používá analytická komponenta, najdete v Azure AI Gallery:
Clusteringu: Vyhledání podobných společností: používá analýzu základní komponenty ke snížení počtu hodnot z dolování textu až po spravovatelný počet funkcí.
I když je v této ukázce Pomocník s protokolem DPS použit pomocí vlastního skriptu jazyka R, ukazuje, jak se obvykle používá DPS.
Technické poznámky
Existují dva fáze pro výpočet s horšími komponentami.
- První je vytvořit malý prostor, který zachycuje akci matice.
- Druhým je omezit matici na místo a pak vypočítat standardní faktoring redukované matice.
Očekávané vstupy
Název | Typ | Description |
---|---|---|
Datová sada | Tabulka dat | Datová sada, jejíž rozměry se mají snížit |
Parametry modulu
Název | Typ | Rozsah | Volitelné | Description | Výchozí |
---|---|---|---|---|---|
Vybrané sloupce | ColumnSelection | Vyžadováno | Vybrané sloupce, pro které se má použít DPS | ||
Počet rozměrů, které se mají snížit | Integer | >= 1 | Vyžadováno | Počet požadovaných dimenzí v redukované datové sadě | |
Normalizovat hustou datovou sadu na nulový význam | Logická hodnota | Vyžadováno | true | Označuje, zda budou vstupní sloupce normalizovány pro zhuštěné datové sady (pro parametr zhuštěných dat je ignorováno). |
Výstupy
Název | Typ | Description |
---|---|---|
Datová sada výsledků | Tabulka dat | Datová sada s menšími rozměry |
Transformace DPS | Rozhraní ITransform | Transformace, která je použita pro datovou sadu, poskytne novou datovou sadu s menšími rozměry. |
Výjimky
Výjimka | Description |
---|---|
Chyba 0001 | K výjimce dojde v případě, že se nepovedlo najít jeden nebo více zadaných sloupců datové sady. |
Chyba 0003 | K výjimce dojde v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdné. |
Chyba 0,0004 | K výjimce dojde, pokud je parametr menší nebo roven konkrétní hodnotě. |
seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.
seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.