Sdílet prostřednictvím


Rybář lineární analýzy Discriminant

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Určuje lineární kombinaci proměnných funkce, které mohou nejlépe seskupovat data do samostatných tříd.

Kategorie: moduly výběru funkcí

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak pomocí modulu analýzy Fisher lineárního Discriminantu v Machine Learning studiu (classic) vytvořit novou datovou sadu funkcí, která zachycuje kombinaci funkcí, které nejlépe oddělují dvě nebo víc tříd.

Tato metoda se často používá pro snižování dimenzionálního rozsahu, protože projekty tvoří sadu funkcí do menšího prostoru funkcí a přitom zachovává informace, které rozlišuje mezi třídami. To nejen snižuje výpočetní náklady pro danou úlohu klasifikace, ale může přispět k tomu, aby se zabránilo jejímu přeložení.

Pokud chcete vygenerovat skóre, zadejte sloupec popisku a nastavte sloupce číselných funkcí jako vstupy. Algoritmus Určuje optimální kombinaci vstupních sloupců, které lineárně oddělují každou skupinu dat a současně minimalizují vzdálenost v rámci jednotlivých skupin. Modul vrátí datovou sadu obsahující kompaktní a transformované funkce společně s transformací, kterou můžete uložit a použít na jinou datovou sadu.

Další informace o lineární analýze Discriminant

Lineární analýza Discriminant je podobná analýze Variance (ANOVA) v tom, že funguje, porovnáním prostředků proměnných. Jako ANOVA se spoléhá na tyto předpoklady:

  • Předpovědi jsou nezávislé.
  • Funkce hustoty podmíněné pravděpodobnosti každého vzorku je obvykle distribuována
  • Odchylky mezi skupinami jsou podobné.

Lineární analýza Discriminant se někdy zkracuje na LDA, ale to se dá snadno zaměňovat se latentním přidělením Dirichletův. Techniky se úplně liší, takže v této dokumentaci používáme všechny názvy, pokud je to možné.

Jak nakonfigurovat lineární analýzu Discriminant

  1. Přidejte vstupní datovou sadu a ověřte, že vstupní data splňují tyto požadavky:

    • Data by měla být co nejúplnější. Řádky, které mají všechny chybějící hodnoty, se ignorují.
    • Očekává se, že hodnoty mají normální rozdělení. Než začnete používat Fisher lineární analýzy Discriminant, zkontrolujte data pro odlehlé hodnoty nebo otestujte rozdělení.
    • Měli byste mít méně prediktivních, než jsou vzorky.
    • Odeberte všechny jiné než číselné sloupce. Algoritmus prověřuje všechny platné číselné sloupce zahrnuté do vstupů a vrátí chybu, pokud jsou zahrnuté neplatné sloupce. Pokud potřebujete vyloučit žádné číselné sloupce, přidejte modul Výběr sloupců v datové sadě před rybář lineární analýzy Discriminant, abyste vytvořili zobrazení, které obsahuje pouze sloupce, které chcete analyzovat. Později se můžete znovu připojit ke sloupcům pomocí Přidat sloupce. Původní pořadí řádků je zachováno.
  2. Připojení vstupní data do modulu analýzy Fisher lineárního Discriminant .

  3. U sloupce popisky třídklikněte na Spustit selektor sloupců a vyberte sloupec popisek.

  4. Pro počet extrahování funkcízadejte počet sloupců, které mají být výsledkem.

    Například pokud vaše datová sada obsahuje osm sloupců s numerickou funkcí, můžete je zadat 3 do nového, zmenšeného prostoru funkcí pouze na tři sloupce.

    Je důležité si uvědomit, že výstupní sloupce neodpovídají přesně vstupním sloupcům, ale místo toho představují kompaktní transformaci hodnot ve vstupních sloupcích.

    Pokud jako hodnotu pro počet extraktorů funkcípoužijete 0 a n sloupce se používají jako vstup, vrátí se n extrahování funkcí a s novými hodnotami, které představují n-dimenzionální prostor funkcí.

  5. Spusťte experiment.

Výsledky

Algoritmus Určuje kombinaci hodnot ve vstupních sloupcích, které lineárně oddělují každou skupinu dat a současně minimalizují vzdálenost v rámci jednotlivých skupin, a vytvoří dva výstupy:

  • Transformované funkce. Datová sada obsahující zadaný počet sloupců extrahování funkcí s názvem Sloupec1, col2, Col3a tak dále. Výstup také zahrnuje i třídu nebo proměnnou popisku.

    Tuto zkomprimovanou sadu hodnot můžete použít pro školení modelu.

  • Rybář lineární transformace Discriminant Transformace, kterou lze uložit a poté použít pro datovou sadu, která má stejné schéma. To je užitečné, pokud analyzujete mnoho datových sad stejného typu a chcete použít stejné omezení funkcí u každého. Datová sada, na kterou ji použijete, by měla mít stejné schéma.

Příklady

Příklady výběru funkcí v strojovém učení najdete v Azure AI Gallery:

Technické poznámky

Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.

Tipy k použití

  • Tato metoda funguje pouze u souvislých proměnných, nikoli kategorií nebo řadových proměnných.

  • Řádky s chybějícími hodnotami se při výpočtu matice transformace ignorují.

  • Pokud transformaci uložíte z experimentu, transformy vypočítané z původního experimentu se znovu aplikují na každou novou sadu dat a nebudou se přepočítávají. Proto pokud chcete vypočítat novou sadu funkcí pro každou sadu dat, použijte novou instanci Fisherově lineární analýzy Discriminant pro každou datovou sadu.

Podrobnosti o implementaci

Datová sada funkcí je transformována pomocí eigenvectors. Eigenvectors pro vstupní datovou sadu se vypočítávají na základě zadaných sloupců funkcí, označovaných také jako matice diskriminace.

Výstup transformace modul obsahuje tyto eigenvectors, které lze použít pro transformaci jiné datové sady, která má stejné schéma.

Další informace o tom, jak se eigenvalues počítají, najdete v tomto dokumentu (PDF): extrakce funkcí založených na Eigenvector pro klasifikaci. Tymbal, Puuronen et al.

Očekávané vstupy

Název Typ Description
Datová sada Tabulka dat Vstupní datová sada

Parametry modulu

Název Typ Rozsah Volitelné Výchozí Description
Sloupec popisků tříd ColumnSelection Vyžadováno Žádné Vyberte sloupec, který obsahuje popisky třídy kategorií.
Počet extraktorů funkcí Integer >= 0 Vyžadováno 0 Počet extraktorů funkcí, které se mají použít. Pokud je nula, použijí se všechny extraktory funkcí.

Výstupy

Název Typ Description
Transformované funkce Tabulka dat Fisherově lineární funkce analýzy Discriminant transformované na eigenvector prostor
Převod Fisherově lineární Discriminant analýzy Rozhraní ITransform Transformace Fisher lineární analýzy Discriminant

Výjimky

Výjimka Description
Chyba 0001 K výjimce dojde v případě, že se nepovedlo najít jeden nebo více zadaných sloupců datové sady.
Chyba 0003 K výjimce dojde v případě, že jeden nebo více vstupů má hodnotu null nebo je prázdné.
Chyba 0017 K výjimce dojde v případě, že jeden nebo více zadaných sloupců má nepodporovaný typ aktuálním modulem.

seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.

seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.

Viz také

Výběr funkcí
Výběr funkcí na základě filtrů
Analýza hlavní komponenty