Linear Linear Discriminant Analysis (Analiza liniowa, która jest dyskryminowa)

Artykuł
05/06/2019

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
Dowiedz się więcej o Azure Machine Learning.

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Identyfikuje liniową kombinację zmiennych cech, które mogą najlepiej grupowanie danych w oddzielne klasy

Kategoria: Moduły wyboru funkcji

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób używania modułu Linear Discriminant Analysis programu Machine Learning Studio (klasycznego) do utworzenia nowego zestawu danych funkcji, który przechwytuje kombinację funkcji, które najlepiej oddzielają co najmniej dwie klasy.

Ta metoda jest często używana do redukcji wymiarów, ponieważ projektuje zestaw cech na mniejszą przestrzeń cech przy jednoczesnym zachowaniu informacji, które rozróżniają się między klasami. Nie tylko zmniejsza to koszty obliczeniowe dla danego zadania klasyfikacji, ale może pomóc zapobiec przesłoniom.

Aby wygenerować wyniki, należy podać kolumnę etykiety i zestaw liczbowych kolumn cech jako dane wejściowe. Algorytm określa optymalną kombinację kolumn wejściowych, które liniowo oddzielają każdą grupę danych przy jednoczesnym zminimalizowaniu odległości w każdej grupie. Moduł zwraca zestaw danych zawierający kompaktowy, przekształcony element wraz z przekształceniem, które można zapisać i zastosować do innego zestawu danych.

Więcej informacji na temat analizy liniowej dyskryminatorów

Analiza liniowa dyskryminatorów jest podobna do analizy wariancji (ANOVA), ponieważ działa przez porównanie sposobów zmiennych. Podobnie jak w przypadku rozwiązania ANOVA, opiera się ona na tych założeniach:

Predyktory są niezależne
Funkcje gęstości prawdopodobieństwa warunkowego każdej próbki są zwykle dystrybuowane
Wariancja między grupami jest podobna

Analiza liniowa dyskryminowana jest czasami skracana do LDA, ale można to łatwo pomylić z alokacją Latenta Dirichleta. Techniki są zupełnie inne, dlatego w tej dokumentacji używamy pełnych nazw wszędzie tam, gdzie jest to możliwe.

Jak skonfigurować analizę liniową dyskryminatora

Dodaj wejściowy zestaw danych i sprawdź, czy dane wejściowe spełniają następujące wymagania:
- Dane powinny być tak kompletne, jak to możliwe. Wiersze z brakującymi wartościami są ignorowane.
- Oczekuje się, że wartości mają rozkład normalny. Przed użyciem metody Linear Discriminant Analysis (Rozdyseksowujących analizę liniową programu Linear Linear Distribution) przejrzyj dane pod tematem odejścia lub przetestuj rozkład.
- Powinno być mniej predyktorów niż próbek.
- Usuń wszystkie kolumny nieliczbowe. Algorytm sprawdza wszystkie prawidłowe kolumny liczbowe zawarte w danych wejściowych i zwraca błąd, jeśli zostaną uwzględnione nieprawidłowe kolumny. Jeśli chcesz wykluczyć jakiekolwiek kolumny liczbowe, dodaj moduł Select Columns in Dataset (Wybieranie kolumn w zestawie danych) przed analizą liniową,aby utworzyć widok zawierający tylko kolumny, które chcesz przeanalizować. Później możesz ponownie dołączyć do kolumn za pomocą funkcji Dodaj kolumny. Zachowywana jest oryginalna kolejność wierszy.
Połączenie dane wejściowe do modułu Linear Discriminant Analysis (Analiza liniowa na urządzeniach sieciowych).
W kolumnie Etykiety klas kliknij pozycję Uruchom selektor kolumn i wybierz jedną kolumnę etykiet.
W przypadku opcji Liczba wyodrębniaczy cech wpisz liczbę kolumn, które mają zostać w wyniku.

Jeśli na przykład zestaw danych zawiera osiem kolumn cech liczbowych, 3 możesz wpisać , aby zwinąć je do nowej, ograniczonej przestrzeni funkcji zawierającej tylko trzy kolumny.

Ważne jest, aby zrozumieć, że kolumny wyjściowe nie odpowiadają dokładnie kolumnom wejściowym, ale reprezentują kompaktową transformację wartości w kolumnach wejściowych.

Jeśli użyjemy wartości 0 jako wartości dla liczby wyodrębniaczy cech, ajako danych wejściowych zostaną użyte n kolumny, zwracane są n wyodrębniaczy cech zawierających nowe wartości reprezentujące n-wymiarową przestrzeń cech.
Uruchom eksperyment.

Wyniki

Algorytm określa kombinację wartości w kolumnach wejściowych, które liniowo oddzielają każdą grupę danych przy jednoczesnym zminimalizowaniu odległości w każdej grupie i tworzą dwa dane wyjściowe:

Przekształcone cechy. Zestaw danych zawierający określoną liczbę kolumn wyodrębniania cech o nazwach col1, col2, col3 itd. Dane wyjściowe zawierają również zmienną klasy lub etykiety.

Tego kompaktowania zestawu wartości można użyć do trenowania modelu.
Przekształcanie liniowej analizy dyskryminatorów. Przekształcenie, które można zapisać, a następnie zastosować do zestawu danych, który ma ten sam schemat. Jest to przydatne, jeśli analizujesz wiele zestawów danych tego samego typu i chcesz zastosować tę samą redukcję funkcji do każdego z nich. Zestaw danych, do których go zastosujemy, powinien mieć ten sam schemat.

Przykłady

Przykłady wyboru funkcji w uczeniu maszynowym można znaleźć w Azure AI Gallery:

Linear Discriminant Analysis (Analiza liniowa), która pokazuje, jak używać tego modułu do redukcji wymiarowości.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Wskazówki dotyczące użycia

Ta metoda działa tylko w przypadku zmiennych ciągłych, a nie zmiennych kategorii ani porządkowych.
Wiersze z brakującymi wartościami są ignorowane podczas obliczania macierzy przekształceń.
Jeśli zapiszemy transformację z eksperymentu, przekształcenia obliczone z oryginalnego eksperymentu zostaną ponowniezastosowane do każdego nowego zestawu danych i nie zostaną ponownie obliczone. W związku z tym, jeśli chcesz obliczyć nowy zestaw funkcji dla każdego zestawu danych, użyj nowego wystąpienia funkcji Linear Discriminant Analysis dla każdego zestawu danych.

Szczegóły implementacji

Zestaw danych cech jest przekształcany przy użyciu efemerów własnych. Eigenvectors dla wejściowego zestawu danych są obliczane na podstawie podanych kolumn cech, nazywanych również macierzą pamięci.

Dane wyjściowe przekształcenia przez moduł zawierają te reigenvectors, które można zastosować w celu przekształcenia innego zestawu danych, który ma ten sam schemat.

Aby uzyskać więcej informacji na temat sposobu obliczania wartości własnych, zobacz ten dokument (PDF): Wyodrębnianie cech oparte na narzędziu Eigenvector do klasyfikacji. Tymbal, Puuronen i in.

Oczekiwane dane wejściowe

Nazwa	Typ	Opis
Zestaw danych	Tabela danych	Wejściowy zestaw danych

Parametry modułu

Nazwa	Typ	Zakres	Opcjonalne	Domyślny	Opis
Kolumna Etykiety klas	ColumnSelection		Wymagane	Brak	Wybierz kolumnę zawierającą etykiety klas kategorii
Liczba wyodrębniaczy cech	Liczba całkowita	>= 0	Wymagane	0	Liczba funkcji wyodrębniaczy do użycia. Jeśli wynosi zero, zostaną użyte wszystkie funkcje wyodrębniania

Dane wyjściowe

Nazwa	Typ	Opis
Przekształcone cechy	Tabela danych	Cechy analizy liniowej, które są dyskryminowane, przekształcone w przestrzeń eigenvector
Transformowanie liniowej analizy dyskryminatorów	ITransform, interfejs	Transformacja liniowej analizy dyskryminatorów w łańcowiskach

Wyjątki

Wyjątek	Opis
Błąd 0001	Wyjątek występuje, jeśli nie można odnaleźć co najmniej jednej określonej kolumny zestawu danych.
Błąd 0003	Wyjątek występuje, jeśli co najmniej jeden z wejść ma wartość null lub jest pusty.
Błąd 0017	Wyjątek występuje, jeśli co najmniej jedna określona kolumna ma typ nieobsługiwany przez bieżący moduł.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Wybór funkcji
Wybór funkcji oparty na filtrze
Analiza głównych składników

Udostępnij za pośrednictwem