Linear Linear Discriminant Analysis (Analiza liniowa, która jest dyskryminowa)
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Identyfikuje liniową kombinację zmiennych cech, które mogą najlepiej grupowanie danych w oddzielne klasy
Kategoria: Moduły wyboru funkcji
Uwaga
Dotyczy: Machine Learning Studio (wersja klasyczna)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Omówienie modułu
W tym artykule opisano sposób używania modułu Linear Discriminant Analysis programu Machine Learning Studio (klasycznego) do utworzenia nowego zestawu danych funkcji, który przechwytuje kombinację funkcji, które najlepiej oddzielają co najmniej dwie klasy.
Ta metoda jest często używana do redukcji wymiarów, ponieważ projektuje zestaw cech na mniejszą przestrzeń cech przy jednoczesnym zachowaniu informacji, które rozróżniają się między klasami. Nie tylko zmniejsza to koszty obliczeniowe dla danego zadania klasyfikacji, ale może pomóc zapobiec przesłoniom.
Aby wygenerować wyniki, należy podać kolumnę etykiety i zestaw liczbowych kolumn cech jako dane wejściowe. Algorytm określa optymalną kombinację kolumn wejściowych, które liniowo oddzielają każdą grupę danych przy jednoczesnym zminimalizowaniu odległości w każdej grupie. Moduł zwraca zestaw danych zawierający kompaktowy, przekształcony element wraz z przekształceniem, które można zapisać i zastosować do innego zestawu danych.
Więcej informacji na temat analizy liniowej dyskryminatorów
Analiza liniowa dyskryminatorów jest podobna do analizy wariancji (ANOVA), ponieważ działa przez porównanie sposobów zmiennych. Podobnie jak w przypadku rozwiązania ANOVA, opiera się ona na tych założeniach:
- Predyktory są niezależne
- Funkcje gęstości prawdopodobieństwa warunkowego każdej próbki są zwykle dystrybuowane
- Wariancja między grupami jest podobna
Analiza liniowa dyskryminowana jest czasami skracana do LDA, ale można to łatwo pomylić z alokacją Latenta Dirichleta. Techniki są zupełnie inne, dlatego w tej dokumentacji używamy pełnych nazw wszędzie tam, gdzie jest to możliwe.
Jak skonfigurować analizę liniową dyskryminatora
Dodaj wejściowy zestaw danych i sprawdź, czy dane wejściowe spełniają następujące wymagania:
- Dane powinny być tak kompletne, jak to możliwe. Wiersze z brakującymi wartościami są ignorowane.
- Oczekuje się, że wartości mają rozkład normalny. Przed użyciem metody Linear Discriminant Analysis (Rozdyseksowujących analizę liniową programu Linear Linear Distribution) przejrzyj dane pod tematem odejścia lub przetestuj rozkład.
- Powinno być mniej predyktorów niż próbek.
- Usuń wszystkie kolumny nieliczbowe. Algorytm sprawdza wszystkie prawidłowe kolumny liczbowe zawarte w danych wejściowych i zwraca błąd, jeśli zostaną uwzględnione nieprawidłowe kolumny. Jeśli chcesz wykluczyć jakiekolwiek kolumny liczbowe, dodaj moduł Select Columns in Dataset (Wybieranie kolumn w zestawie danych) przed analizą liniową,aby utworzyć widok zawierający tylko kolumny, które chcesz przeanalizować. Później możesz ponownie dołączyć do kolumn za pomocą funkcji Dodaj kolumny. Zachowywana jest oryginalna kolejność wierszy.
Połączenie dane wejściowe do modułu Linear Discriminant Analysis (Analiza liniowa na urządzeniach sieciowych).
W kolumnie Etykiety klas kliknij pozycję Uruchom selektor kolumn i wybierz jedną kolumnę etykiet.
W przypadku opcji Liczba wyodrębniaczy cech wpisz liczbę kolumn, które mają zostać w wyniku.
Jeśli na przykład zestaw danych zawiera osiem kolumn cech liczbowych,
3
możesz wpisać , aby zwinąć je do nowej, ograniczonej przestrzeni funkcji zawierającej tylko trzy kolumny.Ważne jest, aby zrozumieć, że kolumny wyjściowe nie odpowiadają dokładnie kolumnom wejściowym, ale reprezentują kompaktową transformację wartości w kolumnach wejściowych.
Jeśli użyjemy wartości 0 jako wartości dla liczby wyodrębniaczy cech, ajako danych wejściowych zostaną użyte n kolumny, zwracane są n wyodrębniaczy cech zawierających nowe wartości reprezentujące n-wymiarową przestrzeń cech.
Uruchom eksperyment.
Wyniki
Algorytm określa kombinację wartości w kolumnach wejściowych, które liniowo oddzielają każdą grupę danych przy jednoczesnym zminimalizowaniu odległości w każdej grupie i tworzą dwa dane wyjściowe:
Przekształcone cechy. Zestaw danych zawierający określoną liczbę kolumn wyodrębniania cech o nazwach col1, col2, col3 itd. Dane wyjściowe zawierają również zmienną klasy lub etykiety.
Tego kompaktowania zestawu wartości można użyć do trenowania modelu.
Przekształcanie liniowej analizy dyskryminatorów. Przekształcenie, które można zapisać, a następnie zastosować do zestawu danych, który ma ten sam schemat. Jest to przydatne, jeśli analizujesz wiele zestawów danych tego samego typu i chcesz zastosować tę samą redukcję funkcji do każdego z nich. Zestaw danych, do których go zastosujemy, powinien mieć ten sam schemat.
Przykłady
Przykłady wyboru funkcji w uczeniu maszynowym można znaleźć w Azure AI Gallery:
- Linear Discriminant Analysis (Analiza liniowa), która pokazuje, jak używać tego modułu do redukcji wymiarowości.
Uwagi techniczne
Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.
Wskazówki dotyczące użycia
Ta metoda działa tylko w przypadku zmiennych ciągłych, a nie zmiennych kategorii ani porządkowych.
Wiersze z brakującymi wartościami są ignorowane podczas obliczania macierzy przekształceń.
Jeśli zapiszemy transformację z eksperymentu, przekształcenia obliczone z oryginalnego eksperymentu zostaną ponowniezastosowane do każdego nowego zestawu danych i nie zostaną ponownie obliczone. W związku z tym, jeśli chcesz obliczyć nowy zestaw funkcji dla każdego zestawu danych, użyj nowego wystąpienia funkcji Linear Discriminant Analysis dla każdego zestawu danych.
Szczegóły implementacji
Zestaw danych cech jest przekształcany przy użyciu efemerów własnych. Eigenvectors dla wejściowego zestawu danych są obliczane na podstawie podanych kolumn cech, nazywanych również macierzą pamięci.
Dane wyjściowe przekształcenia przez moduł zawierają te reigenvectors, które można zastosować w celu przekształcenia innego zestawu danych, który ma ten sam schemat.
Aby uzyskać więcej informacji na temat sposobu obliczania wartości własnych, zobacz ten dokument (PDF): Wyodrębnianie cech oparte na narzędziu Eigenvector do klasyfikacji. Tymbal, Puuronen i in.
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych | Tabela danych | Wejściowy zestaw danych |
Parametry modułu
Nazwa | Typ | Zakres | Opcjonalne | Domyślny | Opis |
---|---|---|---|---|---|
Kolumna Etykiety klas | ColumnSelection | Wymagane | Brak | Wybierz kolumnę zawierającą etykiety klas kategorii | |
Liczba wyodrębniaczy cech | Liczba całkowita | >= 0 | Wymagane | 0 | Liczba funkcji wyodrębniaczy do użycia. Jeśli wynosi zero, zostaną użyte wszystkie funkcje wyodrębniania |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Przekształcone cechy | Tabela danych | Cechy analizy liniowej, które są dyskryminowane, przekształcone w przestrzeń eigenvector |
Transformowanie liniowej analizy dyskryminatorów | ITransform, interfejs | Transformacja liniowej analizy dyskryminatorów w łańcowiskach |
Wyjątki
Wyjątek | Opis |
---|---|
Błąd 0001 | Wyjątek występuje, jeśli nie można odnaleźć co najmniej jednej określonej kolumny zestawu danych. |
Błąd 0003 | Wyjątek występuje, jeśli co najmniej jeden z wejść ma wartość null lub jest pusty. |
Błąd 0017 | Wyjątek występuje, jeśli co najmniej jedna określona kolumna ma typ nieobsługiwany przez bieżący moduł. |
Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.
Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).
Zobacz też
Wybór funkcji
Wybór funkcji oparty na filtrze
Analiza głównych składników