Analiza głównych składników
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
Oblicza zestaw cech o większej wymiarowości w celu bardziej wydajnego uczenia
Kategoria: Przekształcanie danych / Przykład i dzielenie
Uwaga
Dotyczy: tylko Machine Learning Studio (klasyczne)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Omówienie modułu
W tym artykule opisano, jak za pomocą modułu Analiza głównych składników w programie Machine Learning Studio (wersja klasyczna) zmniejszyć wymiarowość danych treningowych. Moduł analizuje dane i tworzy ograniczony zestaw funkcji, który przechwytuje wszystkie informacje zawarte w zestawie danych, ale w mniejszej liczbie funkcji.
Moduł tworzy również przekształcenie, które można zastosować do nowych danych w celu osiągnięcia podobnej redukcji wymiarów i kompresji cech, bez konieczności dodatkowego trenowania.
Więcej informacji na temat analizy głównych składników
Analiza głównych składników (PCA, Principal Component Analysis) jest popularną techniką uczenia maszynowego. Opiera się on na tym, że wiele typów danych przestrzeni wektorowej jest skompresowanych i że kompresję można osiągnąć w najbardziej wydajny sposób przez próbkowanie.
Dodatkową zaletą funkcji PCA jest ulepszona wizualizacja danych i optymalizacja użycia zasobów przez algorytm uczenia.
Moduł Principal Component Analysis w programie Machine Learning Studio (wersja klasyczna) pobiera zestaw kolumn funkcji w zestawie danych i tworzy projekcję obszaru funkcji o mniejszej wymiarowości. Algorytm używa technik randomizacji do identyfikowania podprzestrzeni cech, które przechwytują większość informacji w pełnej macierzy cech. W związku z tym przekształcone macierze danych przechwytują wariancja w oryginalnych danych przy jednoczesnym zmniejszeniu wpływu szumu i zminimalizowaniu ryzyka związanego z nadmiarem.
Aby uzyskać ogólne informacje na temat analizy głównych składników (PCA), zobacz ten artykuł w Wikipedii. Aby uzyskać informacje na temat metod pca używanych w tym module, zobacz następujące artykuły:
Znajdowanie struktury z losowością: Probabilistyczne algorytmy do konstruowania przybliżonych dekompozycji macierzy. Halko, Martinsson i Tropp, 2010.
Łączenie losowości ze strukturą i bez struktury w pca na dużą skalę Łączenie losowości ze strukturą i bez struktury w pca na dużą skalę. Karampatziakis i Mineiro, 2013.
Jak skonfigurować analizę głównych składników
Dodaj moduł Principal Component Analysis (Analiza głównych składników ) do eksperymentu. Można go znaleźć w obszarze Przekształcanie danych w kategorii Skalowanie i Redukcja.
Połączenie zestaw danych, który chcesz przekształcić, i wybierz kolumny funkcji do przeanalizowania.
Jeśli jeszcze nie jest jasne, które kolumny są funkcjami i które są etykietami, zalecamy wcześniejsze oznaczenie kolumn za pomocą modułu Edytowanie metadanych.
Liczba wymiarów do zmniejszenia: wpisz żądaną liczbę kolumn w końcowych danych wyjściowych. Każda kolumna reprezentuje wymiar przechwytując część informacji w kolumnach wejściowych.
Jeśli na przykład źródłowy zestaw
3
danych zawiera osiem kolumn i wpiszemy , zostaną zwrócone trzy nowe kolumny, które przechwytują informacje o ośmiu wybranych kolumnach. Kolumny mają nazwyCol1
,Col2
iCol3
. Te kolumny nie są mapowe bezpośrednio na kolumny źródłowe; Zamiast tego kolumny zawierają przybliżenie przestrzeni funkcji opisanej w oryginalnych kolumnach 1–8.Porada
Algorytm działa optymalnie, gdy liczba ograniczonych wymiarów jest znacznie mniejsza niż oryginalne wymiary.
Normalizowanie gęstego zestawu danych do zera średniej: wybierz tę opcję, jeśli zestaw danych jest gęsty, co oznacza, że zawiera niewiele brakujących wartości. Jeśli ta opcja jest zaznaczona, moduł normalizuje wartości w kolumnach do średniej o wartości zero przed innym przetwarzaniem.
W przypadku rozrzednych zestawów danych ta opcja nie powinna być zaznaczona. Jeśli zostanie wykryty rozrzedny zestaw danych, parametr zostanie zastąpiony.
Uruchom eksperyment.
Wyniki
Moduł wyprowadza ograniczony zestaw kolumn, których można użyć podczas tworzenia modelu. Dane wyjściowe można zapisać jako nowy zestaw danych lub użyć ich w eksperymencie.
Opcjonalnie możesz zapisać proces analizy jako zapisane przekształcenie, aby zastosować go do innego zestawu danych przy użyciu opcji Zastosuj przekształcenie.
Zestaw danych, do których jest stosowane przekształcenie, musi mieć taki sam schemat, jak oryginalny zestaw danych.
Przykłady
Aby uzyskać przykłady sposobu, w jaki analiza głównych składników jest używana w uczeniu maszynowym, zobacz Azure AI Gallery:
Klastrowanie: wyszukiwanie podobnych firm: używa analizy głównych składników w celu zmniejszenia liczby wartości z wyszukiwania tekstu do owalnej liczby funkcji.
Mimo że w tym przykładzie pca jest stosowany przy użyciu niestandardowego skryptu R, ilustruje to, jak pca jest zwykle używany.
Uwagi techniczne
Istnieją dwa etapy obliczania składników z niższymi wymiarami.
- Pierwszym z nich jest skonstruowanie podprzestrzeni o małych wymiarach, która przechwyci akcję macierzy.
- Drugim jest ograniczenie macierzy do przestrzeni podrzędnej, a następnie obliczenie standardowej faktoryzacji obniżonej macierzy.
Oczekiwane dane wejściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych | Tabela danych | Zestaw danych, którego wymiary mają zostać ograniczone |
Parametry modułu
Nazwa | Typ | Zakres | Opcjonalne | Opis | Domyślny |
---|---|---|---|---|---|
Wybrane kolumny | ColumnSelection | Wymagane | Wybrane kolumny, do których ma być stosowane pca | ||
Liczba wymiarów, do których należy zmniejszyć | Liczba całkowita | >= 1 | Wymagane | Liczba żądanych wymiarów w zredukowanym zestawie danych | |
Normalizowanie gęstego zestawu danych do średniej zerowej | Wartość logiczna | Wymagane | true | Wskaż, czy kolumny wejściowe będą oznaczane jako znormalizowane dla gęstych zestawów danych (parametr rozrzednych danych jest ignorowany) |
Dane wyjściowe
Nazwa | Typ | Opis |
---|---|---|
Zestaw danych wyników | Tabela danych | Zestaw danych o ograniczonych wymiarach |
Przekształcanie PCA | ITransform, interfejs | Przekształcenie, które po zastosowaniu do zestawu danych zapewni nowy zestaw danych o ograniczonych wymiarach |
Wyjątki
Wyjątek | Opis |
---|---|
Błąd 0001 | Wyjątek występuje, jeśli nie można odnaleźć co najmniej jednej określonej kolumny zestawu danych. |
Błąd 0003 | Wyjątek występuje, jeśli co najmniej jeden z danych wejściowych ma wartość null lub jest pusty. |
Błąd 0004 | Wyjątek występuje, jeśli parametr jest mniejszy lub równy określonej wartości. |
Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.
Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).