Moduły wyboru funkcji
Ważne
Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.
Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).
- Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
- Dowiedz się więcej o Azure Machine Learning.
Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.
W tym artykule opisano moduły w programie Machine Learning Studio (wersja klasyczna), których można użyć do wyboru funkcji.
Uwaga
Dotyczy: Machine Learning Studio (wersja klasyczna)
Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.
Wybór funkcji jest ważnym narzędziem w uczeniu maszynowym. Machine Learning Studio (klasyczne) udostępnia wiele metod przeprowadzania wyboru funkcji. Wybierz metodę wyboru funkcji na podstawie typu posiadanych danych oraz wymagań zastosowanej techniki statystycznej.
Ten artykuł obejmuje:
- Co to jest wybór funkcji
- Moduły wyboru funkcji w Machine Learning
- Jak korzystać z wyboru funkcji
- Algorytmy, które obejmują wybór funkcji
Każdy moduł wyboru funkcji w programie Machine Learning Studio (klasyczny) używa zestawu danych jako danych wejściowych. Następnie moduł stosuje dobrze znane metody statystyczne do kolumn danych, które są dostarczane jako dane wejściowe. Dane wyjściowe to zestaw metryk, które mogą pomóc w zidentyfikowaniu kolumn, które mają najlepszą wartość informacji.
Informacje o wyborze funkcji
W uczeniu maszynowym i statystyce wybór funkcji to proces wybierania podzestawu odpowiednich, przydatnych funkcji do użycia podczas tworzenia modelu analitycznego. Wybór funkcji ułatwia zawężenie pola danych do najbardziej wartościowych danych wejściowych. Zawężanie pola danych pomaga zmniejszyć szum i poprawić wydajność trenowania.
Często cechy są tworzone na podstawie danych pierwotnych w procesie inżynierii cech. Na przykład sama sygnatura czasowa może nie być przydatna do modelowania, dopóki informacje nie zostaną przekształcone w jednostki dni, miesięcy lub kategorii, które są istotne dla problemu, takie jak dzień wolny od pracy.
Nowi użytkownicy uczenia maszynowego mogą być kuszeni do dołączania wszystkich dostępnych danych. Mogą oczekiwać, że algorytm znajdzie coś interesującego, używając większej liczby danych. Jednak wybór funkcji zwykle może poprawić model i zapobiec powszechnym problemom:
- Dane zawierają nadmiarowe lub nieistotne funkcje, które nie zawierają więcej informacji niż aktualnie wybrane funkcje.
- Dane zawierają nieistotne funkcje, które nie zapewniają żadnych przydatnych informacji w żadnym kontekście. Uwzględniając nieistotne pola, nie tylko wydłuża się czas wymagany do trenowania danych, ale także może prowadzić do słabych wyników.
- W przypadku niektórych algorytmów zduplikowanie informacji w danych treningowych może prowadzić do zjawiska nazywanego wieloliniowością. W przypadku wieloliniowości obecność dwóch wysoce skorelowanych zmiennych może spowodować, że obliczenia dla innych zmiennych staną się znacznie mniej dokładne.
Porada
Niektóre algorytmy uczenia maszynowego w Machine Learning Studio (klasycznej) również używają wyboru funkcji lub redukcji wymiarowości w ramach procesu trenowania. Korzystając z tych osób uczących się, możesz pominąć proces wyboru funkcji i pozwolić algorytmowi na wybór najlepszych danych wejściowych.
Korzystanie z wyboru funkcji w eksperymencie
Wybór funkcji jest zazwyczaj wykonywany podczas eksplorowania danych i opracowywania nowego modelu. Podczas wyboru funkcji należy pamiętać o tych wskazówkach:
- Podczas testowania dodaj do eksperymentu wybór funkcji, aby wygenerować wyniki informujące o tym, których kolumn użyć.
- Usunięcie zaznaczenia funkcji z eksperymentu podczas operacji modelu.
- Okresowo uruchamiaj wybór funkcji, aby upewnić się, że dane i najlepsze funkcje nie uległy zmianie.
Wybór funkcji różni się od inżynierii cech, która koncentruje się na tworzeniu nowych funkcji z istniejących danych.
Zasoby
- Aby uzyskać omówienie różnych sposobów tworzenia funkcji lub wybierania najlepszych funkcji w ramach procesu nauki o danych, zobacz Feature engineering in data science (Inżynieria cech w nauce o danych).
- Aby uzyskać wskazówki dotyczące wyboru funkcji w procesie nauki o danych, zobacz Filtrowanie funkcji z danych — wybór funkcji.
Metody wyboru funkcji w programie Machine Learning Studio (wersja klasyczna)
Następujące moduły wyboru funkcji są dostępne w programie Machine Learning Studio (wersja klasyczna).
Wybór funkcji oparty na filtrze
W przypadku korzystania z modułu Wybór funkcji na podstawie filtru można wybierać spośród dobrze znanych metod wyboru funkcji. Moduł zawiera zarówno statystyki wyboru funkcji, jak i przefiltrowany zestaw danych.
Wybór metody wyboru filtru zależy częściowo od rodzaju posiadanych danych wejściowych.
Metoda | Obsługiwane dane wejściowe funkcji | Obsługiwane etykiety |
---|---|---|
Korelacja Pearsona | Tylko kolumny liczbowe i logiczne | Pojedyncza kolumna liczbowa lub logiczna |
Wynik informacji wzajemnej | Wszystkie typy danych | Pojedyncza kolumna dowolnego typu danych |
Współczynnik korelacji Kendalla | Tylko kolumny liczbowe i logiczne | Pojedyncza kolumna liczbowa lub logiczna Kolumny powinny mieć wartości, które mogą być klasyfikowane |
Współczynnik korelacji Spearmana | Tylko kolumny liczbowe i logiczne | Pojedyncza kolumna liczbowa lub logiczna |
Statystyka chi kwadrat | Wszystkie typy danych | Pojedyncza kolumna dowolnego typu danych |
Wynik dla przechłodzy | Tylko kolumny liczbowe i logiczne | Pojedyncza kolumna liczbowa lub logiczna Kolumnom ciągów jest przypisywany wynik 0 |
Wybór funkcji na podstawie liczby | Wszystkie typy danych | Kolumna etykiety nie jest wymagana |
Linear Linear Discriminant Analysis (Analiza liniowa, która jest dyskryminowa)
Liniowa analiza dyskryminowana to nadzorowana technika uczenia, która umożliwia klasyfikowanie zmiennych liczbowych w połączeniu z pojedynczym elementem docelowym kategorii. Metoda jest przydatna do wyboru funkcji, ponieważ identyfikuje kombinację cech lub parametrów, które najlepiej oddzielają grupy.
Możesz użyć modułu Linear Discriminant Analysis (Analiza dyskryminatora liniowego Linear Linear Discriminant Analysis ) do wygenerowania zestawu wyników do przeglądu lub użyć zastępczego zestawu danych wygenerowanego przez moduł do trenowania.
Ważność funkcji permutacji
Moduł Permutation Feature Importance (Ważność funkcji permutacji ) umożliwia symulowanie wpływu dowolnego zestawu cech na zestaw danych. Moduł oblicza wyniki wydajności dla modelu na podstawie losowego migotania wartości cech.
Wyniki zwracane przez moduł reprezentują potencjalną zmianę dokładności wytrenowany model w przypadku zmiany wartości. Za pomocą wyników można określić wpływ poszczególnych zmiennych na model.
Algorytmy uczenia maszynowego, które obejmują wybór funkcji
Niektóre algorytmy uczenia maszynowego w Machine Learning Studio (klasycznej) optymalizują wybór funkcji podczas trenowania. Mogą one również zawierać parametry, które ułatwiają wybór funkcji. Jeśli używasz metody, która ma własną heurystyczną metodę wybierania funkcji, często lepiej jest polegać na tej heurystyce, zamiast na wstępnym wyborze funkcji.
Te algorytmy i metody wyboru funkcji są używane wewnętrznie:
Modele wzmacnianego drzewa decyzyjnego na przykład klasyfikacji i regresji
W tych modułach podsumowanie funkcji jest tworzone wewnętrznie. Funkcje, które mają wagę 0, nie są używane przez żadne podziały drzewa. Podczas wizualizowania najlepszego wytrenowany model można przyjrzeć się każdemu z drzew. Jeśli funkcja nigdy nie jest używana w żadnym drzewie, prawdopodobnie jest kandydatem do usunięcia. Aby zoptymalizować wybór, dobrym pomysłem jest również czyszczenie parametrów.
Modele regresji logistycznej i modele liniowe
Moduły dla wieloklasowej i binarnej regresji logistycznej obsługują regularalizację L1 i L2. Regularyzacja to sposób dodawania ograniczeń podczas trenowania w celu ręcznego określenia aspektu poznanych modeli. Regularyzacja jest zwykle używana w celu uniknięcia naddopasowania. Machine Learning Studio (klasyczne) obsługuje regularalizację dla norm L1 lub L2 wektora wagi w algorytmach klasyfikacji liniowej:
- Regularyzacja L1 jest przydatna, jeśli celem jest jak najdrzejszy model.
- Regularyzacja L2 zapobiega nadmiernemu wzrostowi wielkości dowolnej pojedynczej współrzędnej w wektorze wagi. Jest to przydatne, jeśli celem jest model o małych ogólnych wagach.
- Regresja logistyczna regularna L1 jest bardziej agresywna w przypadku przypisywania wagi 0 do cech. Jest to przydatne w identyfikowaniu funkcji, które można usunąć.
Uwagi techniczne
Wszystkie moduły wyboru funkcji i metody analityczne, które obsługują kolumny liczbowe i logiczne, obsługują również kolumny daty i godziny. Te kolumny są traktowane jako proste kolumny liczbowe, w których każda wartość jest równa liczbie takt.
Zadania powiązane
Następujące moduły nie są w kategorii Wybór funkcji , ale można ich używać do powiązanych zadań. Moduły mogą pomóc zmniejszyć wymiarowość danych lub znaleźć korelacje:
Jeśli masz zestaw danych, który zawiera wiele kolumn, użyj modułu Analiza głównych składników , aby wykryć kolumny zawierające najwięcej informacji o oryginalnych danych.
Ten moduł należy do kategorii Przekształcanie danych w obszarze Skalowanie i zmniejszanie.
Cechowanie na podstawie liczby to nowa technika, której można użyć do określenia przydatnych funkcji przy użyciu dużych zestawów danych. Za pomocą tych modułów można analizować zestawy danych, aby znaleźć najlepsze funkcje, zapisać zestaw funkcji do użycia z nowymi danymi lub zaktualizować istniejący zestaw funkcji.
Ten moduł umożliwia obliczenie zestawu współczynników korelacji Pearsona dla każdej możliwej pary zmiennych w wejściowym zestawie danych. Współczynnik korelacji Pearsona, nazywany również testem R Pearsona, jest wartością statystyczną, która mierzy liniową relację między dwiema zmiennymi.
Ten moduł należy do kategorii Funkcje statystyczne .
Lista modułów
Kategoria Wybór funkcji obejmuje następujące moduły:
- Wybór funkcji na podstawie filtru: identyfikuje funkcje w zestawie danych, które mają największą moc predykcyjną.
- Linear Discriminant Analysis (Analiza liniowa), która identyfikuje liniową kombinację zmiennych cech, które mogą najlepiej grupowania danych w oddzielne klasy.
- Znaczenie funkcji permutacji: oblicza oceny ważności funkcji permutacji dla zmiennych funkcji dla wytrenowany model i testowy zestaw danych.