Udostępnij za pośrednictwem


Wybór funkcji oparty na filtrze

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Identyfikuje funkcje w zestawie danych o największej mocy predykcyjnej

Kategoria: Moduły wyboru funkcji

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu wybór funkcji na podstawie filtru w programie Machine Learning Studio (wersja klasyczna) do identyfikowania kolumn w wejściowym zestawie danych, które mają największą moc predykcyjną.

Ogólnie rzecz biorąc, wybór funkcji odnosi się do procesu stosowania testów statystycznych do danych wejściowych, biorąc pod uwagę określone dane wyjściowe, aby określić, które kolumny są bardziej predykcyjne dla danych wyjściowych. Moduł Filter Based Feature Selection udostępnia wiele algorytmów wyboru cech do wyboru, w tym metody korelacji, takie jak korelacja Pearsona lub Kendalla, wzajemne oceny informacji i wartości chi kwadrat. Machine Learning obsługuje również liczniki wartości funkcji jako wskaźnik wartości informacji.

Korzystając z modułu Wybór funkcji opartych na filtrach, należy podać zestaw danych, zidentyfikować kolumnę zawierającą etykietę lub zmienną zależną, a następnie określić pojedynczą metodę do użycia podczas mierzenia ważności funkcji.

Moduł wyprowadza zestaw danych zawierający najlepsze kolumny funkcji w klasyfikacji według mocy predykcyjnej. Wyprowadza również nazwy funkcji i ich wyniki z wybranej metryki.

Co to jest wybór funkcji oparty na filtrze i dlaczego warto z niego korzystać?

Ten moduł wyboru funkcji jest nazywany "opartym na filtrach", ponieważ wybrana metryka umożliwia zidentyfikowanie nieistotnych atrybutów i odfiltrowanie nadmiarowych kolumn z modelu. Wybierasz pojedynczą miarę statystyczną, która odpowiada Twoim danych, a moduł oblicza wynik dla każdej kolumny funkcji. Kolumny są zwracane według wyników funkcji.

Wybierając odpowiednie funkcje, można potencjalnie zwiększyć dokładność i wydajność klasyfikacji.

Zazwyczaj do tworzenia modelu predykcyjnego są używane tylko kolumny z najlepszymi wynikami. Kolumny z słabymi wynikami wyboru funkcji można pozostawić w zestawie danych i zignorować podczas tworzenia modelu.

Jak wybrać metrykę wyboru funkcji

Wybór funkcji na podstawie filtru udostępnia różne metryki do oceny wartości informacji w każdej kolumnie. Ta sekcja zawiera ogólny opis każdej metryki i sposób jej stosowania. Dodatkowe wymagania dotyczące korzystania z poszczególnych metryk są określone w sekcji Uwagi techniczne i w instrukcjach dotyczących konfigurowania poszczególnych modułów.

  • Korelacja Pearsona

    Statystyka korelacji Pearsona, czyli współczynnik korelacji Pearsona, jest również znana w modelach statystycznych jako r wartość. Dla każdej z dwóch zmiennych zwraca wartość, która wskazuje siłę korelacji

    Współczynnik korelacji Pearsona jest obliczany przez obliczenie kowariancji dwóch zmiennych i podzielenie przez i takt ich odchyleń standardowych. Zmiany skali w tych dwóch zmiennych nie mają wpływu na współczynnik.

  • Informacje wzajemne

    Wynik wzajemnej informacji mierzy udział zmiennej w zmniejszaniu niepewność co do wartości innej zmiennej: etykiety. Opracowano wiele odmian oceny wzajemnej informacji, aby dopasować je do różnych rozkładów.

    Wynik wzajemnej informacji jest szczególnie przydatny podczas wyboru funkcji, ponieważ maksymalizuje wzajemne informacje między wspólnym rozkładem i zmiennymi docelowymi w zestawach danych o wielu wymiarach.

  • Korelacja Kendalla

    Korelacja rangi Kendalla jest jedną z kilku statystyk, które mierzą relację między klasyfikacjami różnych zmiennych porządkowych lub różnymi klasyfikacjami tej samej zmiennej. Innymi słowy, mierzy podobieństwo zamówień podczas klasyfikacji według ilości. Zarówno ten współczynnik, jak i współczynnik korelacji Spearmana są przeznaczone do użycia z danymi nieparametrycznymi i niesnormalnie rozproszonymi.

  • Korelacja Spearmana

    Współczynnik Spearmana jest nieparametryczną miarą zależności statystycznej między dwiema zmiennymi i jest czasami oznaczany przez grecki literę listu. Współczynnik Spearmana wyraża stopień, w jakim dwie zmienne są powiązane monotonicznie. Jest ona również nazywana korelacją rangi Spearmana, ponieważ może być używana ze zmiennymi porządkowymi.

  • Chi Squared

    Dwukierunkowy test chi kwadrat jest metodą statystyczną, która mierzy, jak blisko oczekiwanych wartości są rzeczywiste wyniki. Metoda zakłada, że zmienne są losowe i pobrane z odpowiedniej próbki zmiennych niezależnych. Wynikowa statystyka chi kwadrat wskazuje, jak daleko wyniki są od oczekiwanego (losowego) wyniku.

  • Score (Wynik dla połówek)

    Wynik z przechowania (nazywany również metodą Fishera, czyli połączony wynik prawdopodobieństwa) jest czasami nazywany wynikiem informacyjnym, ponieważ reprezentuje ilość informacji zapewnianych przez jedną zmienną na temat nieznanego parametru, od którego zależy.

    Wynik jest obliczany przez pomiar wariancji między oczekiwaną wartością informacji a obserwowaną wartością. Gdy wariancja jest zminimalizowana, informacje są zmaksymalizowane. Ponieważ oczekiwanie wyniku wynosi zero, informacje o programie Fisher są również wariancją oceny.

  • Liczba na podstawie

    Wybór funkcji opartych na liczbach to prosty, ale stosunkowo zaawansowany sposób znajdowania informacji o predyktorach. Podstawowa koncepcja cechowania na podstawie liczby jest prosta: obliczając liczbę poszczególnych wartości w kolumnie, można uzyskać pojęcie o rozmieszczeniu i wagach wartości, a na tej podstawie zrozumieć, które kolumny zawierają najważniejsze informacje.

    Wybór funkcji oparty na liczbach to nienadzorowana metoda wyboru funkcji, co oznacza, że kolumna etykiety nie jest potrzebna. Ta metoda zmniejsza również wymiarowość danych bez utraty informacji.

    Aby uzyskać więcej informacji na temat sposobu tworzenia funkcji opartych na liczbach i ich przydatności w uczeniu maszynowym, zobacz Edukacja z liczbami.

Porada

Jeśli potrzebujesz innej opcji dla niestandardowej metody wyboru funkcji, użyj modułu Execute R Script (Wykonywanie skryptu języka R ).

Jak skonfigurować wybór Filter-Based funkcji

Ten moduł udostępnia dwie metody określania wyników funkcji:

Generowanie wyników funkcji przy użyciu tradycyjnej metryki statystycznej

  1. Dodaj moduł Wybór cech oparty na filtrze do eksperymentu. Można go znaleźć w kategorii Wybór funkcji w programie Studio (wersja klasyczna).

  2. Połączenie wejściowy zestaw danych, który zawiera co najmniej dwie kolumny, które są potencjalnymi funkcjami.

    Aby upewnić się, że kolumna powinna zostać przeanalizowana i wygenerowany wynik funkcji, użyj modułu Edit Metadata (Edytowanie metadanych), aby ustawić atrybut IsFeature .

    Ważne

    Upewnij się, że kolumny, które są wprowadzane jako dane wejściowe, są potencjalnymi funkcjami. Na przykład kolumna zawierająca pojedynczą wartość nie ma wartości informacyjnej.

    Jeśli wiesz, że istnieją kolumny, które miałyby złe cechy, możesz usunąć je z zaznaczenia kolumny. Możesz również użyć modułu Edit Metadata (Edytowanie metadanych ), aby oflagować je jako podzielone na kategorii.

  3. W przypadku metody oceniania funkcji wybierz jedną z następujących ustanowionych metod statystycznych do użycia podczas obliczania wyników.

    Metoda Wymagania
    Korelacja Pearsona Etykieta może być tekstowa lub liczbowa. Funkcje muszą być numeryczne.
    Informacje wzajemne Etykiety i cechy mogą być tekstowe lub liczbowe. Ta metoda służy do obliczania ważności funkcji dla dwóch kolumn kategorii.
    Korelacja Kendalla Etykieta może być tekstowa lub liczbowa, ale cechy muszą być numeryczne.
    Korelacja Spearmana Etykieta może być tekstowa lub liczbowa, ale cechy muszą być numeryczne.
    Chi Squared Etykiety i cechy mogą być tekstowe lub liczbowe. Ta metoda służy do obliczania ważności funkcji dla dwóch kolumn kategorii.
    Score (Wynik dla połówek) Etykieta może być tekstowa lub liczbowa, ale cechy muszą być numeryczne.
    Licznik Zobacz: Aby użyć Count-Based funkcji

    Porada

    Jeśli zmienisz wybraną metrykę, wszystkie inne opcje zostaną zresetowane, dlatego należy najpierw ustawić tę opcję).

  4. Wybierz opcję Operuj tylko na kolumnach cech , aby wygenerować wynik tylko dla tych kolumn, które zostały wcześniej oznaczone jako funkcje.

    Jeśli ta opcja zostanie zaznaczona, moduł utworzy wynik dla dowolnej kolumny, która w przeciwnym razie spełnia kryteria, do liczby kolumn określonej w kolumnie Liczba żądanych funkcji.

  5. W przypadku kolumny Target kliknij pozycję Uruchom selektor kolumny, aby wybrać kolumnę etykiety według nazwy lub indeksu (indeksy są oparte na jednym).

    Kolumna etykiety jest wymagana dla wszystkich metod, które obejmują korelację statystyczną. Moduł zwraca błąd czasu projektowania, jeśli nie wybierzesz kolumny etykiety lub wielu kolumn etykiet.

  6. W przypadku opcji Liczba żądanych cech wpisz liczbę kolumn cech, które mają zostać zwrócone w wyniku.

    • Minimalna liczba funkcji, które można określić, to 1, ale zalecamy zwiększenie tej wartości.

    • Jeśli określona liczba żądanych funkcji jest większa niż liczba kolumn w zestawie danych, są zwracane wszystkie funkcje, nawet te, które mają wyniki zerowe.

    • W przypadku określenia mniejszej liczby kolumn wyników niż kolumn funkcji funkcje są poszepójne według wyniku malejąco i zwracane są tylko najważniejsze cechy.

  7. Uruchom eksperyment lub wybierz moduł Wybór funkcji oparty na filtrze , a następnie kliknij pozycję Uruchom wybraną.

Wyniki wyboru funkcji

Po zakończeniu przetwarzania:

  • Aby wyświetlić pełną listę kolumn funkcji, które zostały przeanalizowane, oraz ich wyniki, kliknij prawym przyciskiem myszy moduł, wybierz pozycję Funkcje, a następnie kliknij pozycję Wizualizacja.

  • Aby wyświetlić zestaw danych wygenerowany na podstawie kryteriów wyboru funkcji, kliknij prawym przyciskiem myszy moduł, wybierz pozycję Zestaw danych i kliknij polecenie Visualize (Wizualizacja).

Jeśli zestaw danych zawiera mniej kolumn niż oczekiwano, sprawdź ustawienia modułu i typy danych kolumn podanych jako dane wejściowe. Jeśli na przykład ustawisz pozycję Liczba żądanych cech na 1, wyjściowy zestaw danych będzie zawierał tylko dwie kolumny: kolumnę etykiety i kolumnę cech o najbardziej wysokiej klasyfikacji.

Korzystanie z wyboru funkcji na podstawie liczby

  1. Dodaj moduł Wybór cech oparty na filtrze do eksperymentu. Można go znaleźć na liście modułów w programie Studio (wersja klasyczna) w grupie Wybór funkcji.

  2. Połączenie wejściowy zestaw danych, który zawiera co najmniej dwie kolumny, które są możliwymi funkcjami.

  3. Wybierz pozycję Count Based ( Liczba na podstawie) z listy metod statystycznych na liście rozwijanej Feature scoring method (Metoda oceniania cech).

  4. W przypadku opcji Minimalna liczba elementów innych niż zero wskaż minimalną liczbę kolumn cech, które mają być dołączane do danych wyjściowych.

    Domyślnie moduł wyprowadza wszystkie kolumny, które spełniają wymagania. Moduł nie może wyprowadzać żadnej kolumny, która otrzymuje ocenę o wartości zero.

  5. Uruchom eksperyment lub wybierz tylko moduł, a następnie kliknij pozycję Uruchom wybrane.

Wyniki wyboru funkcji na podstawie liczby

  • Aby wyświetlić listę kolumn funkcji z wynikami, kliknij prawym przyciskiem myszy moduł, wybierz pozycję Funkcje i kliknij polecenie Visualize (Wizualizacja ).
  • Aby wyświetlić zestaw danych zawierający analizowane kolumny, kliknij prawym przyciskiem myszy moduł, wybierz pozycję Zestaw danych, a następnie kliknij pozycję Visualize (Wizualizacja).

W przeciwieństwie do innych metod, metoda wyboru funkcji Na podstawie liczby nie klasyfikacji zmiennych według najwyższych wyników, ale zwraca wszystkie zmienne z oceną inną niż zerowa w ich oryginalnej kolejności.

Funkcje ciągów zawsze mają wynik zero (0) i dlatego nie są wynikiem.

Przykłady

Możesz zobaczyć przykłady sposobu wyboru funkcji w Azure AI Gallery:

  • Klasyfikacja tekstu; W trzecim kroku tego przykładu wybór funkcji oparty na filtrze jest używany do identyfikowania 15 najlepszych funkcji. Funkcja wyznaczania wartości skrótu służy do konwertowania dokumentów tekstowych na wektory numeryczne. Korelacja Pearsona jest następnie używana na cechach wektorowych.

  • Wybór funkcji uczenia maszynowego i inżynieria cech: ten artykuł zawiera wprowadzenie do wyboru funkcji i inżynierii cech w uczeniu maszynowym.

Aby zobaczyć przykłady wyników funkcji, zobacz Tabela wyników w porównaniu.

Uwagi techniczne

Ten moduł można znaleźć w obszarze Przekształcanie danych w kategorii Filtry.

Szczegóły implementacji

Jeśli używasz korelacji Pearsona, Kendalla korelacji lub korelacji Spearmana na cechach liczbowych i etykietach kategorii, wynik funkcji jest obliczany w następujący sposób:

  1. Dla każdego poziomu w kolumnie kategorii oblicz warunkową średnią kolumny liczbowej.

  2. Skoreluj kolumnę oznacza warunkowego z kolumną liczbową.

Wymagania

  • Nie można wygenerować oceny wyboru funkcji dla żadnej kolumny, która jest wyznaczona jako etykieta lub jako kolumna oceny.

  • Jeśli spróbujemy użyć metody oceniania z kolumną typu danych, który nie jest obsługiwany przez metodę , moduł zwniesie błąd lub do kolumny zostanie przypisany wynik zerowy.

  • Jeśli kolumna zawiera wartości logiczne (true/false), są one przetwarzane jako Prawda = 1, a Fałsz = 0.

  • Kolumna nie może być funkcją, jeśli została wyznaczona jako etykieta lub wynik.

Jak są obsługiwane brakujące wartości

  • Nie można określić jako kolumny docelowej (etykiety) żadnej kolumny, która ma wszystkie brakujące wartości.

  • Jeśli kolumna zawiera brakujące wartości, są one ignorowane podczas obliczania wyniku dla kolumny.

  • Jeśli kolumna wyznaczona jako kolumna funkcji zawiera wszystkie brakujące wartości, jest przypisywana ocena zerowa.

Tabela wyników w porównaniu

Aby przedstawić porównanie wyników w przypadku korzystania z różnych metryk, w poniższej tabeli przedstawiono niektóre wyniki wyboru funkcji z wielu funkcji w zestawie danych cen samochodów, biorąc pod uwagę zmienną zależną highway-mpg.

Kolumna funkcji Wynik Pearsona Wynik zliczania Kendall score (Wynik Kendalla) Informacje wzajemne
highway-mpg 1 205 1 1
city-mpg 0.971337 205 0.892472 0.640386
curb-weight 0.797465 171 0.673447 0.326247
horsepower 0.770908 203 0.728289 0.448222
price 0.704692 201 0.651805 0.321788
length 0.704662205 205 0.53193 0.281317
engine-size 0.67747 205 0.581816 0.342399
szerokość 0.677218 205 0.525585 0.285006
bore 0.594572 201 0.467345 0.263846
wheel-base 0.544082 205 0.407696 0.250641
compression-ratio 0.265201 205 0.337031 0.288459
system paliwowy nie dotyczy nie dotyczy nie dotyczy 0.308135
make nie dotyczy nie dotyczy nie dotyczy 0.213872
drive-wheels nie dotyczy nie dotyczy nie dotyczy 0.213171
wysokość nie dotyczy nie dotyczy nie dotyczy 0.1924
normalized-losses nie dotyczy nie dotyczy nie dotyczy 0.181734
symboling nie dotyczy nie dotyczy nie dotyczy 0.159521
liczba cylindrów nie dotyczy nie dotyczy nie dotyczy 0.154731
engine-type nie dotyczy nie dotyczy nie dotyczy 0.135641
Aspiracji nie dotyczy nie dotyczy nie dotyczy 0.068217
body-style nie dotyczy nie dotyczy nie dotyczy 0.06369
typ paliwa nie dotyczy nie dotyczy nie dotyczy 0.049971
liczba bram nie dotyczy nie dotyczy nie dotyczy 0.017459
lokalizacja aparatu nie dotyczy nie dotyczy nie dotyczy 0.010166
  • Wzajemne oceny informacji można tworzyć dla wszystkich typów kolumn, w tym ciągów.

  • Inne wyniki zawarte w tej tabeli, takie jak korelacja Pearsona lub wybór cech opartych na liczbach, wymagają wartości liczbowych. Funkcje ciągów mają wynik 0, dlatego nie są uwzględniane w danych wyjściowych. Aby uzyskać informacje o wyjątkach, zobacz sekcję Uwagi techniczne.

  • Metoda oparta na liczbach nie traktuje kolumny etykiety inaczej niż kolumny cech.

Oczekiwane dane wejściowe

Nazwa Typ Opis
Zestaw danych Tabela danych Wejściowy zestaw danych

Parametry modułu

Nazwa Zakres Typ Domyślny Opis
Metoda oceniania funkcji Lista Metoda oceniania Wybierz metodę, która ma być stosowana do oceniania
Obsługa tylko kolumn cech Dowolne Wartość logiczna true Wskazanie, czy w procesie oceniania mają być wykorzystywane tylko kolumny cech
Kolumna docelowa Dowolne ColumnSelection Brak Określanie kolumny docelowej
Liczba żądanych funkcji >= 1 Liczba całkowita 1 Określanie liczby cech, które mają być wyprowadzane w wynikach
Minimalna liczba elementów innych niż zero >= 1 Liczba całkowita 1 Określ liczbę cech do wyprowadzania (dla metody CountBased)

Dane wyjściowe

Nazwa Typ Opis
Przefiltrowany zestaw danych Tabela danych Przefiltrowany zestaw danych
Funkcje Tabela danych Nazwy kolumn wyjściowych i wyniki wyboru funkcji

Wyjątki

Wyjątek Opis
Błąd 0001 Wyjątek występuje, jeśli nie można odnaleźć co najmniej jednej określonej kolumny zestawu danych.
Błąd 0003 Wyjątek występuje, jeśli co najmniej jeden z wejść ma wartość null lub jest pusty.
Błąd 0004 Wyjątek występuje, jeśli parametr jest mniejszy lub równy określonej wartości.
Błąd 0017 Wyjątek występuje, jeśli co najmniej jedna określona kolumna ma typ nieobsługiwany przez bieżący moduł.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kodów błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Wybór funkcji
Linear Linear Discriminant Analysis (Analiza liniowa, która jest dyskryminowa)
Lista modułów A–Z