Klasyfikacja binarna
Klasyfikacja, taka jak regresja, jest nadzorowaną techniką uczenia maszynowego, a zatem jest zgodna z tym samym iteracyjnym procesem trenowania, walidacji i oceniania modeli. Zamiast obliczać wartości liczbowe, takie jak model regresji, algorytmy używane do trenowania modeli klasyfikacji obliczają wartości prawdopodobieństwa przypisania klasy oraz metryki oceny używane do oceny wydajności modelu porównują przewidywane klasy z rzeczywistymi klasami.
Algorytmy klasyfikacji binarnej służą do trenowania modelu, który przewiduje jedną z dwóch możliwych etykiet dla jednej klasy. Zasadniczo przewidywanie wartości true lub false. W większości rzeczywistych scenariuszy obserwacje danych używane do trenowania i weryfikowania modelu składają się z wielu wartości funkcji (x) i wartości y, która jest 1 lub 0.
Przykład — klasyfikacja binarna
Aby zrozumieć, jak działa klasyfikacja binarna, przyjrzyjmy się uproszczonemu przykładowi, który używa jednej funkcji (x) do przewidywania, czy etykieta y ma wartość 1, czy 0. W tym przykładzie użyjemy poziomu glukozy we krwi pacjenta, aby przewidzieć, czy pacjent ma cukrzycę. Oto dane, za pomocą których wytrenujemy model:
Glukozy we krwi (x) | Cukrzycowej? (y) |
67 | 0 |
103 | 1 |
114 | 1 |
72 | 0 |
116 | 1 |
65 | 0 |
Trenowanie modelu klasyfikacji binarnej
Aby wytrenować model, użyjemy algorytmu, aby dopasować dane treningowe do funkcji, która oblicza prawdopodobieństwo , że etykieta klasy jest prawdziwa (innymi słowy, że pacjent ma cukrzycę). Prawdopodobieństwo jest mierzone jako wartość z zakresu od 0,0 do 1,0, tak aby całkowite prawdopodobieństwo dla wszystkich możliwych klas wynosiło 1,0. Na przykład, jeśli prawdopodobieństwo pacjenta z cukrzycą wynosi 0,7, wówczas istnieje odpowiednie prawdopodobieństwo 0,3, że pacjent nie ma cukrzycy.
Istnieje wiele algorytmów, których można użyć do klasyfikacji binarnej, takich jak regresja logistyczna, która pochodzi z funkcji sigmoid (w kształcie litery S) z wartościami z zakresu od 0,0 do 1,0, w następujący sposób:
Uwaga
Pomimo nazwy regresja logistyczna uczenia maszynowego jest używana do klasyfikacji, a nie regresji. Ważnym punktem jest charakter logistycznie generowanych funkcji, która opisuje krzywą w kształcie S między dolną i górną wartością (0,0 i 1,0, gdy jest używana do klasyfikacji binarnej).
Funkcja utworzona przez algorytm opisuje prawdopodobieństwo, że wartość y jest prawdziwa (y=1) dla danej wartości x. Matematycznie możesz wyrazić tę funkcję w następujący sposób:
f(x) = P(y=1 | x)
W przypadku trzech z sześciu obserwacji w danych treningowych wiemy, że y jest zdecydowanie prawdziwe, więc prawdopodobieństwo dla tych obserwacji, że y=1 wynosi 1,0 i dla pozostałych trzech, wiemy, że y jest zdecydowanie fałszywe, więc prawdopodobieństwo, że y=1 wynosi 0,0. Krzywa W kształcie litery S opisuje rozkład prawdopodobieństwa, tak aby wykreślić wartość x w wierszu identyfikuje odpowiadające prawdopodobieństwo, że y wynosi 1.
Diagram zawiera również linię poziomą wskazującą próg , przy którym model oparty na tej funkcji będzie przewidywać wartość true (1) lub false (0). Próg znajduje się w połowie punktu dla y (P(y) = 0,5). W przypadku wszystkich wartości w tym momencie lub powyżej model będzie przewidywać wartość true (1), podczas gdy dla wszystkich wartości poniżej tego punktu będzie przewidywać wartość false (0). Na przykład dla pacjenta z poziomem glukozy we krwi 90 funkcja spowoduje, że wartość prawdopodobieństwa wynosi 0,9. Ponieważ wartość 0,9 jest wyższa niż próg 0,5, model przewiduje wartość true (1) - innymi słowy, pacjent przewiduje cukrzycę.
Ocenianie modelu klasyfikacji binarnej
Podobnie jak w przypadku regresji, podczas trenowania binarnego modelu klasyfikacji należy wstrzymać losowy podzestaw danych, za pomocą którego należy zweryfikować wytrenowany model. Załóżmy, że wstrzymaliśmy następujące dane w celu zweryfikowania klasyfikatora cukrzycy:
Glukozy we krwi (x) | Cukrzycowej? (y) |
---|---|
66 | 0 |
107 | 1 |
112 | 1 |
71 | 0 |
87 | 1 |
89 | 1 |
Zastosowanie funkcji logistycznej uzyskanej wcześniej do wartości x powoduje wykonanie następującego wykresu.
Na podstawie tego, czy prawdopodobieństwo obliczone przez funkcję jest powyżej lub poniżej progu, model generuje przewidywaną etykietę 1 lub 0 dla każdej obserwacji. Następnie możemy porównać przewidywane etykiety klas (ŷ) z rzeczywistymi etykietami klas (y), jak pokazano poniżej:
Glukozy we krwi (x) | Rzeczywista diagnostyka cukrzycy (y) | Przewidywana diagnoza cukrzycy (ŷ) |
---|---|---|
66 | 0 | 0 |
107 | 1 | 1 |
112 | 1 | 1 |
71 | 0 | 0 |
87 | 1 | 0 |
89 | 1 | 1 |
Metryki oceny klasyfikacji binarnej
Pierwszym krokiem obliczania metryk oceny dla modelu klasyfikacji binarnej jest zwykle utworzenie macierzy liczby poprawnych i nieprawidłowych przewidywań dla każdej możliwej etykiety klasy:
Ta wizualizacja jest nazywana macierzą pomyłek i pokazuje sumy przewidywania, w których:
- ŷ=0 i y=0: prawdziwie ujemne (TN)
- ŷ=1 i y=0: Wyniki fałszywie dodatnie (FP)
- ŷ=0 i y=1: fałszywie ujemne (FN)
- ŷ=1 i y=1: prawdziwie dodatnie (TP)
Układ macierzy pomyłek jest taki, że poprawne (prawda) przewidywania są wyświetlane w linii ukośnej od lewej górnej do prawej do dołu. Często intensywność kolorów służy do wskazywania liczby przewidywań w każdej komórce, więc szybki rzut oka na model, który dobrze przewiduje, powinien ujawnić głęboko zacieniony trend ukośny.
Dokładność
Najprostsza metryka, którą można obliczyć z macierzy pomyłek, to dokładność — odsetek przewidywań, które model uzyskał prawidłowo. Dokładność jest obliczana jako:
(TN+TP) ÷ (TN+FN+FP+TP)
W przypadku naszego przykładu cukrzycy obliczenie to:
(2+3) ÷ (2+1+0+3)
= 5 ÷ 6
= 0.83
Dlatego w przypadku naszych danych walidacji model klasyfikacji cukrzycy wygenerował poprawne przewidywania 83% czasu.
Dokładność może początkowo wydawać się dobrą metryką do oceny modelu, ale należy to wziąć pod uwagę. Załóżmy, że 11% populacji ma cukrzycę. Można utworzyć model, który zawsze przewiduje wartość 0 i osiągnie dokładność 89%, mimo że nie podejmuje rzeczywistej próby rozróżnienia między pacjentami, oceniając ich cechy. To, czego naprawdę potrzebujemy, to głębsze zrozumienie, jak model działa w przewidywaniu 1 dla pozytywnych przypadków i 0 w przypadku negatywnych przypadków.
Odwołaj
Kompletność to metryka, która mierzy odsetek przypadków dodatnich, które model zidentyfikował poprawnie. Innymi słowy, w porównaniu z liczbą pacjentów z cukrzycą, ile model przewidział cukrzycy?
Formuła kompletności to:
TP ÷ (TP+FN)
W naszym przykładzie cukrzycy:
3 ÷ (3+1)
= 3 ÷ 4
= 0.75
Dlatego nasz model prawidłowo zidentyfikował 75% pacjentów, którzy mają cukrzycę jako cukrzycę.
Dokładność
Precyzja jest podobną metryką do przypomnienia, ale mierzy proporcję przewidywanych dodatnich przypadków, w których prawdziwa etykieta jest rzeczywiście dodatnia. Innymi słowy, jaki odsetek pacjentów przewidywanych przez model ma cukrzycę?
Formuła precyzji to:
TP ÷ (TP+FP)
W naszym przykładzie cukrzycy:
3 ÷ (3+0)
= 3 ÷ 3
= 1.0
Więc 100% pacjentów przewidywanych przez nasz model, aby cukrzyca rzeczywiście miała cukrzycę.
Wynik F1
Wynik F1 to ogólna metryka, która łączy kompletność i precyzję. Formuła dla wyniku F1 to:
(2 x precyzja x kompletność) ÷ (precyzja i kompletność)
W naszym przykładzie cukrzycy:
(2 x 1,0 x 0,75) ÷ (1,0 + 0,75)
= 1,5 ÷ 1,75
= 0,86
Obszar pod krzywą (AUC)
Inną nazwą przypomnienia jest współczynnik prawdziwie dodatni (TPR) i istnieje równoważna metryka nazywana współczynnikiem fałszywie dodatnim (FPR), która jest obliczana jako FP÷(FP+TN). Wiemy już, że TPR dla naszego modelu w przypadku użycia progu 0,5 wynosi 0,75 i możemy użyć formuły dla FPR, aby obliczyć wartość 0÷2 = 0.
Oczywiście, jeśli mieliśmy zmienić próg powyżej którego model przewiduje wartość true (1), będzie to miało wpływ na liczbę dodatnich i ujemnych przewidywań, a zatem zmianę metryk TPR i FPR. Te metryki są często używane do oceny modelu przez wykreślenie krzywej charakterystycznej roc (ROC) odebranej charakterystyki operatora, która porównuje przepływ odzyskiwania hasła i FPR dla każdej możliwej wartości progowej z zakresu od 0,0 do 1,0:
Krzywa ROC dla idealnego modelu pójdzie prosto w górę osi TPR po lewej stronie, a następnie przez oś FPR u góry. Ponieważ obszar wykresu krzywej mierzy 1x1, obszar pod tą idealną krzywą wynosi 1,0 (co oznacza, że model jest poprawny w 100% czasu). Natomiast linia ukośna od lewej do dołu do prawej górnej strony reprezentuje wyniki, które zostaną osiągnięte przez losowe odgadnięcie etykiety binarnej; tworząc obszar pod krzywą 0,5. Innymi słowy, biorąc pod uwagę dwie możliwe etykiety klas, można rozsądnie oczekiwać poprawnego odgadnięcia 50% czasu.
W przypadku naszego modelu cukrzycy krzywa powyżej jest wytwarzana, a obszar pod krzywą (AUC) wynosi 0,875. Ponieważ AUC jest wyższa niż 0,5, możemy stwierdzić, że model działa lepiej w przewidywaniu, czy pacjent ma cukrzycę niż losowe zgadywanie.