Niuanse zestawów testów
Zestawy testowe są uważane za najlepsze rozwiązanie dla większości aspektów uczenia maszynowego, choć pole jest nadal stosunkowo młode i tak dokładnie, jak i kiedy jest często przedmiotem dyskusji. Przejdźmy przez kilka kwestii, które należy wziąć pod uwagę.
Zestawy testów mogą być mylące
Zestawy testów są przydatne do identyfikowania nadmiernego wytrenowania, ale mogą zapewnić nam fałszywe zaufanie. W szczególności zestawy testów są przydatne tylko wtedy, gdy odzwierciedlają dane, które spodziewamy się zobaczyć w świecie rzeczywistym. Na przykład nasz zestaw testowy jest bardzo mały, więc nie będzie reprezentatywny dla różnych danych, które prawdopodobnie zobaczymy w świecie rzeczywistym. Testowe zestawy danych są również tak dobre, jak ich źródło. Jeśli nasz testowy zestaw danych pochodzi z stronniczego źródła, nasze metryki nie będą odzwierciedlać, jak będą zachowywać się elementy w świecie rzeczywistym.
Załóżmy na przykład, że staramy się znaleźć relację między liczbą ratownictwa a wiekiem, w których pies zaczął trenować. Jeśli nasz zestaw testowy był tylko trzema psami, możliwe, że te psy nie są dobrą reprezentacją szerokiej gamy psów pracujących w świecie rzeczywistym. Załóżmy również, że uzyskaliśmy nasz zestaw testowy od jednego hodowcy, który nie wie, jak pracować ze szczeniętami. Nasz model może przewidzieć, że starsze psy najlepiej trenować, a nasz zestaw danych testowych potwierdzi to, gdy w rzeczywistości inni trenerzy mogą mieć ogromny sukces z młodszymi zwierzętami.
Zestawy testów nie są bezpłatne
Widzieliśmy już, że tym więcej danych treningowych mamy, tym mniej prawdopodobne, że nasz model będzie nadmiernie dopasowany. Podobnie, tym większe zestawy testów, tym bardziej czujemy, że możemy zaufać naszym wynikom testu. Jednak zwykle pracujemy z skończonymi ilościami danych, a punkt danych nie może znajdować się zarówno w zestawie treningowym, jak i testowym. Oznacza to, że w miarę uzyskiwania większych zestawów testowych uzyskujemy mniejsze zestawy danych szkoleniowych i odwrotnie. Dokładnie to, ile danych należy poświęcić na pojawienie się w zestawie danych testowych, zależy od indywidualnych okoliczności, a wszystko z zakresu od 10 do 50% jest stosunkowo powszechne, w zależności od ilości dostępnych danych.
Trenowanie i testowanie nie jest jedynym podejściem
Warto pamiętać, że trenowanie i testowanie jest powszechne, ale nie jedyne powszechnie stosowane podejście. Dwie z bardziej typowych alternatyw to metoda podejścia hold-out i metody podejścia statystycznego .
Podejście hold-out
Podejście hold-out jest podobne do trenowania i testowania, ale zamiast dzielenia zestawu danych na dwa, jest podzielone na trzy: trenowanie, testowanie (nazywane również walidacją) i wstrzymanie. Zestawy danych trenowania i testowania są tak, jak opisano wcześniej. Zestaw danych hold-out jest rodzajem zestawu testowego, który jest używany tylko raz, gdy jesteśmy gotowi do wdrożenia naszego modelu do użytku w świecie rzeczywistym. Innymi słowy, nie jest używany, dopóki nie skończyliśmy eksperymentować z różnymi rodzajami schematów treningowych, różnych rodzajów modeli itd.
Takie podejście zajmuje się faktem, że zwykle eksperymentujemy z różnymi modelami i schematami treningowymi. Na przykład pasujemy do modelu, znajdź, że nie działa dobrze z zestawem danych testowych, zmień niektóre aspekty trenowanego modelu i spróbuj ponownie, dopóki nie uzyskamy dobrego wyniku. Oznacza to, że celowo zmieniamy nasz model tak, aby działał dla określonego zestawu danych, podobnie jak w przypadku zwykłego trenowania z zestawem danych szkoleniowych. Dzięki temu możemy uzyskać model, który jest zasadniczo zbyt nadmiernie wytrenowany, aby pracować nad naszym testowym zestawem danych.
Pomysł trzeciego zestawu danych polega również na tym, że możemy to przetestować. Takie podejście oznacza podzielenie danych na trzy sposoby, co oznacza, że zaczynamy od jeszcze mniej danych treningowych. Jeśli nie mamy dużo danych do pracy, takie podejście może zmniejszyć naszą zdolność do uzyskania dobrego modelu.
Podejścia statystyczne
Prostsze modele pochodzące ze statystyk często nie wymagają testowych zestawów danych. Zamiast tego możemy obliczyć stopień, w jakim model jest nadmierny, bezpośrednio jako istotność statystyczną: wartość p.
Te metody statystyczne są potężne, dobrze ustalone i stanowią podstawę współczesnej nauki. Zaletą jest to, że zestaw treningowy nigdy nie musi być podzielony i uzyskujemy znacznie dokładniejsze zrozumienie tego, jak pewni możemy być o modelu. Na przykład wartość p 0,01 oznacza, że istnieje bardzo mała szansa, że nasz model znalazł relację, która w rzeczywistości nie istnieje w świecie rzeczywistym. Natomiast wartość p 0,5 oznacza, że chociaż nasz model może wyglądać dobrze z naszymi danymi treningowymi, nie będzie lepiej niż przerzucanie monety w świecie rzeczywistym.
Wadą tych podejść jest to, że są one łatwo stosowane tylko do niektórych typów modeli, takich jak modele regresji liniowej, z którymi ćwiczyliśmy. Dla wszystkich, ale najprostszych modeli, te obliczenia mogą być niezwykle złożone do prawidłowego wykonania, a więc są poza zakresem bieżącego kursu. Mają one również takie same ograniczenia dotyczące wyboru danych; jeśli nasze dane szkoleniowe są stronnicze, nasze wartości p będą mylące.