Nuance testovacích sad

Dokončeno

Testovací sady jsou považovány za osvědčený postup pro většinu aspektů strojového učení, i když je tato oblast stále relativně mladá, a proto se často diskutuje o tom, jak a kdy přesně. Pojďme si projít několik věcí, které je potřeba zvážit.

Testovací sady můžou být zavádějící.

I když jsou testovací sady užitečné při identifikaci přetrénování, můžou nám poskytnout falešnou jistotu. Konkrétně jsou testovací sady užitečné jenom v případě, že odrážejí data, která očekáváme v reálném světě. Naše testovací sada je například velmi malá, takže nebude reprezentovat rozmanitost dat, která pravděpodobně uvidíme v reálném světě. Testovací datové sady jsou také jen tak dobré jako jejich zdroj. Pokud testovací datová sada pochází z zkresleného zdroje, naše metriky nebudou odrážet chování v reálném světě.

Řekněme například, že se snažíme zjistit vztah mezi počtem záchranářů a věkem, který pes začal trénovat. Pokud by naše testovací sada byla pouze tři psi, je možné, že tito psi nejsou dobrou reprezentací široké škály pracovních psů v reálném světě. Také si představte, že jsme získali naši testovací sadu od jednoho chovatele, který neví, jak pracovat se štěňátky. Náš model může předpovědět, že je nejlepší trénovat starší psy, a naše testovací datová sada to potvrdí, i když ve skutečnosti mohou mít jiní školitelé obrovský úspěch s mladšími zvířaty.

Testovací sady nejsou bezplatné

Už jsme viděli, že čím více trénovacích dat máme, tím menší je pravděpodobnost, že se náš model přeučí. Podobně platí, že čím větší jsou testovací sady, tím více cítíme, že můžeme výsledkům testů důvěřovat. Obvykle ale pracujeme s konečnými objemy dat a datový bod nemůže být v trénovací i testovací sadě. To znamená, že když získáme větší testovací sady, získáme menší trénovací datové sady a naopak. To, kolik dat by se mělo obětovat, aby se zobrazilo v testovací datové sadě, závisí na individuálních okolnostech, přičemž v závislosti na objemu dostupných dat je to mezi 10 až 50 % relativně běžné.

Trénovat a testovat není jediný přístup

Je vhodné mít na paměti, že trénování a testování je běžný, ale není to jediný široce používaný přístup. Dvě z nejběžnějších alternativ jsou metody hold-out a metody statistického přístupu .

Přístup hold-out

Přístup hold-out se podobá trénování a testování, ale místo rozdělení datové sady na dvě se rozdělí na tři: trénování, testování (označované také jako ověřování) a blokování. Trénovací a testovací datové sady jsou tak, jak jsme popsali dříve. Oddržovací datová sada je druh testovací sady, která se používá jenom jednou, když jsme připraveni nasadit náš model pro použití v reálném světě. Jinými slovy, nepoužívá se, dokud nedokončíme experimentování s různými druhy tréninkových režimů, různými typy modelů atd.

Tento přístup řeší skutečnost, že obvykle experimentujeme s různými modely a tréninkovými režimy. Například přizpůsobíme model, zjistíme, že nefunguje dobře s testovací datovou sadou, změníme některé aspekty trénovaného modelu a zkusíme to znovu, dokud se nedostaneme k dobrému výsledku. To znamená, že model cíleně měníme tak, aby fungoval pro konkrétní sadu dat, stejně jako to dělá normální trénování s trénovací datovou sadou. Tím můžeme skončit s modelem, který je v podstatě příliš přetrénovaný na to, abychom mohli pracovat s naší testovací datovou sadou.

Myšlenka třetí datové sady spočívá v tom, že ji můžeme také otestovat. Tento přístup znamená rozdělit data třemi způsoby, což znamená, že začneme s ještě méně trénovacími daty. Pokud nemáme velké množství dat, se kterými bychom mohli pracovat, může tento přístup snížit naši schopnost získat dobrý model.

Statistické přístupy

Jednodušší modely, které mají původ ve statistikách, často testovací datové sady nepotřebují. Místo toho můžeme vypočítat míru přizpůsobení modelu přímo jako statistickou významnost: p-hodnota.

Tyto statistické metody jsou výkonné, dobře zavedené a tvoří základ moderní vědy. Výhodou je, že trénovací sada nemusí být nikdy rozdělená a my lépe pochopíme, jak si můžeme být modelem jistí. Například p-hodnota 0,01 znamená velmi malou pravděpodobnost, že náš model našel relaci, která ve skutečnosti neexistuje. Naproti tomu p-hodnota 0,5 znamená, že i když náš model může vypadat dobře s trénovacími daty, nebude to lepší než převrácení mincí v reálném světě.

Nevýhodou těchto přístupů je, že se snadno používají pouze u určitých typů modelů, jako jsou například modely lineární regrese, se kterými jsme se cvičili. U všech modelů kromě nejjednodušších mohou být tyto výpočty velmi složité, aby správně fungovaly, a proto jsou mimo rozsah aktuálního kurzu. Mají také stejné omezení týkající se výběru dat; Pokud jsou naše trénovací data zkreslená, budou p-hodnoty zavádějící.