Přenos učení
V životě je často jednodušší se naučit novou dovednost, pokud už máte zkušenosti s podobnými přenositelnými dovednostmi. Například je pravděpodobně jednodušší naučit někoho, jak řídit autobus, pokud už se naučili řídit auto. Řidič může stavět na dovednostech řízení, které už se naučili v autě, a aplikovat je na řízení autobusu.
Stejný princip lze použít pro trénování modelů hlubokého učení prostřednictvím techniky označované jako transferové učení.
Jak funguje transferové učení
Konvoluční neurální síť (CNN) pro klasifikaci obrázků se obvykle skládá z několika vrstev, které extrahují funkce, a pak k klasifikaci obrázků na základě těchto funkcí používají konečnou plně propojenou vrstvu.
Koncepčně se tato neurální síť skládá ze dvou různých sad vrstev:
- Sada vrstev ze základního modelu, který provádí extrakci funkcí.
- Plně propojená vrstva, která přebírá extrahované funkce a používá je k predikci třídy.
Vrstvy extrakce funkcí používají konvoluční filtry a sdružování ke zvýraznění hran, rohů a dalších vzorů na obrázcích, které je možné použít k jejich rozlišení, a teoreticky by měly fungovat pro libovolnou sadu obrázků se stejnými rozměry jako vstupní vrstva sítě. Vrstva předpovědi mapuje funkce na sadu výstupů, které představují pravděpodobnosti pro každý popisek třídy, který chcete použít ke klasifikaci obrázků.
Oddělením sítě do těchto typů vrstev můžeme vzít vrstvy extrakce funkcí z modelu, který už byl natrénován, a připojit jednu nebo více vrstev k použití extrahovaných funkcí pro predikci odpovídajících popisků tříd pro vaše obrázky. Tento přístup umožňuje zachovat předem natrénované váhy pro vrstvy extrakce funkcí, což znamená, že potřebujete vytrénovat jenom vrstvy předpovědi, které jste přidali.
Existuje mnoho zavedených konvolučních architektur neurální sítě pro klasifikaci obrázků, které můžete použít jako základní model pro transferové učení, takže můžete stavět na práci, kterou už udělal někdo jiný, aby snadno vytvořil efektivní model klasifikace obrázků.