Extrakce příznaků pro transferové učení
Tento článek obsahuje příklad featurizace pro přenos učení pomocí funkce definované uživatelem pandas.
Featurizace pro přenos učení v modelech DL
Azure Databricks podporuje extrakci příznaků s využitím modelů hlubokého učení. Předem natrénované modely hlubokého učení se dají použít k výpočetním funkcím pro použití v jiných podřízených modelech. Azure Databricks podporuje extrakci příznaků ve velkém měřítku a distribuci výpočtů napříč clusterem. Featurizaci můžete provádět pomocí knihoven hlubokého učení, které jsou součástí modulu Databricks Runtime ML, včetně TensorFlow a PyTorch.
Azure Databricks podporuje také transferové učení, což je technika úzce související s extrakci příznaků. Transferové učení umožňuje opakovaně využívat znalosti z jedné problémové oblasti v souvisejících oblastech. Samotná extrakce příznaků je jednoduchá a výkonná metoda pro transferové učení: výpočet funkcí s využitím předem natrénovaného modelu hlubokého učení přenáší znalosti o dobrých funkcích z původní oblasti.
Postup výpočetních funkcí pro transferové učení
Tento článek ukazuje, jak výpočetní funkce pro přenos učení pomocí předem natrénovaného modelu TensorFlow pomocí následujícího pracovního postupu:
- Začněte s předem natrénovaným modelem hloubkového učení, v tomto případě model klasifikace obrázků z
tensorflow.keras.applications
. - Zkrátte poslední vrstvy modelu. Upravený model vytváří tensor funkcí jako výstup, nikoli predikci.
- Použijte tento model na novou datovou sadu obrázků z jiné problémové domény a výpočetní funkce pro obrázky.
- Pomocí těchto funkcí můžete vytrénovat nový model. Následující poznámkový blok tento poslední krok vynechá. Příklady trénování jednoduchého modelu, jako je logistická regrese, najdete v tématu Trénování modelů AI a ML.
Příklad: Použití funkcí UDF knihovny pandas pro funkciaturizace
Následující poznámkový blok používá funkce definované uživatelem pandas k provedení kroku featurizace. UDF pandas a jejich novější variantní skalární iterator pandas UDF nabízejí flexibilní rozhraní API, podporují jakoukoli knihovnu hlubokého učení a poskytují vysoký výkon.