Referenční řešení pro aplikace obrázků
Naučte se provádět odvozování modelů distribuovaných imagí z referenčních poznámkových bloků řešení s využitím funkcí pandas UDF, PyTorch a TensorFlow v společné konfiguraci sdílené mnoha aplikacemi pro obrázky z reálného světa. Tato konfigurace předpokládá, že ukládáte mnoho imagí do úložiště objektů a volitelně máte nepřetržitě přicházející nové image.
Pracovní postup pro odvozování modelu obrázků
Předpokládejme, že máte několik vytrénovaných modelů hlubokého učení (DL) pro klasifikaci obrázků a detekci objektů , například MobileNetV2 pro detekci lidských objektů na fotkách nahraných uživatelem, které pomáhají chránit soukromí– a chcete tyto modely DL použít na uložené obrázky.
Modely můžete přetrénovat a aktualizovat dříve vypočítané předpovědi. Pro načtení mnoha imagí a použití modelů DL je však náročné na vstupně-výstupní operace i výpočetní výkon. Naštěstí je úloha odvozování trapná paralelně paralelní a teoreticky je možné snadno distribuovat. Tato příručka vás provede praktickým řešením, které obsahuje dvě hlavní fáze:
- ETL zpracování obrázků do tabulky Delta pomocí nástroje Auto Loader
- Provádění distribuovaného odvozování pomocí UDF knihovny pandas
ETL zpracování obrázků do tabulky Delta pomocí nástroje Auto Loader
Pro aplikace obrázků, včetně úloh trénování a odvozování, Databricks doporučuje, abyste obrázky zpracovali pomocí ETL do tabulky Delta s automatickým zavaděčem. Auto Loader pomáhá správě dat a automaticky zpracovává nepřetržitě přicházející nové image.
Datová sada obrázků ETL do poznámkového bloku tabulky Delta
Získejte poznámkový blok
Provádění distribuovaného odvozování pomocí UDF knihovny pandas
Následující poznámkové bloky používají PyTorch a TensorFlow tf. Keras k předvedení referenčního řešení
Distribuované odvození prostřednictvím poznámkového bloku Pytorch a pandas UDF
Získejte poznámkový blok
Distribuované odvození prostřednictvím poznámkového bloku Keras a pandas UDF
Získejte poznámkový blok
Omezení: Velikosti souborů obrázků
U velkých souborů obrázků (průměrná velikost obrázku větší než 100 MB) doporučuje Databricks používat tabulku Delta pouze ke správě metadat (seznamu názvů souborů) a načítání obrázků z úložiště objektů pomocí jejich cest v případě potřeby.