Sdílet prostřednictvím


Referenční řešení pro aplikace obrázků

Naučte se provádět odvozování modelů distribuovaných imagí z referenčních poznámkových bloků řešení s využitím funkcí pandas UDF, PyTorch a TensorFlow v společné konfiguraci sdílené mnoha aplikacemi pro obrázky z reálného světa. Tato konfigurace předpokládá, že ukládáte mnoho imagí do úložiště objektů a volitelně máte nepřetržitě přicházející nové image.

Pracovní postup pro odvozování modelu obrázků

Předpokládejme, že máte několik vytrénovaných modelů hlubokého učení (DL) pro klasifikaci obrázků a detekci objektů , například MobileNetV2 pro detekci lidských objektů na fotkách nahraných uživatelem, které pomáhají chránit soukromí– a chcete tyto modely DL použít na uložené obrázky.

Modely můžete přetrénovat a aktualizovat dříve vypočítané předpovědi. Pro načtení mnoha imagí a použití modelů DL je však náročné na vstupně-výstupní operace i výpočetní výkon. Naštěstí je úloha odvozování trapná paralelně paralelní a teoreticky je možné snadno distribuovat. Tato příručka vás provede praktickým řešením, které obsahuje dvě hlavní fáze:

  1. ETL zpracování obrázků do tabulky Delta pomocí nástroje Auto Loader
  2. Provádění distribuovaného odvozování pomocí UDF knihovny pandas

ETL zpracování obrázků do tabulky Delta pomocí nástroje Auto Loader

Pro aplikace obrázků, včetně úloh trénování a odvozování, Databricks doporučuje, abyste obrázky zpracovali pomocí ETL do tabulky Delta s automatickým zavaděčem. Auto Loader pomáhá správě dat a automaticky zpracovává nepřetržitě přicházející nové image.

Datová sada obrázků ETL do poznámkového bloku tabulky Delta

Získejte poznámkový blok

Provádění distribuovaného odvozování pomocí UDF knihovny pandas

Následující poznámkové bloky používají PyTorch a TensorFlow tf. Keras k předvedení referenčního řešení

Distribuované odvození prostřednictvím poznámkového bloku Pytorch a pandas UDF

Získejte poznámkový blok

Distribuované odvození prostřednictvím poznámkového bloku Keras a pandas UDF

Získejte poznámkový blok

Omezení: Velikosti souborů obrázků

U velkých souborů obrázků (průměrná velikost obrázku větší než 100 MB) doporučuje Databricks používat tabulku Delta pouze ke správě metadat (seznamu názvů souborů) a načítání obrázků z úložiště objektů pomocí jejich cest v případě potřeby.