Sdílet prostřednictvím


Referenční řešení pro aplikace obrázků

Naučte se provádět odvozování modelů distribuovaných imagí z referenčních poznámkových bloků řešení s využitím funkcí pandas UDF, PyTorch a TensorFlow v společné konfiguraci sdílené mnoha aplikacemi pro obrázky z reálného světa. Tato konfigurace předpokládá, že ukládáte mnoho imagí do úložiště objektů a volitelně máte nepřetržitě přicházející nové image.

Pracovní postup pro odvozování modelu obrázků

Předpokládejme, že máte několik vytrénovaných modelů hlubokého učení (DL) pro klasifikaci obrázků a detekci objektů , například MobileNetV2 pro detekci lidských objektů na fotkách nahraných uživatelem, které pomáhají chránit soukromí– a chcete tyto modely DL použít na uložené obrázky.

Modely a update dříve vypočítané předpovědi můžete přetrénovat. Pro načtení mnoha imagí a použití modelů DL je však náročné na vstupně-výstupní operace i výpočetní výkon. Naštěstí je úloha odvozování trapná paralelně paralelní a teoreticky je možné snadno distribuovat. Tato příručka vás provede praktickým řešením, které obsahuje dvě hlavní fáze:

  1. Zpracování ETL obrázků do Delta table pomocí Auto Loaderu
  2. Provádění distribuovaného odvozování pomocí UDF knihovny pandas

ETL obrázků do Delta table pomocí Auto Loaderu

U obrazových aplikací, včetně úloh trénování a odvozování, Databricks doporučuje, abyste přenesli obrazy pomocí ETL do úložiště Delta table s automatickým zavaděčem . Auto Loader pomáhá správě dat a automaticky zpracovává nepřetržitě přicházející nové image.

Datová sada obrázků ETL do poznámkového bloku Delta table

Get poznámkového bloku

Provádění distribuovaného odvozování pomocí UDF knihovny pandas

Následující poznámkové bloky používají PyTorch a TensorFlow tf. Keras k předvedení referenčního řešení

Distribuované odvození prostřednictvím poznámkového bloku Pytorch a pandas UDF

poznámkového bloku

Distribuované odvození prostřednictvím poznámkového bloku Keras a pandas UDF

Get poznámkový blok

Omezení: Velikosti souborů obrázků

U velkých souborů obrázků (průměrná velikost obrázku větší než 100 MB) doporučuje Databricks použít Delta table ke správě metadat (list názvů souborů) a v případě potřeby načítat obrázky z úložiště objektů pomocí jejich cest.