Referentieoplossing voor afbeeldingsapplicaties
Meer informatie over hoe u gedistribueerde afbeeldingsmodelinferentie uitvoert vanuit referentie-oplossingsnotebooks met behulp van pandas UDF, PyTorch en TensorFlow volgens een gemeenschappelijke configuratie die wordt gedeeld door veel echte beeldtoepassingen. Bij deze configuratie wordt ervan uitgegaan dat u veel installatiekopieën opslaat in een objectarchief en eventueel voortdurend nieuwe installatiekopieën hebt.
Werkstroom voor inferentie van afbeeldingsmodel
Stel dat u verschillende getrainde Deep Learning-modellen (DL) hebt voor afbeeldingsclassificatie en objectdetectie, bijvoorbeeld MobileNetV2 voor het detecteren van menselijke objecten in door de gebruiker geüploade foto's om privacy te beschermen en u wilt deze DL-modellen toepassen op de opgeslagen afbeeldingen.
U kunt de modellen opnieuw trainen en eerder berekende voorspellingen bijwerken. Het is echter zowel I/O-intensief als rekenintensief om veel afbeeldingen te laden en DL-modellen toe te passen. Gelukkig is de inference-taakbelasting uitermate parallel en kan deze in theorie eenvoudig worden gedistribueerd. Deze handleiding begeleidt u door een praktische oplossing die twee belangrijke fasen bevat:
- ETL-afbeeldingen in een Delta-tabel met Auto Loader
- Gedistribueerde deductie uitvoeren met pandas UDF
ETL-afbeeldingen naar een Delta-tabel met Auto Loader
Voor beeldtoepassingen, waaronder trainings- en inferentietaken, raadt Databricks u aan om ETL-afbeeldingen in een Delta-tabel te plaatsen met de Auto Loader. De Auto Loader helpt bij het beheer van gegevens en verwerkt automatisch continu nieuwe afbeeldingen.
Een ETL-afbeeldingsdataset in een Delta-tabelnotebook
Gedistribueerde deductie uitvoeren met pandas UDF
De volgende notebooks gebruiken PyTorch en TensorFlow tf. Keras om de referentieoplossing te demonstreren.
Gedistribueerde inferentie via Pytorch en pandas UDF-notebook
Gedistribueerde inferentie via Keras en pandas UDF-notebook
Beperkingen: Afbeeldingsbestandsgroottes
Voor grote afbeeldingsbestanden (gemiddelde afbeeldingsgrootte groter dan 100 MB) raadt Databricks aan om alleen de metagegevens (lijst met bestandsnamen) te beheren en de afbeeldingen uit het objectarchief te laden met behulp van hun paden wanneer dat nodig is.