Referentieoplossing voor afbeeldingsapplicaties

Artikel
03/31/2025

Meer informatie over hoe u gedistribueerde afbeeldingsmodelinferentie uitvoert vanuit referentie-oplossingsnotebooks met behulp van pandas UDF, PyTorch en TensorFlow volgens een gemeenschappelijke configuratie die wordt gedeeld door veel echte beeldtoepassingen. Bij deze configuratie wordt ervan uitgegaan dat u veel installatiekopieën opslaat in een objectarchief en eventueel voortdurend nieuwe installatiekopieën hebt.

Werkstroom voor inferentie van afbeeldingsmodel

Stel dat u verschillende getrainde Deep Learning-modellen (DL) hebt voor afbeeldingsclassificatie en objectdetectie, bijvoorbeeld MobileNetV2 voor het detecteren van menselijke objecten in door de gebruiker geüploade foto's om privacy te beschermen en u wilt deze DL-modellen toepassen op de opgeslagen afbeeldingen.

U kunt de modellen opnieuw trainen en eerder berekende voorspellingen bijwerken. Het is echter zowel I/O-intensief als rekenintensief om veel afbeeldingen te laden en DL-modellen toe te passen. Gelukkig is de inference-taakbelasting uitermate parallel en kan deze in theorie eenvoudig worden gedistribueerd. Deze handleiding begeleidt u door een praktische oplossing die twee belangrijke fasen bevat:

ETL-afbeeldingen in een Delta-tabel met Auto Loader
Gedistribueerde deductie uitvoeren met pandas UDF

ETL-afbeeldingen naar een Delta-tabel met Auto Loader

Voor beeldtoepassingen, waaronder trainings- en inferentietaken, raadt Databricks u aan om ETL-afbeeldingen in een Delta-tabel te plaatsen met de Auto Loader. De Auto Loader helpt bij het beheer van gegevens en verwerkt automatisch continu nieuwe afbeeldingen.

Een ETL-afbeeldingsdataset in een Delta-tabelnotebook

Notebook krijgen

Gedistribueerde deductie uitvoeren met pandas UDF

De volgende notebooks gebruiken PyTorch en TensorFlow tf. Keras om de referentieoplossing te demonstreren.

Gedistribueerde inferentie via Pytorch en pandas UDF-notebook

Notebook krijgen

Gedistribueerde inferentie via Keras en pandas UDF-notebook

Notebook krijgen

Beperkingen: Afbeeldingsbestandsgroottes

Voor grote afbeeldingsbestanden (gemiddelde afbeeldingsgrootte groter dan 100 MB) raadt Databricks aan om alleen de metagegevens (lijst met bestandsnamen) te beheren en de afbeeldingen uit het objectarchief te laden met behulp van hun paden wanneer dat nodig is.

Delen via

Referentieoplossing voor afbeeldingsapplicaties

Werkstroom voor inferentie van afbeeldingsmodel

ETL-afbeeldingen naar een Delta-tabel met Auto Loader

Een ETL-afbeeldingsdataset in een Delta-tabelnotebook

Gedistribueerde deductie uitvoeren met pandas UDF

Gedistribueerde inferentie via Pytorch en pandas UDF-notebook

Gedistribueerde inferentie via Keras en pandas UDF-notebook

Beperkingen: Afbeeldingsbestandsgroottes

Feedback

Aanvullende resources