Solution de référence pour les applications d’images
Découvrez comment effectuer une inférence de modèle d’image distribuée à partir de notebooks de solution de référence à l’aide de pandas UDF, PyTorch et TensorFlow dans une configuration commune partagée par de nombreuses applications d’images réelles. Cette configuration suppose que vous stockez de nombreuses images dans un magasin d’objets et que vous avez éventuellement des nouvelles images en continu.
Flux de travail pour l’inférence de modèle d’image
Supposons que vous disposiez de plusieurs modèles d'apprentissage profond (DL) formés pour la classification d'images et la détection d'objets - par exemple, MobileNetV2 pour la détection d'objets humains dans les photos téléchargées par les utilisateurs afin de protéger la vie privée - et que vous souhaitiez appliquer ces modèles DL aux images stockées.
Vous pouvez reformer les modèles et mettre à jour les prédictions précédemment calculées. Toutefois, il s’agit d’e/s et de calcul-lourd pour charger de nombreuses images et appliquer des modèles DL. Heureusement, la charge de travail d’inférence est massivement parallèle et, en théorie, elle peut être distribuée facilement. Ce guide vous guide tout au long d’une solution pratique qui contient deux étapes majeures :
- Images ETL dans une table Delta à l’aide du chargeur automatique
- Effectuer une inférence distribuée à l'aide de pandas UDF
Images ETL dans une table Delta à l’aide du chargeur automatique
Pour les applications d’images, y compris les tâches d’apprentissage et d’inférence, Databricks recommande d’utiliser des images ETL dans une table Delta avec le chargeur automatique. Le chargeur automatique permet la gestion des données et gère automatiquement les nouvelles images en continu.
Jeu de données d’image ETL dans un bloc-notes de table Delta
Effectuer une inférence distribuée à l'aide de pandas UDF
Les blocs-notes suivants utilisent PyTorch et TensorFlow tf. Keras pour illustrer la solution de référence.
Inférence distribuée par le biais du bloc-notes UDF Pytorch et pandas
Inférence distribuée par le biais du bloc-notes UDF Pytorch et pandas
Limitations : taille des fichiers image
Pour les fichiers image volumineux (taille d’image moyenne supérieure à 100 Mo), Databricks recommande l’utilisation de la table Delta uniquement pour gérer les métadonnées (liste de noms de fichiers) et le chargement des images à partir du magasin d’objets à l’aide de leurs chemins d’accès si nécessaire.