Solución de referencia para aplicaciones de imagen
Obtenga información sobre cómo realizar la inferencia de modelos de imágenes distribuidas a partir de cuadernos de soluciones de referencia mediante UDF de Pandas, PyTorch y TensorFlow en una configuración común compartida por muchas aplicaciones de imágenes reales. Esta configuración supone que almacena muchas imágenes en un almacén de objetos y, opcionalmente, tiene imágenes nuevas que llegan continuamente.
Flujo de trabajo para la inferencia del modelo de imagen
Supongamos que tiene varios modelos de aprendizaje profundo (DL) entrenados para la clasificación de imágenes y la detección de objetos —por ejemplo, MobileNetV2 para detectar objetos humanos en fotos cargadas por el usuario, para ayudar a proteger la privacidad— y quiere aplicar estos modelos de DL a las imágenes almacenadas.
Puede volver a entrenar los modelos y actualizar las predicciones calculadas previamente. Sin embargo, tanto la E/S como los cálculos son pesados, para cargar muchas imágenes y aplicar modelos de DL. Afortunadamente, la carga de trabajo de inferencia es perfectamente paralela y, en teoría, se puede distribuir fácilmente. Esta guía le ofrece una solución práctica, que contiene dos fases principales:
- Imágenes ETL en una tabla Delta mediante Auto Loader
- Realización de inferencias distribuidas mediante UDF de Pandas
Imágenes ETL en una tabla Delta mediante Auto Loader
Para las aplicaciones de imagen, incluidas las tareas de entrenamiento e inferencia, Databricks recomienda incluir imágenes ETL en una tabla Delta con Auto Loader. Auto Loader ayuda a la administración de datos y controla automáticamente las nuevas imágenes que llegan continuamente.
Conjunto de datos de imágenes ETL en un cuaderno de tablas de Delta
Realización de inferencias distribuidas mediante UDF de Pandas
En los cuadernos siguientes se usa PyTorch y TensorFlow tf.Keras para mostrar la solución de referencia.
Inferencia distribuida a través del cuaderno UDF de Pytorch y Pandas
Inferencia distribuida a través del cuaderno UDF de Pytorch y Keras
Limitaciones: tamaños de archivo de imagen
En el caso de los archivos de imagen grandes (un tamaño medio de imagen superior a 100 MB), Databricks recomienda usar la tabla Delta solo para administrar los metadatos (lista de nombres de archivo), y cargar las imágenes desde el almacén de objetos mediante sus rutas de acceso, cuando sea necesario.