Rozwiązanie referencyjne dla aplikacji obrazów
Dowiedz się, jak wykonywać wnioskowanie modelu obrazów rozproszonych z notesów rozwiązań referencyjnych przy użyciu funkcji pandas UDF, PyTorch i TensorFlow w wspólnej konfiguracji współużytkowanej przez wiele rzeczywistych aplikacji obrazów. W tej konfiguracji przyjęto założenie, że wiele obrazów jest przechowywanych w magazynie obiektów i opcjonalnie stale przybywa nowych obrazów.
Przepływ pracy dla wnioskowania modelu obrazu
Załóżmy, że masz kilka wytrenowanych modeli uczenia głębokiego na potrzeby klasyfikacji obrazów i wykrywania obiektów — na przykład MobileNetV2 do wykrywania obiektów ludzkich na zdjęciach przekazanych przez użytkownika w celu ochrony prywatności — i chcesz zastosować te modele DL do przechowywanych obrazów.
Możesz ponownie trenować modele i aktualizować wcześniej obliczone przewidywania. Jednak zarówno obciążenie WE/WY, jak i duża intensywność obliczeniowa są wymagane do ładowania wielu obrazów i stosowania modeli DL. Na szczęście obciążenie wnioskowania jest bezwstydnie równoległe i teoretycznie można je łatwo rozproszyć. Ten przewodnik przeprowadzi Cię przez praktyczne rozwiązanie, które zawiera dwa główne etapy:
- Przetwarzanie obrazów ETL do tabeli Delta z użyciem automatycznego modułu ładowania
- Wykonaj wnioskowanie rozproszone za pomocą pandas UDF
Wczytywanie danych procesem ETL do tabeli Delta za pomocą Automatycznego Ładowania
Dla aplikacji związanych z obrazami, w tym zadań szkoleniowych i wnioskowania, usługa Databricks zaleca, aby przetwarzać obrazy ETL do tabeli Delta za pomocą modułu Auto Loader . Moduł automatycznego ładowania ułatwia zarządzanie danymi i automatycznie obsługuje ciągłe dostarczanie nowych obrazów.
Zestaw danych obrazów ETL do tabeli Delta w notebooku
Pobierz notesu
Wykonaj rozproszone wnioskowanie przy użyciu UDF pandas
W poniższych notebookach wykorzystują PyTorch i TensorFlow tf.Keras w celu zademonstrowania rozwiązania referencyjnego.
Rozproszone wnioskowanie za pomocą notatnika Pytorch i funkcji UDF biblioteki pandas
Wnioskowanie rozproszone z użyciem notesu Keras i pandas UDF
Ograniczenia: rozmiary plików obrazów
W przypadku dużych plików obrazów (średni rozmiar obrazu większy niż 100 MB) usługa Databricks zaleca używanie tabeli delty tylko do zarządzania metadanymi (listy nazw plików) i ładowania obrazów z magazynu obiektów przy użyciu ich ścieżek w razie potrzeby.