Rozwiązanie referencyjne dla aplikacji obrazów
Dowiedz się, jak wykonywać wnioskowanie modelu obrazów rozproszonych z notesów rozwiązań referencyjnych przy użyciu funkcji pandas UDF, PyTorch i TensorFlow w wspólnej konfiguracji współużytkowanej przez wiele rzeczywistych aplikacji obrazów. W tej konfiguracji przyjęto założenie, że wiele obrazów jest przechowywanych w magazynie obiektów i opcjonalnie stale przybywa nowych obrazów.
Przepływ pracy wnioskowania modelu obrazów
Załóżmy, że masz kilka wytrenowanych modeli uczenia głębokiego na potrzeby klasyfikacji obrazów i wykrywania obiektów — na przykład MobileNetV2 do wykrywania obiektów ludzkich na zdjęciach przekazanych przez użytkownika w celu ochrony prywatności — i chcesz zastosować te modele DL do przechowywanych obrazów.
Możesz przetrenować modele i update już wcześniej obliczonych przewidywań. Jednak zarówno operacje we/wy, jak i duże obciążenie obliczeniowe do ładowania wielu obrazów i stosowanie modeli DL. Na szczęście obciążenie wnioskowania jest kłopotliwie równoległe i teoretycznie można je łatwo dystrybuować. Ten przewodnik przeprowadzi Cię przez praktyczne rozwiązanie, które zawiera dwa główne etapy:
- Przetwarzanie ETL do Obrazu Delta table za pomocą Auto Loader
- Wykonywanie wnioskowania rozproszonego przy użyciu funkcji zdefiniowanej przez użytkownika biblioteki pandas
Przekształcanie obrazów ETL do Delta table przy użyciu Auto Loader
W przypadku aplikacji obrazów, w tym zadań szkoleniowych i wnioskowania, usługa Databricks zaleca tworzenie obrazów ETL w
Przetwarzanie danych ETL dla zestawu obrazów w notatniku Delta table
Wykonywanie wnioskowania rozproszonego przy użyciu funkcji zdefiniowanej przez użytkownika biblioteki pandas
W poniższych notesach używane są narzędzia PyTorch i TensorFlow tf. Interfejs Keras do zademonstrowania rozwiązania referencyjnego.
Wnioskowanie rozproszone za pośrednictwem notesu Pytorch i biblioteki pandas UDF
Wnioskowanie rozproszone za pośrednictwem notesu protokołu Keras i biblioteki pandas UDF
Ograniczenia: rozmiary plików obrazów
W przypadku dużych plików obrazów (średni rozmiar obrazu większy niż 100 MB) usługa Databricks zaleca używanie Delta table tylko do zarządzania metadanymi (list nazw plików) oraz wczytywanie obrazów z magazynu obiektów, korzystając z ich ścieżek, gdy zajdzie taka potrzeba.