Udostępnij za pośrednictwem


Rozwiązanie referencyjne dla aplikacji obrazów

Dowiedz się, jak wykonywać wnioskowanie modelu obrazów rozproszonych z notesów rozwiązań referencyjnych przy użyciu funkcji pandas UDF, PyTorch i TensorFlow w wspólnej konfiguracji współużytkowanej przez wiele rzeczywistych aplikacji obrazów. W tej konfiguracji przyjęto założenie, że wiele obrazów jest przechowywanych w magazynie obiektów i opcjonalnie stale przybywa nowych obrazów.

Przepływ pracy dla wnioskowania modelu obrazu

Załóżmy, że masz kilka wytrenowanych modeli uczenia głębokiego na potrzeby klasyfikacji obrazów i wykrywania obiektów — na przykład MobileNetV2 do wykrywania obiektów ludzkich na zdjęciach przekazanych przez użytkownika w celu ochrony prywatności — i chcesz zastosować te modele DL do przechowywanych obrazów.

Możesz ponownie trenować modele i aktualizować wcześniej obliczone przewidywania. Jednak zarówno obciążenie WE/WY, jak i duża intensywność obliczeniowa są wymagane do ładowania wielu obrazów i stosowania modeli DL. Na szczęście obciążenie wnioskowania jest bezwstydnie równoległe i teoretycznie można je łatwo rozproszyć. Ten przewodnik przeprowadzi Cię przez praktyczne rozwiązanie, które zawiera dwa główne etapy:

  1. Przetwarzanie obrazów ETL do tabeli Delta z użyciem automatycznego modułu ładowania
  2. Wykonaj wnioskowanie rozproszone za pomocą pandas UDF

Wczytywanie danych procesem ETL do tabeli Delta za pomocą Automatycznego Ładowania

Dla aplikacji związanych z obrazami, w tym zadań szkoleniowych i wnioskowania, usługa Databricks zaleca, aby przetwarzać obrazy ETL do tabeli Delta za pomocą modułu Auto Loader . Moduł automatycznego ładowania ułatwia zarządzanie danymi i automatycznie obsługuje ciągłe dostarczanie nowych obrazów.

Zestaw danych obrazów ETL do tabeli Delta w notebooku

Pobierz notesu

Wykonaj rozproszone wnioskowanie przy użyciu UDF pandas

W poniższych notebookach wykorzystują PyTorch i TensorFlow tf.Keras w celu zademonstrowania rozwiązania referencyjnego.

Rozproszone wnioskowanie za pomocą notatnika Pytorch i funkcji UDF biblioteki pandas

Weź notes

Wnioskowanie rozproszone z użyciem notesu Keras i pandas UDF

Zdobądź notes

Ograniczenia: rozmiary plików obrazów

W przypadku dużych plików obrazów (średni rozmiar obrazu większy niż 100 MB) usługa Databricks zaleca używanie tabeli delty tylko do zarządzania metadanymi (listy nazw plików) i ładowania obrazów z magazynu obiektów przy użyciu ich ścieżek w razie potrzeby.