Udostępnij za pośrednictwem


Rozwiązanie referencyjne dla aplikacji obrazów

Dowiedz się, jak wykonywać wnioskowanie modelu obrazów rozproszonych z notesów rozwiązań referencyjnych przy użyciu funkcji pandas UDF, PyTorch i TensorFlow w wspólnej konfiguracji współużytkowanej przez wiele rzeczywistych aplikacji obrazów. W tej konfiguracji przyjęto założenie, że wiele obrazów jest przechowywanych w magazynie obiektów i opcjonalnie stale przybywa nowych obrazów.

Przepływ pracy wnioskowania modelu obrazów

Załóżmy, że masz kilka wytrenowanych modeli uczenia głębokiego na potrzeby klasyfikacji obrazów i wykrywania obiektów — na przykład MobileNetV2 do wykrywania obiektów ludzkich na zdjęciach przekazanych przez użytkownika w celu ochrony prywatności — i chcesz zastosować te modele DL do przechowywanych obrazów.

Możesz przetrenować modele i update już wcześniej obliczonych przewidywań. Jednak zarówno operacje we/wy, jak i duże obciążenie obliczeniowe do ładowania wielu obrazów i stosowanie modeli DL. Na szczęście obciążenie wnioskowania jest kłopotliwie równoległe i teoretycznie można je łatwo dystrybuować. Ten przewodnik przeprowadzi Cię przez praktyczne rozwiązanie, które zawiera dwa główne etapy:

  1. Przetwarzanie ETL do Obrazu Delta table za pomocą Auto Loader
  2. Wykonywanie wnioskowania rozproszonego przy użyciu funkcji zdefiniowanej przez użytkownika biblioteki pandas

Przekształcanie obrazów ETL do Delta table przy użyciu Auto Loader

W przypadku aplikacji obrazów, w tym zadań szkoleniowych i wnioskowania, usługa Databricks zaleca tworzenie obrazów ETL w delty za pomocąautomatycznego modułu ładującego. Moduł automatycznego ładowania ułatwia zarządzanie danymi i automatycznie obsługuje ciągłe dostarczanie nowych obrazów.

Przetwarzanie danych ETL dla zestawu obrazów w notatniku Delta table

Get notatnik

Wykonywanie wnioskowania rozproszonego przy użyciu funkcji zdefiniowanej przez użytkownika biblioteki pandas

W poniższych notesach używane są narzędzia PyTorch i TensorFlow tf. Interfejs Keras do zademonstrowania rozwiązania referencyjnego.

Wnioskowanie rozproszone za pośrednictwem notesu Pytorch i biblioteki pandas UDF

Get zeszyt

Wnioskowanie rozproszone za pośrednictwem notesu protokołu Keras i biblioteki pandas UDF

Get notesu

Ograniczenia: rozmiary plików obrazów

W przypadku dużych plików obrazów (średni rozmiar obrazu większy niż 100 MB) usługa Databricks zaleca używanie Delta table tylko do zarządzania metadanymi (list nazw plików) oraz wczytywanie obrazów z magazynu obiektów, korzystając z ich ścieżek, gdy zajdzie taka potrzeba.