Używanie bezserwerowych procesorów GPU w usłudze Azure Container Apps (wersja zapoznawcza)

Artykuł
01/09/2025

Usługa Azure Container Apps zapewnia dostęp do procesorów GPU na żądanie bez konieczności zarządzania podstawową infrastrukturą. Jako funkcja bezserwerowa płacisz tylko za używane procesory GPU. Po włączeniu liczba procesorów GPU używanych dla aplikacji rośnie i spada w celu spełnienia wymagań dotyczących obciążenia aplikacji. Bezserwerowe procesory GPU umożliwiają bezproblemowe uruchamianie obciążeń z automatycznym skalowaniem, zoptymalizowanym zimnym startem, rozliczeniami na sekundę ze skalowaniem w dół do zera, gdy nie są używane, i zmniejszenie nakładu pracy operacyjnej.

Bezserwerowe procesory GPU są obsługiwane tylko w przypadku profilów obciążeń Zużycie. Ta funkcja nie jest obsługiwana w środowiskach tylko do użycia.

Uwaga

Dostęp do procesorów GPU jest dostępny tylko po żądaniu limitów przydziału procesora GPU. Żądanie limitu przydziału procesora GPU można przesłać za pośrednictwem zgłoszenia do pomocy technicznej klienta.

Świadczenia

Bezserwerowe procesory GPU przyspieszają opracowywanie sztucznej inteligencji, umożliwiając skoncentrowanie się na podstawowym kodzie sztucznej inteligencji i mniej na zarządzaniu infrastrukturą podczas korzystania z procesorów GPU. Ta funkcja zapewnia opcję warstwy środkowej między bezserwerowymi interfejsami API katalogu modeli usługi Azure AI i modelami hostowania w zarządzanych obliczeniach.

Bezserwerowa obsługa procesora GPU usługi Container Apps zapewnia pełny nadzór nad danymi, ponieważ dane nigdy nie opuszczają granic kontenera, zapewniając jednocześnie zarządzaną, bezserwerową platformę, z której można tworzyć aplikacje.

W przypadku korzystania z bezserwerowych procesorów GPU w usłudze Container Apps aplikacje uzyskują następujące aplikacje:

Procesory GPU skalowane do zera: obsługa automatycznego skalowania bezserwerowego procesorów GPU NVIDIA A100 i NVIDIA T4.
Rozliczanie za sekundę: płacisz tylko za używane zasoby obliczeniowe procesora GPU.
Wbudowany nadzór nad danymi: Dane nigdy nie opuszczają granicy kontenera.
Elastyczne opcje obliczeniowe: możesz wybrać typy procesorów GPU NVIDIA A100 lub T4.
Warstwa środkowa na potrzeby tworzenia sztucznej inteligencji: bring your own model on a managed, serverless compute platformy.

Typowe scenariusze

Poniższe scenariusze, choć nie są kompleksowe, opisują typowe przypadki użycia bezserwerowych procesorów GPU.

Wnioskowanie w czasie rzeczywistym i wsadowe: używanie niestandardowych modeli typu open source z szybkim czasem uruchamiania, automatycznym skalowaniem i modelem rozliczeń na sekundę. Bezserwerowe procesory GPU są idealne dla aplikacji dynamicznych. Płacisz tylko za używane zasoby obliczeniowe, a aplikacje są automatycznie skalowane w poziomie i w celu zaspokojenia zapotrzebowania.
Scenariusze uczenia maszynowego: znacznie przyspieszają aplikacje implementujące dostosowane niestandardowe modele sztucznej inteligencji, uczenie głębokie, sieci neuronowe lub analizę danych na dużą skalę.
Obliczenia o wysokiej wydajności (HPC) : aplikacje wymagające złożonych obliczeń i symulacji, takich jak obliczenia naukowe, modelowanie finansowe lub prognozowanie pogody używają procesorów GPU jako zasobów na potrzeby obliczeń o wysokich wymaganiach obliczeniowych.
Renderowanie i wizualizacja: aplikacje, które obejmują renderowanie 3D, przetwarzanie obrazów lub transkodowanie wideo, często używają procesorów GPU do przyspieszenia procesu renderowania i włączenia wizualizacji w czasie rzeczywistym.
Analiza danych big data: procesory GPU mogą przyspieszyć przetwarzanie i analizę danych wśród ogromnych zestawów danych.

Kwestie wymagające rozważenia

Podczas korzystania z bezserwerowych procesorów GPU należy pamiętać o następujących elementach:

Wersja CUDA: bezserwerowe procesory GPU obsługują najnowszą wersję CUDA
Ograniczenia pomocy technicznej:
- Tylko jeden kontener w aplikacji może używać procesora GPU jednocześnie. Jeśli masz wiele kontenerów w aplikacji, pierwszy kontener uzyskuje dostęp do procesora GPU.
- Wiele aplikacji może współużytkować ten sam profil obciążenia procesora GPU, ale każda z nich wymaga własnej repliki.
- Repliki wielo i ułamkowe procesora GPU nie są obsługiwane.
- Pierwszy kontener w aplikacji uzyskuje dostęp do procesora GPU.
Adresy IP: Użycie procesorów GPU używa jednego adresu IP na replikę podczas konfigurowania integracji z własną siecią wirtualną.

Żądanie bezserwerowego limitu przydziału procesora GPU

Dostęp do tej funkcji jest dostępny tylko po dokonaniu bezserwerowego limitu przydziału procesora GPU. Żądanie limitu przydziału procesora GPU można przesłać za pośrednictwem zgłoszenia do pomocy technicznej klienta. Podczas otwierania zgłoszenia do pomocy technicznej dla żądania limitu przydziału procesora GPU wybierz typ problemu "Techniczny".

Uwaga

Klienci z umowami Enterprise Agreement mają domyślnie włączony pojedynczy limit przydziału procesora GPU T4.

Obsługiwane regiony

Bezserwerowe procesory GPU są dostępne w wersji zapoznawczej w regionach Zachodnie stany USA 3, Australia Wschodnia i Szwecja Środkowa .

Korzystanie z procesorów GPU bezserwerowych

Podczas tworzenia aplikacji kontenera za pośrednictwem witryny Azure Portal możesz skonfigurować kontener do korzystania z zasobów procesora GPU.

Na karcie Kontener procesu tworzenia ustaw następujące ustawienia:

W sekcji Alokacja zasobów kontenera zaznacz pole wyboru Gpu.
W polu Typ procesora GPU*wybierz opcję NVIDIA A100 lub NVIDIA T4.

Zarządzanie profilem obciążenia bezserwerowego procesora GPU

Bezserwerowe procesory GPU są uruchamiane w profilach obciążeń procesora GPU użycia. Profil obciążenia procesora GPU jest zarządzany w taki sam sposób, jak w przypadku innych profilów obciążeń. Profil obciążenia można zarządzać przy użyciu interfejsu wiersza polecenia lub witryny Azure Portal.

Ulepszanie zimnego uruchamiania procesora GPU

Możesz poprawić zimny start w kontenerach z obsługą procesora GPU, włączając przesyłanie strumieniowe artefaktów w usłudze Azure Container Registry.

Uwaga

Aby można było używać przesyłania strumieniowego artefaktów, obrazy kontenerów muszą być hostowane w usłudze Azure Container Registry.

Aby włączyć przesyłanie strumieniowe obrazów, wykonaj następujące czynności:

Otwórz usługę Azure Container Registry w witrynie Azure Portal.
Wyszukaj pozycję Repozytoria i wybierz pozycję Repozytoria.
Wybierz nazwę repozytorium.
W oknie Repozytorium wybierz pozycję Rozpocznij przesyłanie strumieniowe artefaktów.
Wybierz tag obrazu, który chcesz przesłać strumieniowo.
W wyświetlonym oknie wybierz pozycję Utwórz artefakt przesyłania strumieniowego.

Prześlij opinię

Prześlij problem do repozytorium GitHub usługi Azure Container Apps.

Następne kroki

Generowanie obrazów przy użyciu bezserwerowych procesorów GPU

Udostępnij za pośrednictwem

Używanie bezserwerowych procesorów GPU w usłudze Azure Container Apps (wersja zapoznawcza)

Świadczenia

Typowe scenariusze

Kwestie wymagające rozważenia

Żądanie bezserwerowego limitu przydziału procesora GPU

Obsługiwane regiony

Korzystanie z procesorów GPU bezserwerowych

Zarządzanie profilem obciążenia bezserwerowego procesora GPU

Ulepszanie zimnego uruchamiania procesora GPU

Prześlij opinię

Następne kroki

Opinia

Dodatkowe zasoby