Verwenden von serverlosen GPUs in Azure Container Apps (Vorschau)
Azure Container Apps bietet Zugriff auf GPUs bei Bedarf, ohne dass Sie die zugrunde liegende Infrastruktur verwalten müssen. Als serverloses Feature bezahlen Sie nur für verwendete GPUs. Wenn diese Option aktiviert ist, steigt und sinkt die Anzahl der für Ihre Anwendung verwendeten GPUs, um den Lastanforderungen Ihrer Anwendung gerecht zu werden. Serverlose GPUs ermöglichen Ihnen die nahtlose Ausführung Ihrer Workloads mit automatischer Skalierung, optimiertem Kaltstart, sekundengenauer Abrechnung mit Herunterskalierung auf Null, wenn sie nicht genutzt werden, und reduziertem Betriebsaufwand.
Serverlose GPUs werden nur für Verbrauchsworkloadprofile unterstützt. Das Feature wird für Nur-Verbrauch-Umgebungen nicht unterstützt.
Hinweis
Der Zugriff auf GPUs ist erst verfügbar, nachdem Sie GPU-Kontingente angefordert haben. Sie können Ihre GPU-Kontingentanforderung über einen Supportfall übermitteln.
Vorteile
Serverlose GPUs beschleunigen die KI-Entwicklung, da Sie sich bei der Verwendung von GPUs auf Ihren KI-Kerncode und weniger auf die Verwaltung der Infrastruktur konzentrieren können. Dieses Feature bietet eine Option auf mittlerer Ebene zwischen serverlosen APIs des Azure KI-Modellkatalog und Hostingmodellen auf verwalteten Computeressourcen.
Die Unterstützung serverlose GPUs von Container Apps bietet vollständige Data Governance, da Ihre Daten die Grenzen Ihres Containers nie verlassen, und bietet gleichzeitig eine verwaltete, serverlose Plattform, auf der Sie Ihre Anwendungen erstellen können.
Wenn Sie serverlose GPUs in Container Apps verwenden, erhalten Ihre Apps Folgendes:
Skalierung auf null GPUs: Unterstützung für die automatische serverlose Skalierung von NVIDIA A100- und NVIDIA T4-GPUs.
Sekundengenaue Abrechnung: Sie bezahlen nur für die verwendeten GPU-Computeressourcen.
Integrierte Data Governance: Ihre Daten verlassen nie die Containergrenze.
Flexible Computeoptionen: Sie können zwischen den GPU-Typen NVIDIA A100 und T4 wählen.
Mittlere Ebene für KI-Entwicklung: Bringen Sie Ihr eigenes Modell auf eine verwaltete Plattform für serverloses Computing.
Gängige Szenarios
Die folgenden Szenarien sind zwar nicht umfassend, beschreiben aber gängige Anwendungsfälle für serverlose GPUs.
Echtzeit- und Batchrückschluss: Verwendung von benutzerdefinierten Open-Source-Modellen mit schnellen Startzeiten, automatischer Skalierung und einem sekundengenauen Abrechnungsmodell. Serverlose GPUs eignen sich ideal für dynamische Anwendungen. Sie zahlen nur für die von Ihnen verwendeten Computeressourcen, und Ihre Apps werden automatisch ab- und aufskaliert, um die Nachfrage zu erfüllen.
Szenarien für maschinelles Lernen: Erhebliche Beschleunigung von Anwendungen, die fein abgestimmte benutzerdefinierte generative KI-Modelle, Deep Learning, neuronale Netzwerke oder umfangreiche Datenanalysen implementieren.
High Performance Computing (HPC): Anwendungen, die komplexe Berechnungen und Simulationen erfordern, z. B. wissenschaftliche Berechnungen, Finanzmodellierung oder Wettervorhersage, verwenden GPUs als Ressourcen für hohe Rechenanforderungen.
Rendering und Visualisierung: Anwendungen, die 3D-Rendering, Bildverarbeitung oder Videotranscodierung umfassen, verwenden häufig GPUs, um den Renderingprozess zu beschleunigen und Echtzeitvisualisierung zu ermöglichen.
Big Data-Analyse: GPUs können die Datenverarbeitung und -analyse bei riesigen Datasets beschleunigen.
Überlegungen
Beachten Sie bei der Verwendung serverloser GPUs die folgenden Punkte:
CUDA-Version: Serverlose GPUs unterstützen die aktuelle CUDA-Version
Einschränkungen bei der Unterstützung:
- Nur ein Container in einer App kann jeweils die GPU verwenden. Wenn Ihre App mehrere Container umfasst, erhält der erste Container Zugriff auf die GPU.
- Mehrere Apps können das gleiche GPU-Workloadprofil gemeinsam nutzen, für jede ist jedoch ein eigenes Replikat erforderlich.
- Mehrere und geteilte GPU-Replikate werden nicht unterstützt.
- Der erste Container in Ihrer Anwendung erhält Zugriff auf die GPU.
IP-Adressen: Verbrauchs-GPUs verwenden eine IP-Adresse pro Replikat, wenn Sie die Integration in Ihr eigenes virtuelles Netzwerk einrichten.
Anfordern eines Kontingents an serverlosen GPUs
Der Zugriff auf dieses Feature ist nur verfügbar, nachdem Sie über ein Kontingent an serverlosen GPUs verfügen. Sie können Ihre GPU-Kontingentanforderung über einen Supportfall übermitteln. Wenn Sie einen Supportfall für eine GPU-Kontingentanforderung öffnen, wählen Sie den Problemtyp „Technisch“ aus.
Hinweis
Kunden mit Enterprise-Vereinbarungen verfügen standardmäßig über ein einzelnes aktiviertes T4-GPU-Kontingent.
Unterstützte Regionen
Serverlose GPUs sind als Vorschau in den Regionen USA, Westen 3 und Australien, Osten verfügbar.
Verwenden von serverlosen GPUs
Wenn Sie eine Container-App über das Azure-Portal erstellen, können Sie Ihren Container so einrichten, dass GPU-Ressourcen verwendet werden.
Legen Sie auf der Registerkarte Container des Erstellungsprozesses die folgenden Einstellungen fest:
Aktivieren Sie im Abschnitt Containerressourcenzuordnung das Kontrollkästchen GPU.
Wählen Sie für den GPU-Typ*entweder die NVIDIA A100- oder NVIDIA T4-Option aus.
Verwalten des Workloadprofils einer serverlosen GPU
Serverlose GPUs werden auf GPU-Workloadprofilen für den Verbrauch ausgeführt. Sie verwalten ein GPU-Workloadprofil für den Verbrauch auf die gleiche Weise wie jedes andere Workloadprofil. Sie können Ihr Workloadprofil über die CLI oder das Azure-Portal verwalten.
Verbessern des GPU-Kaltstarts
Sie können den Kaltstart in Ihren GPU-fähigen Containern verbessern, indem Sie das Artefaktstreaming für Ihre Azure Container Registry-Instanz aktivieren.
Hinweis
Um Artefaktstreaming zu verwenden, müssen Ihre Containerimages in Azure Container Registry gehostet sein.
Führen Sie die folgenden Schritte aus, um Imagestreaming zu aktivieren:
Öffnen Sie Ihre Azure Container Registry-Instanz im Azure-Portal.
Suchen Sie nach Repositorys, und wählen Sie Repositorys aus.
Wählen Sie Ihren Repositorynamen aus.
Wählen Sie im Fenster Repository die Option Artefaktstreaming starten aus.
Wählen Sie das Bildtag aus, das Sie streamen möchten.
Wählen Sie im Popupfenster Streamingartefakt erstellen aus.
Feedback übermitteln
Übermitteln Sie das Problem an das GitHub-Repository für Azure Container Apps.