Bereitstellungstypen in Azure KI-Modellinferenz
Die Azure KI-Modellinferenz in Azure KI Services bietet Kunden Auswahlmöglichkeiten in der Hostingstruktur, die ihren Geschäfts- und Verbrauchsmustern entspricht. Der Dienst bietet zwei Haupttypen der Bereitstellung: Standard und Bereitgestellt. Standard wird mit einer globalen Bereitstellungsoption angeboten und leitet den Datenverkehr global weiter, um einen höheren Durchsatz zu bieten. Bereitgestellt wird ebenfalls mit einer globalen Bereitstellungsoption angeboten, sodass Kunden bereitgestellte Durchsatzeinheiten in der globalen Azure-Infrastruktur erwerben und bereitstellen können.
Alle Bereitstellungen können dieselben Rückschlussvorgänge ausführen, Abrechnung, Skalierung und Leistung unterscheiden sich jedoch erheblich. Im Rahmen Ihres Lösungsdesigns müssen Sie zwei wichtige Entscheidungen treffen:
- Anforderungen an die Datenresidenz: globale oder regionale Ressourcen
- Aufrufvolumen: Standard oder bereitgestellt
Der Support für Bereitstellungstypen variiert je nach Modell und Modellanbieter.
Globale oder regionale Bereitstellungstypen
Für Standard- und bereitgestellte Bereitstellungen können Sie zwei Arten von Konfigurationen innerhalb Ihrer Ressource verwenden: global oder regional. Der globale Standard ist der empfohlene Ausgangspunkt.
Globale Bereitstellungen verwenden die globale Infrastruktur von Azure und leiten den Kundendatenverkehr dynamisch an das Rechenzentrum weiter, das die beste Verfügbarkeit für die Rückschlussanforderungen des Kunden bietet. Dies bedeutet, dass Sie mit Global die höchsten Grenzwerte für den anfänglichen Durchsatz und die beste Modellverfügbarkeit erhalten, während wir Ihnen weiterhin unsere Uptime-SLA und niedrige Latenz bieten. Bei Workloads mit hohem Volumen, die über die angegebenen Nutzungsebenen von Standard und Global Standard hinausgehen, können erhöhte Latenzschwankungen auftreten. Für Kunden, die die geringere Wartezeitvarianz bei einer hohen Workloadnutzung erfordern, empfehlen wir den Kauf des bereitgestellten Durchsatzes.
Unsere globalen Bereitstellungen sind der erste Ort für alle neuen Modelle und Features. Kunden mit sehr großen Durchsatzanforderungen sollten unser bereitgestelltes Bereitstellungsangebot erwägen.
Standard
Standardbereitstellungen bieten ein Abrechnungsmodell für die Bezahlung pro Aufruf für das ausgewählte Modell. Bietet die schnellste Möglichkeit loszulegen, da Sie nur für das bezahlen, was Sie verbrauchen. Modelle, die in den einzelnen Regionen verfügbar sind, sowie der Durchsatz können beschränkt sein.
Standardbereitstellungen sind für Workloads mit geringem bis mittlerem Volumen mit hoher Burstartigkeit optimiert. Kunden mit hohem konsistenten Volumen können eine größere Variabilität bei der Wartezeit erleben.
Nur Azure OpenAI-Modelle unterstützen diesen Bereitstellungstyp.
Globaler Standard
Globale Bereitstellungen stehen in denselben Azure KI Services-Ressourcen zur Verfügung wie nicht globale Bereitstellungstypen, ermöglichen es Ihnen jedoch, die globale Infrastruktur von Azure zu verwenden, um den Datenverkehr für jede Anforderung dynamisch an das Rechenzentrum mit der besten Verfügbarkeit weiterzuleiten. Der globale Standard stellt das höchste Standardkontingent bereit und beseitigt die Notwendigkeit des Lastenausgleichs über mehrere Ressourcen hinweg.
Kunden mit hohem konsistenten Volumen können eine größere Variabilität bei der Wartezeit erleben. Der Schwellenwert wird pro Modell festgelegt. Für Kunden, die eine tiefere Latenzvarianz bei einer hohen Workloadnutzung benötigen, empfehlen wir den Kauf des bereitgestellten Durchsatzes, sofern verfügbar.
Global bereitgestellt
Globale Bereitstellungen stehen in denselben Azure KI Services-Ressourcen zur Verfügung wie nicht globale Bereitstellungstypen, ermöglichen es Ihnen jedoch, die globale Infrastruktur von Azure zu nutzen, um den Datenverkehr für jede Anforderung dynamisch an das Rechenzentrum mit der besten Verfügbarkeit weiterzuleiten. Globale bereitgestellte Bereitstellungen bieten reservierte Modellverarbeitungskapazität für hohen und vorhersehbaren Durchsatz mithilfe der globalen Azure-Infrastruktur.
Nur Azure OpenAI-Modelle unterstützen diesen Bereitstellungstyp.