Azure Well-Architected Framework-Perspektive auf Azure OpenAI-Dienst
Azure OpenAI Service bietet REST-API-Zugriff auf OpenAI-Große Sprachmodelle (LLMs) und fügt Azure-Netzwerk- und Sicherheitsfunktionen hinzu. Dieser Artikel enthält Architekturempfehlungen, die Ihnen helfen, fundierte Entscheidungen zu treffen, wenn Sie Azure OpenAI als Teil der Architektur Ihrer Workload verwenden. Die Anleitung basiert auf den Säulen des Azure Well-Architected Framework.
Wichtig
So verwenden Sie dieses Handbuch
Jeder Abschnitt verfügt über eine Entwurfsprüfliste , die architektonische Themenbereiche zusammen mit Designstrategien darstellt, die auf den Technologiebereich lokalisiert sind.
Außerdem sind Empfehlungen zu den Technologiefunktionen enthalten, die bei der Materialisierung dieser Strategien helfen können. Die Empfehlungen stellen keine vollständige Liste aller Konfigurationen dar, die für Azure OpenAI und deren Abhängigkeiten verfügbar sind. Stattdessen werden die wichtigsten Empfehlungen aufgelistet, die den Entwurfsperspektiven zugeordnet sind. Verwenden Sie die Empfehlungen, um Ihre Machbarkeitsstudie zu erstellen oder Ihre vorhandenen Umgebungen zu optimieren.
Grundlegende Architektur, die die wichtigsten Empfehlungen veranschaulicht: Baseline OpenAI End-to-End-Chat-Referenzarchitektur.
Technologieumfang
Diese Überprüfung konzentriert sich ausschließlich auf Azure OpenAI.
Zuverlässigkeit
Der Zweck der Zuverlässigkeitssäule besteht darin, eine kontinuierliche Funktionalität bereitzustellen, indem genügend Resilienz und die Fähigkeit zur schnellen Wiederherstellung von Fehlern erstellt werden.
Die Zuverlässigkeitsdesignprinzipien bieten eine allgemeine Designstrategie, die für einzelne Komponenten, Systemflüsse und das gesamte System angewendet wird.
Prüfliste für den Entwurf
Starten Sie Ihre Designstrategie basierend auf der Prüfliste für die Designüberprüfung für Zuverlässigkeit. Bestimmen Sie ihre Relevanz für Ihre Geschäftlichen Anforderungen. Erweitern Sie die Strategie, um bei Bedarf weitere Ansätze einzuschließen.
Resilienz: Wählen Sie die geeignete Bereitstellungsoption für "Pay-as-you-go" oder "Bereitgestellter Durchsatz" basierend auf Ihrem Anwendungsfall aus. Da die reservierte Kapazität die Resilienz erhöht, wählen Sie den bereitgestellten Durchsatz für Produktionslösungen aus. Der pay-as-you-go-Ansatz eignet sich ideal für Entwicklungs-/Testumgebungen.
Redundanz: Fügen Sie die entsprechenden Gateways vor Ihren Azure OpenAI-Bereitstellungen hinzu. Das Gateway muss über die Möglichkeit verfügen, vorübergehenden Fehlern wie Drosselung standzuhalten und auch an mehrere Azure OpenAI-Instanzen weiterzuleiten. Erwägen Sie das Routing an Instanzen in verschiedenen Regionen, um regionale Redundanzen zu erstellen.
Resilienz: Wenn Sie den bereitgestellten Durchsatz verwenden, sollten Sie auch eine pay-as-you-go-Instanz bereitstellen, um den Überlauf zu behandeln. Sie können Anrufe an die Pay-as-you-go-Instanz über Ihr Gateway weiterleiten, wenn Ihr bereitgestelltes Durchsatzmodell gedrosselt wird.
Resilienz: Überwachen Sie die Kapazitätsauslastung, um sicherzustellen, dass Sie keine Durchsatzgrenzwerte überschreiten. Überprüfen Sie die Kapazitätsauslastung regelmäßig, um eine genauere Prognose zu erzielen und Dienstunterbrechungen aufgrund von Kapazitätsbeschränkungen zu verhindern.
Resilienz: Befolgen Sie die Anleitungen für die Feinabstimmung mit großen Datendateien und importieren Sie die Daten aus einem Azure-Blobspeicher. Große Dateien, 100 MB oder größer, können beim Hochladen über mehrteilige Formulare instabil werden, da die Anforderungen atomar sind und nicht wiederholt oder fortgesetzt werden können.
Wiederherstellung: Definieren Sie eine Wiederherstellungsstrategie, die einen Wiederherstellungsplan für Modelle enthält, die optimiert sind, und für Schulungsdaten, die in Azure OpenAI hochgeladen wurden. Da Azure OpenAI kein automatisches Failover aufweist, müssen Sie eine Strategie entwerfen, die den gesamten Dienst und alle Abhängigkeiten umfasst, z. B. Speicher, der Schulungsdaten enthält.
Empfehlungen
Empfehlung | Vorteil |
---|---|
Überwachen Sie Die Tariflimits für Pay-as-you-go: Wenn Sie den Ansatz für Pay-as-you-go verwenden, verwalten Sie Die Ratengrenzwerte für Ihre Modellbereitstellungen und überwachen Sie die Nutzung von Token pro Minute (TPM) und Anforderungen pro Minute (RPM). | Diese wichtigen Durchsatzinformationen stellen Informationen bereit, die erforderlich sind, um sicherzustellen, dass Sie genügend TPM aus Ihrem Kontingent zuweisen, um die Anforderungen ihrer Bereitstellungen zu erfüllen. Durch das Zuweisen des Kontingents wird verhindert, dass Aufrufe an Ihre bereitgestellten Modelle gedrosselt werden. |
Überwachen sie die vom Bereitstellung verwaltete Auslastung für den bereitgestellten Durchsatz: Wenn Sie das bereitgestellte Durchsatzzahlungsmodell verwenden, überwachen Sie die bereitstellungsverwaltete Auslastung. | Es ist wichtig, die bereitstellungsverwaltete Nutzung zu überwachen, um sicherzustellen, dass sie 100 % nicht überschreitet, um die Drosselung von Anrufen an Ihre bereitgestellten Modelle zu verhindern. |
Aktivieren Sie das dynamische Kontingentfeature: Wenn Ihr Arbeitsauslastungsbudget es unterstützt, führen Sie eine Überprovision durch, indem Sie dynamisches Kontingent für Modellbereitstellungen aktivieren. | Das dynamische Kontingent ermöglicht es Ihrer Bereitstellung, mehr Kapazität zu verbrauchen als Ihr Kontingent normalerweise, solange es aus Azure-Sicht verfügbare Kapazität gibt. Zusätzliche Kontingentkapazität kann potenziell unerwünschte Drosselung verhindern. |
Optimieren Sie Inhaltsfilter: Optimieren Sie Inhaltsfilter, um falsch positive Ergebnisse von übermäßig aggressiven Filtern zu minimieren. | Inhaltsfilter blockieren Aufforderungen oder Fertigstellungen basierend auf einer undurchsichtigen Risikoanalyse. Stellen Sie sicher, dass Inhaltsfilter abgestimmt sind, um die erwartete Nutzung für Ihre Workload zu ermöglichen. |
Sicherheit
Der Zweck der Säule „Security“ besteht darin, Garantien für die Arbeitsauslastung für Vertraulichkeit, Integrität und Verfügbarkeit bereitzustellen.
Die Prinzipien des Sicherheitsdesigns stellen eine allgemeine Designstrategie für die Erreichung dieser Ziele bereit, indem Ansätze auf das technische Design rund um Azure OpenAI angewendet werden.
Prüfliste für den Entwurf
Starten Sie Ihre Designstrategie basierend auf der Prüfliste für die Designüberprüfung für Sicherheit und identifizieren Sie Sicherheitsrisiken und Kontrollen, um den Sicherheitsstatus zu verbessern. Überprüfen Sie dann die Azure-Sicherheitsbasislinie für Azure OpenAI. Erweitern Sie schließlich die Strategie, um bei Bedarf weitere Ansätze einzuschließen.
Schützen der Vertraulichkeit: Wenn Sie Trainingsdaten in Azure OpenAI hochladen, verwenden Sie vom Kunden verwalteten Schlüssel für die Datenverschlüsselung, implementieren Sie eine Schlüsselrotationsstrategie und Löschen Sie Trainings-, Validierungs- und Trainingsergebnisdaten. Wenn Sie einen externen Datenspeicher für Trainingsdaten verwenden, befolgen Sie die bewährten Sicherheitsmethoden für diesen Speicher. Verwenden Sie bei Azure Blob Storage z. B. vom Kunden verwaltete Schlüssel für die Verschlüsselung und implementieren Sie eine Schlüsselrotationsstrategie. Verwenden Sie verwalteten identitätsbasierten Zugriff, implementieren Sie einen Netzwerkperimeter mithilfe privater Endpunkte und aktivieren Sie Zugriffsprotokolle.
Schützen der Vertraulichkeit: Schützen sie vor Datenexfiltration, indem Sie die ausgehenden URLs einschränken, auf die Azure OpenAI-Ressourcen zugreifen können.
Schützen der Integrität: Implementieren Sie Zugriffssteuerungen, um den Benutzerzugriff auf das System zu authentifizieren und zu autorisieren, indem Sie das Prinzip der geringsten Rechte und die Verwendung einzelner Identitäten anstelle von Schlüsseln verwenden.
Schützen der Integrität: Implementieren Sie die Jailbreak-Risikoerkennung, um Ihre Sprachmodellbereitstellungen vor Einfügungsangriffen zu schützen.
Schützen der Verfügbarkeit: Verwenden Sie Sicherheitssteuerelemente, um Angriffe zu verhindern, welche die Nutzungskontingente des Modells ausschöpfen könnten. Sie können Steuerelemente konfigurieren, um den Dienst in einem Netzwerk zu isolieren. Wenn der Dienst über das Internet zugänglich sein muss, sollten Sie ein Gateway verwenden, um verdächtigen Missbrauch mithilfe von Routing oder Drosselung zu blockieren.
Empfehlungen
Empfehlung | Vorteil |
---|---|
Sichere Schlüssel: Wenn Ihre Architektur die schlüsselbasierte Azure OpenAI-Authentifizierung erfordert, speichern Sie diese Schlüssel im Azure Key Vault, nicht im Anwendungscode. | Das Trennen von Geheimschlüsseln vom Code durch Speichern in Key Vault reduziert die Wahrscheinlichkeit, geheime Schlüssel zu lecken. Die Trennung erleichtert auch die zentrale Verwaltung von Geheimnissen, was Verantwortlichkeiten wie die Schlüsselrotation erleichtert. |
Beschränken des Zugriffs: Deaktivieren Sie den öffentlichen Zugriff auf Azure OpenAI, es sei denn, Ihre Workload erfordert ihn. Erstellen Sie private Endpunkte, wenn Sie eine Verbindung mit Verbrauchern in einem virtuellen Azure-Netzwerk herstellen. | Durch die Steuerung des Zugriffs auf Azure OpenAI können Angriffe von nicht autorisierten Benutzern verhindert werden. Durch die Verwendung privater Endpunkte wird sichergestellt, dass der Netzwerkdatenverkehr zwischen der Anwendung und der Plattform privat bleibt. |
Microsoft Entra ID: Verwenden Sie Microsoft Entra ID für die Authentifizierung und zum Autorisieren des Zugriffs auf Azure OpenAI mithilfe der rollenbasierten Zugriffssteuerung (RBAC). Deaktivieren Sie die lokale Authentifizierung in Azure KI Services und legen Sie disableLocalAuth auf true fest. Gewähren Sie Identitäten, welche Vervollständigung und Image-Generation durchführen, die Rolle Cognitive Services OpenAI User. Gewähren sie Modellautomatisierungspipelines und Ad-hoc-Data-Science Zugriff auf eine Rolle wie Cognitive Services OpenAI Contributor. |
Die Verwendung von Microsoft Entra ID zentralisiert die Identitätsverwaltungskomponente und beseitigt die Verwendung von API-Schlüsseln. Durch die Verwendung von RBAC mit Microsoft Entra ID wird sichergestellt, dass Benutzer oder Gruppen genau über die Berechtigungen verfügen, die sie für ihre Arbeit benötigen. Diese Art von feinkörniger Zugriffssteuerung ist mit Azure OpenAI-API-Schlüsseln nicht möglich. |
Verwenden kundenseitig verwalteter Schlüssel: Verwenden Sie vom Kunden verwaltete Schlüssel für fein abgestimmte Modelle und Trainingsdaten, die in Azure OpenAI hochgeladen werden. | Die Verwendung von kundenseitig verwalteten Schlüsseln bietet größere Flexibilität beim Erstellen, Rotieren, Deaktivieren und Widerrufen von Zugriffssteuerungen. |
Schutz vor Jailbreak-Angriffen: Verwenden Sie das Azure KI Inhaltssicherheitsstudio, um Jailbreak-Risiken zu erkennen. | Erkennen Sie Jailbreak-Versuche zur Identifizierung und blockieren Sie Eingabeaufforderungen, die versuchen, die Sicherheitsmechanismen Ihrer Azure OpenAI-Bereitstellungen zu umgehen. |
Kostenoptimierung
Die Kostenoptimierung konzentriert sich auf das Erkennen von Ausgabenmustern, das Priorisieren von Investitionen in kritische Bereiche und die Optimierung in anderen Bereichen, um das Budget der Organisation zu erfüllen, während die Geschäftsanforderungen erfüllt werden.
Lesen Sie die Entwurfsprinzipien für die Kostenoptimierung, um mehr über Ansätze zur Erreichung dieser Ziele und die in den technischen Designentscheidungen im Zusammenhang mit Azure OpenAI erforderlichen Kompromisse zu erfahren.
Prüfliste für den Entwurf
Starten Sie Ihre Designstrategie basierend auf der Prüfliste für die Entwurfsüberprüfung für Kostenoptimierung für Investitionen. Optimieren Sie den Entwurf so, dass die Arbeitsauslastung mit dem zugewiesenen Budget übereinstimmt. Ihr Design sollte die entsprechenden Azure-Funktionen verwenden, Investitionen überwachen und Möglichkeiten zur Optimierung im Laufe der Zeit finden.
Kostenmanagement: Entwickeln Sie Ihr Kostenmodell unter Berücksichtigung von Promptgrößen. Wenn Sie die Eingabe- und Antwortgrößen von Aufforderungen verstehen und wie Text in Token übersetzt wird, können Sie ein lebensfähiges Kostenmodell erstellen.
Nutzungsoptimierung: Beginnen Sie mit den Pay-as-you-go-Preisen für Azure OpenAI, bis Ihre Tokennutzung vorhersehbar ist.
Ratenoptimierung: Wenn Ihre Tokennutzung über einen bestimmten Zeitraum ausreichend hoch und vorhersehbar ist, verwenden Sie das bereitgestellte Preismodell für den Durchsatz für eine bessere Kostenoptimierung.
Nutzungsoptimierung: Berücksichtigen Sie die Modellpreise und -funktionen, wenn Sie Modelle auswählen. Beginnen Sie mit weniger kostspieligen Modellen für weniger komplexe Aufgaben wie textgenerierung oder Abschlussaufgaben. Für komplexere Aufgaben wie Sprachübersetzung oder Inhaltsverständnis sollten Sie die Verwendung komplexerer Modelle in Betracht ziehen. Berücksichtigen Sie unterschiedliche Modellfunktionen und maximale Grenzwerte für die Tokennutzung, wenn Sie ein Modell auswählen, das für Anwendungsfälle wie Einbetten von Text, Bildgenerierung oder Transkriptionsszenarien geeignet ist. Indem Sie das Modell sorgfältig auswählen, das Ihren Anforderungen am besten entspricht, können Sie die Kosten optimieren und gleichzeitig die gewünschte Anwendungsleistung erzielen.
Verwendungsoptimierung: Verwenden Sie die von den API-Aufrufen angebotenen einschränkungen, z
max_tokens
. B. undn
geben die Anzahl der zu generierenden Fertigstellungen an.Nutzungsoptimierung: Maximieren Sie Azure OpenAI-Preis-Breakpoints, z. B. Feinabstimmungen und Modell-Haltepunkte wie die Bildgenerierung. Da die Feinabstimmung pro Stunde berechnet wird, verwenden Sie so viel Zeit, wie Sie pro Stunde verfügbar sind, um Feinabstimmungsergebnisse zu verbessern, ohne in den nächsten Abrechnungszeitraum zu wechseln. Ebenso entspricht die Kosten für die Generierung von 100 Bildern den Kosten für 1 Bild. Maximieren Sie Preisunterbrechungen zu Ihrem Vorteil.
Nutzungsoptimierung: Entfernen Sie nicht verwendete fein abgestimmte Modelle, wenn sie nicht mehr verbraucht werden, um eine laufende Hostinggebühr zu vermeiden.
Anpassen der Verwendung: Optimieren Sie die Eingabe- und Antwortlänge der Eingabeaufforderung. Längere Aufforderungen erhöhen die Kosten, indem mehr Token verbraucht werden. Aufforderungen, bei denen ausreichender Kontext fehlt, helfen den Modellen jedoch nicht, gute Ergebnisse zu erzielen. Erstellen Sie präzise Eingabeaufforderungen, die genügend Kontext für das Modell bereitstellen, um eine nützliche Antwort zu generieren. Stellen Sie außerdem sicher, dass Sie den Grenzwert der Antwortlänge optimieren.
Kosteneffizienz: Batchanforderungen, soweit möglich, um den Kostenaufwand pro Anruf zu minimieren, wodurch die Gesamtkosten reduziert werden können. Stellen Sie sicher, dass Sie die Batchgröße optimieren.
Kosteneffizienz: Da Modelle unterschiedliche Feinabstimmungskosten haben, sollten Sie diese Kosten berücksichtigen, wenn Ihre Lösung Feinabstimmungen erfordert.
Überwachen und Optimieren: Richten Sie ein Kostenverfolgungssystem ein, das die Modellnutzung überwacht. Verwenden Sie diese Informationen, um Modellauswahlen und Aufforderungsgrößen zu informieren.
Empfehlungen
Empfehlung | Vorteil |
---|---|
Entwerfen Sie Clientcode zum Festlegen von Grenzwerten: Ihre benutzerdefinierten Clients sollten die Begrenzungsfeatures der Azure OpenAI-Abschluss-API verwenden, z. B. die maximale Anzahl von Token pro Modell (max_tokens ) oder die Anzahl der Fertigstellungen bis zur Generierung (n ). Durch Festlegen von Grenzwerten wird sichergestellt, dass der Server nicht mehr als die Clientanforderungen erzeugt. |
Die Verwendung von API-Features zum Einschränken der Verwendung richtet den Dienstverbrauch an die Clientanforderungen aus. Dies spart Geld, indem sichergestellt wird, dass das Modell keine übermäßig lange Antwort generiert, die mehr Token verbraucht als nötig. |
Überwachen Sie die Nutzung von Pay-as-you-go: Wenn Sie den Pay-as-you-go-Ansatz verwenden, überwachen Sie die Nutzung von TPM und RPM. Verwenden Sie diese Informationen, um Architekturdesignentscheidungen zu informieren, z. B. welche Modelle verwendet werden sollen, und um die Größe der Aufforderungen zu optimieren. | Die kontinuierliche Überwachung von TPM und RPM bietet Ihnen relevante Metriken, um die Kosten von Azure OpenAI-Modellen zu optimieren. Sie können diese Überwachung mit Modellfeatures und Modellpreisen koppeln, um die Modellnutzung zu optimieren. Sie können diese Überwachung auch verwenden, um die Größe von Aufforderungen zu optimieren. |
Überwachen Sie die bereitgestellte Durchsatznutzung: Wenn Sie den bereitgestellten Durchsatz verwenden, überwachen Sie die bereitstellungsverwaltete Auslastung, um sicherzustellen, dass Sie den bereitgestellten Durchsatz, den Sie erworben haben, nicht unterlasten. | Die kontinuierliche Überwachung der bereitstellungsverwalteten Auslastung bietet Ihnen die Informationen, die Sie verstehen müssen, wenn Sie den bereitgestellten Durchsatz nicht verwenden. |
Kostenmanagement: Verwenden Sie Kostenverwaltungsfeatures mit OpenAI , um Kosten zu überwachen, Budgets für die Kostenverwaltung festzulegen und Warnungen zu erstellen, um die Beteiligten über Risiken oder Anomalien zu informieren. | Die Kostenüberwachung, das Festlegen von Budgets und das Festlegen von Warnungen bieten Governance mit den entsprechenden Rechenschaftspflichtsprozessen. |
Optimaler Betrieb
Operational Excellence konzentriert sich in erster Linie auf Verfahren für Entwicklungspraktiken, Observability und Release Management.
Die Designprinzipien der Operational Excellence bieten eine allgemeine Entwurfsstrategie zur Erreichung dieser Ziele für die betrieblichen Anforderungen der Arbeitsauslastung.
Prüfliste für den Entwurf
Starten Sie Ihre Designstrategie basierend auf der Prüfliste für die Designüberprüfung für Operational Excellence. Diese Prüfliste definiert Prozesse für Observability, Tests und Bereitstellungen im Zusammenhang mit Azure OpenAI.
Azure DevOps-Kultur: Stellen Sie die Bereitstellung von Azure OpenAI-Instanzen in Ihren verschiedenen Umgebungen sicher, z. B. Entwicklung, Test und Produktion. Stellen Sie sicher, dass Sie über Umgebungen verfügen, um kontinuierliches Lernen und Experimentieren während des gesamten Entwicklungszyklus zu unterstützen.
Observability: Überwachen, Aggregieren und Visualisieren geeigneter Metriken.
Observability: Wenn die Azure OpenAI-Diagnose für Ihre Anforderungen nicht ausreicht, sollten Sie ein Gateway wie Azure API Management vor Azure OpenAI verwenden, um eingehende Eingabeaufforderungen und ausgehende Antworten, sofern zulässig, zu protokollieren. Diese Informationen können Ihnen helfen, die Effektivität des Modells für eingehende Eingabeaufforderungen zu verstehen.
Bereitstellen mit Vertrauen: Verwenden Sie die Infrastruktur als Code (IaC), um Azure OpenAI, Modellbereitstellungen und andere Infrastruktur bereitzustellen, die für Feinabstimmungsmodelle erforderlich sind.
Bereitstellen mit Vertrauen: Folgen Sie den Methoden für großsprachliche Modellvorgänge (LLMOps), um die Verwaltung Ihrer Azure OpenAI-LLMs zu operationalisieren, einschließlich Bereitstellung, Feinabstimmung und Prompt Engineering.
Automatisieren Sie die Effizienz: Wenn Sie die schlüsselbasierte Authentifizierung verwenden, implementieren Sie eine automatisierte Schlüsseldrehungsstrategie.
Empfehlungen
Empfehlung | Vorteil |
---|---|
Aktivieren und konfigurieren Sie Azure-Diagnose: Aktivieren und Konfigurieren der Diagnose für den Azure OpenAI-Dienst. | Die Diagnose sammelt und analysiert Metriken und Protokolle und hilft Ihnen dabei, die Verfügbarkeit, Leistung und den Betrieb von Azure OpenAI zu überwachen. |
Effiziente Leistung
Die Leistungseffizienz geht es darum , die Benutzererfahrung auch dann aufrechtzuerhalten, wenn die Auslastung durch die Verwaltung der Kapazität erhöht wird. Die Strategie umfasst die Skalierung von Ressourcen, das Identifizieren und Optimieren potenzieller Engpässe und die Optimierung der Spitzenleistung.
Die Designprinzipien für die Leistungseffizienz bieten eine allgemeine Entwurfsstrategie, um diese Kapazitätsziele gegen die erwartete Nutzung zu erreichen.
Prüfliste für den Entwurf
Starten Sie Ihre Designstrategie basierend auf der Prüfliste für die Entwurfsüberprüfung für die Leistungseffizienz , um einen Basisplan basierend auf wichtigen Leistungsindikatoren für Azure OpenAI-Workloads zu definieren.
Kapazität: Schätzen der Flexibilitätsanforderungen der Verbraucher. Identifizieren Sie Datenverkehr mit hoher Priorität, der synchrone Antworten und Datenverkehr mit niedriger Priorität erfordert, die asynchron und batched sein können.
Kapazität: Benchmark-Tokenverbrauchsanforderungen basierend auf geschätzten Anforderungen von Verbrauchern. Erwägen Sie die Verwendung des Azure OpenAI-Benchmarking-Tools , um den Durchsatz zu überprüfen, wenn Sie bereitgestellte Durchsatzeinheiten (PTU)-Bereitstellungen verwenden.
Kapazität: Verwenden Sie den bereitgestellten Durchsatz für Produktionsworkloads. Der bereitgestellte Durchsatz bietet dedizierten Arbeitsspeicher und Compute, reservierte Kapazität und konsistente maximale Latenz für die angegebene Modellversion. Das pay-as-you-go-Angebot kann unter lauten Nachbarproblemen wie erhöhter Latenz und Drosselung in Regionen unter starker Nutzung leiden. Außerdem bietet der pay-as-you-go-Ansatz keine garantierte Kapazität.
Kapazität: Fügen Sie die entsprechenden Gateways vor Ihren Azure OpenAI-Bereitstellungen hinzu. Stellen Sie sicher, dass das Gateway an mehrere Instanzen in denselben oder verschiedenen Regionen weiterleiten kann.
Kapazität: Weisen Sie PTUs zu, um Ihre vorhergesagte Nutzung abzudecken, und ergänzen Sie diese PTUs durch eine TPM-Bereitstellung, um die Flexibilität über diesem Grenzwert zu bewältigen. Dieser Ansatz kombiniert den Basisdurchsatz mit dem elastischen Durchsatz zur Effizienz. Wie andere Überlegungen erfordert dieser Ansatz eine benutzerdefinierte Gatewayimplementierung, um Anforderungen an die TPM-Bereitstellung weiterzuleiten, wenn die PTU-Grenzwerte erreicht werden.
Kapazität: Synchrones Senden von Anforderungen mit hoher Priorität. Anforderungen mit niedriger Priorität in der Warteschlange und Senden in Batches, wenn die Nachfrage niedrig ist.
Kapazität: Wählen Sie ein Modell aus, das ihren Leistungsanforderungen entspricht, und berücksichtigen Sie dabei den Kompromiss zwischen Geschwindigkeit und Ausgabekomplexität. Die Modellleistung kann je nach ausgewähltem Modelltyp erheblich variieren. Modelle, die für die Geschwindigkeit entwickelt wurden, bieten schnellere Reaktionszeiten, was für Anwendungen nützlich sein kann, die schnelle Interaktionen erfordern. Umgekehrt können anspruchsvollere Modelle auf Kosten erhöhter Reaktionszeiten qualitativ hochwertigere Ausgaben liefern.
Leistung erzielen: Für Anwendungen wie Chatbots oder Unterhaltungsschnittstellen sollten Sie Streaming implementieren. Streaming kann die wahrgenommene Leistung von Azure OpenAI-Anwendungen verbessern, indem sie Antworten auf benutzer inkrementelle Weise bereitstellen und die Benutzererfahrung verbessern.
Leistung erzielen: Bestimmen Sie, wann Sie Feinabstimmungen verwenden sollen, bevor Sie sich zur Feinabstimmung verpflichten. Obwohl es gute Anwendungsfälle für Feinabstimmungen gibt, z. B. wenn die informationen, die zum Steuern des Modells erforderlich sind, zu lang oder komplex sind, um in die Eingabeaufforderung zu passen, stellen Sie sicher, dass prompt engineering and retrieval-augmented generation (RAG)-Ansätze nicht funktionieren oder nachweislich teurer sind.
Leistung erzielen: Erwägen Sie die Verwendung dedizierter Modellbereitstellungen pro Verbrauchergruppe, um eine Isolation pro Modell bereitzustellen, die dazu beitragen kann, laute Nachbarn zwischen Ihren Consumergruppen zu verhindern.
Empfehlungen
Es gibt keine empfohlenen Konfigurationen für die Leistungseffizienz für Azure OpenAI.
Azure Policy
Azure bietet einen umfassenden Satz integrierter Richtlinien im Zusammenhang mit Azure OpenAI und seinen Abhängigkeiten. Einige der vorstehenden Empfehlungen können über Azure-Richtlinie überwacht werden. Berücksichtigen Sie die folgenden Richtliniendefinitionen:
- Tastenzugriff deaktivieren
- Einschränken des Netzwerkzugriffs
- Deaktivieren des Zugriffs auf das öffentliche Netzwerk
- Verwenden des privaten Azure-Links
- Aktivieren der Datenverschlüsselung mit vom Kunden verwalteten Schlüsseln
Diese Azure-Richtliniendefinitionen sind auch Empfehlungen für bewährte Methoden für die Sicherheit von Azure Advisor für Azure OpenAI.
Nächste Schritte
Betrachten Sie die folgenden Artikel als Ressourcen, die die in diesem Artikel hervorgehobenen Empfehlungen veranschaulichen.
- Verwenden Sie diese Referenzarchitektur als Beispiel dafür, wie Sie den Leitfaden dieses Artikels auf eine Workload anwenden können: Baseline OpenAI End-to-End-Chat-Referenzarchitektur.
- Erstellen Sie Die Implementierungskompetenz mithilfe der Produktdokumentation für Azure Machine Learning .