Migrieren optimierter LLM-Bereitstellungsendpunkte zum bereitgestellten Durchsatz
Wichtig
Diese Dokumentation wurde eingestellt und kann nicht aktualisiert werden. Die in diesem Inhalt genannten Produkte, Dienste oder Technologien werden nicht mehr unterstützt.
In diesem Artikel wird beschrieben, wie Sie Ihre vorhandenen LLM-Bereitstellungsendpunkte zur Bereitstellung mit bereitgestelltem Durchsatz mithilfe der Foundation Model-APIs migrieren.
Was ändert sich?
Der bereitgestellte Durchsatz bietet eine einfachere Benutzeroberfläche für das Starten optimierter LLM-Dienstendpunkte. Databricks hat ihr LLM-Modell-Dienstsystem so geändert, dass:
- Skalierungsbereiche können in LLM-nativen Ausdrücken konfiguriert werden, z. B. Token pro Sekunde anstelle der Parallelität.
- Kunden müssen keine GPU-Workloadtypen mehr selbst auswählen.
Neue LLM-Dienstendpunkte werden standardmäßig mit bereitgestelltem Durchsatz erstellt. Wenn Sie den GPU-Workloadtyp weiterhin auswählen möchten, wird diese Funktion nur über die API unterstützt.
Migrieren von LLM-Bereitstellungsendpunkten zum bereitgestellten Durchsatz
Die einfachste Möglichkeit zum Migrieren Ihres vorhandenen Endpunkts zum bereitgestellten Durchsatz besteht darin, Ihren Endpunkt mit einer neuen Modellversion zu aktualisieren. Nachdem Sie eine neue Modellversion ausgewählt haben, zeigt die Benutzeroberfläche die Erfahrung für den bereitgestellten Durchsatz an. Die Benutzeroberfläche zeigt Bereiche von Token pro Sekunde basierend auf Databricks-Benchmarking für typische Anwendungsfälle an.
Die Leistung mit diesem aktualisierten Angebot ist aufgrund von Optimierungsverbesserungen streng besser, und der Preis für Ihren Endpunkt bleibt unverändert. Wenden Sie sich an model-serving-feedback@databricks.com
für Produktfeedback oder Bedenken.