Migrowanie zoptymalizowanych punktów końcowych usługi LLM do zarezerwowanej przepustowości
Ważny
Ta dokumentacja została wycofana i może nie zostać zaktualizowana. Produkty, usługi lub technologie wymienione w tej zawartości nie są już obsługiwane.
W tym artykule opisano sposób migrowania istniejących punktów końcowych usługi LLM do aprowizowanej przepływności środowiska dostępnego przy użyciu interfejsów API modelu Foundation.
Co się zmienia?
Aprowizowana przepływność zapewnia prostsze środowisko uruchamiania zoptymalizowanych punktów końcowych obsługujących usługę LLM. Usługa Databricks zmodyfikowała system obsługi modelu LLM, tak aby:
- Zakresy skalowania poziomego można skonfigurować w natywnych jednostkach LLM, takich jak tokeny na sekundę zamiast współbieżności.
- Klienci nie muszą już wybierać typów obciążeń dla procesora graficznego.
Nowe punkty końcowe obsługujące usługę LLM są domyślnie tworzone z aprowizowaną przepływnością. Jeśli chcesz kontynuować wybór typu obciążenia GPU, to środowisko jest obsługiwane wyłącznie przez API.
Migrowanie punktów końcowych usługi LLM do przydzielonej przepustowości
Najprostszym sposobem migracji istniejącego punktu końcowego do aprowizowanej przepływności jest zaktualizowanie punktu końcowego przy użyciu nowej wersji modelu. Po wybraniu nowej wersji modelu interfejs użytkownika wyświetla doświadczenie dla zarezerwowanej przepustowości. Interfejs użytkownika pokazuje zakres tokenów na sekundę na podstawie testów porównawczych Databricks dla typowych przypadków użycia.
Wydajność dzięki tej zaktualizowanej ofercie jest ściśle lepsza z powodu ulepszeń optymalizacji, a cena punktu końcowego pozostaje niezmieniona. Skontaktuj się z model-serving-feedback@databricks.com
, aby uzyskać opinie lub obawy dotyczące produktu.