Migrowanie zoptymalizowanych punktów końcowych usługi LLM do zarezerwowanej przepustowości

Artykuł
01/21/2025

Ważny

Ta dokumentacja została wycofana i może nie zostać zaktualizowana. Produkty, usługi lub technologie wymienione w tej zawartości nie są już obsługiwane.

W tym artykule opisano sposób migrowania istniejących punktów końcowych usługi LLM do aprowizowanej przepływności środowiska dostępnego przy użyciu interfejsów API modelu Foundation.

Co się zmienia?

Aprowizowana przepływność zapewnia prostsze środowisko uruchamiania zoptymalizowanych punktów końcowych obsługujących usługę LLM. Usługa Databricks zmodyfikowała system obsługi modelu LLM, tak aby:

Zakresy skalowania poziomego można skonfigurować w natywnych jednostkach LLM, takich jak tokeny na sekundę zamiast współbieżności.
Klienci nie muszą już wybierać typów obciążeń dla procesora graficznego.

Nowe punkty końcowe obsługujące usługę LLM są domyślnie tworzone z aprowizowaną przepływnością. Jeśli chcesz kontynuować wybór typu obciążenia GPU, to środowisko jest obsługiwane wyłącznie przez API.

Migrowanie punktów końcowych usługi LLM do przydzielonej przepustowości

Najprostszym sposobem migracji istniejącego punktu końcowego do aprowizowanej przepływności jest zaktualizowanie punktu końcowego przy użyciu nowej wersji modelu. Po wybraniu nowej wersji modelu interfejs użytkownika wyświetla doświadczenie dla zarezerwowanej przepustowości. Interfejs użytkownika pokazuje zakres tokenów na sekundę na podstawie testów porównawczych Databricks dla typowych przypadków użycia.

ustalona przepustowość obsługi LLM

Wydajność dzięki tej zaktualizowanej ofercie jest ściśle lepsza z powodu ulepszeń optymalizacji, a cena punktu końcowego pozostaje niezmieniona. Skontaktuj się z model-serving-feedback@databricks.com, aby uzyskać opinie lub obawy dotyczące produktu.

Udostępnij za pośrednictwem

Migrowanie zoptymalizowanych punktów końcowych usługi LLM do zarezerwowanej przepustowości

Co się zmienia?

Migrowanie punktów końcowych usługi LLM do przydzielonej przepustowości

Opinia

Dodatkowe zasoby