Limity i regiony obsługi modelu

Artykuł
01/30/2025

W tym artykule przedstawiono podsumowanie ograniczeń i dostępności regionów dla funkcji Obsługi modelu sztucznej inteligencji mozaiki i obsługiwanych typów punktów końcowych.

Limity zasobów i ładunków

Obsługa modelu mozaiki sztucznej inteligencji nakłada domyślne limity, aby zapewnić niezawodną wydajność. Jeśli masz opinię na temat tych limitów, skontaktuj się z zespołem ds. kont usługi Databricks.

W poniższej tabeli przedstawiono podsumowanie ograniczeń zasobów i ładunków dla punktów końcowych obsługujących model.

Funkcja	Poziom szczegółowości	Limit
Rozmiar ładunku	Na żądanie	16 MB. W przypadku punktów końcowych obsługujących modele podstawowe modeli zewnętrznychlub agentów sztucznej inteligencji limit wynosi 4 MB.
Rozmiar żądania/odpowiedzi	Na żądanie	Żadne żądanie/odpowiedź w ciągu 1 MB nie zostaną zarejestrowane.
Zapytania na sekundę (QPS)	Na obszar roboczy	200, ale można zwiększyć do 25 000 lub więcej, docierając do zespołu konta usługi Databricks.
Czas trwania wykonywania modelu	Na żądanie	120 sekund
Użycie pamięci modelu punktu końcowego procesora CPU	Na punkt końcowy	4 GB
Użycie pamięci modelu punktu końcowego procesora GPU	Na punkt końcowy	Większe niż lub równe przypisanej pamięci procesora GPU zależy od rozmiaru obciążenia procesora GPU
Aprowizowana współbieżność	Na model i na obszar roboczy	200 współbieżność. Można zwiększyć, wychodząc do zespołu ds. kont usługi Databricks.
Opóźnienie związane z obciążeniem	Na żądanie	Mniej niż 50 milisekund
Skrypty init		Skrypty inicjowania nie są obsługiwane.
Limity stawek modelu foundation (pay-per-token)	Na obszar roboczy	Jeśli następujące limity nie są wystarczające dla twojego przypadku użycia, usługa Databricks zaleca użycie aprowizowanej przepływności. - Llama 3.3 70B Instrukcja ma limit 2 zapytania na sekundę i 1200 zapytań na godzinę. - Llama 3.1 405B Instruct ma limit 1 zapytanie na sekundę i 1200 zapytań na godzinę. - Model DBRX Instruct ma limit 1 zapytanie na sekundę. - Mixtral-8x 7B Instruct ma domyślny limit szybkości 2 zapytań na sekundę. - GtE Large (En) ma limit szybkości wynoszący 150 zapytań na sekundę — BGE Large (en) ma limit szybkości wynoszący 600 zapytań na sekundę.
Limity szybkości interfejsów API modelu foundation (aprowizowana przepływność)	Na obszar roboczy	200

Ograniczenia dotyczące sieci i zabezpieczeń

Punkty końcowe obsługujące model są chronione przez kontrolę dostępu i przestrzeganie reguł ruchu przychodzącego związanych z siecią skonfigurowanych w obszarze roboczym, takich jak listy dozwolonych adresów IP i usługa Private Link.
Łączność prywatna (taka jak usługa Azure Private Link) jest obsługiwana tylko w przypadku punktów końcowych obsługujących model korzystających z aprowizowanej przepływności lub punktów końcowych obsługujących modele niestandardowe.
Domyślnie obsługa modelu nie obsługuje usługi Private Link do zewnętrznych punktów końcowych (takich jak Azure OpenAI). Obsługa tej funkcji jest oceniana i implementowana w poszczególnych regionach. Skontaktuj się z zespołem kont usługi Azure Databricks, aby uzyskać więcej informacji.
Obsługa modelu nie zapewnia poprawek zabezpieczeń istniejących obrazów modelu ze względu na ryzyko destabilizacji wdrożeń produkcyjnych. Nowy obraz modelu utworzony na podstawie nowej wersji modelu będzie zawierać najnowsze poprawki. Skontaktuj się z zespołem kont usługi Databricks, aby uzyskać więcej informacji.

Limity interfejsów API modelu foundation

Uwaga

W ramach udostępniania interfejsów API modelu Foundation, Databricks może przetwarzać Twoje dane poza regionem i dostawcą chmury, z którego pochodzą.

Uwaga

W ramach udostępniania interfejsów API modelu bazowego Databricks może przetwarzać dane poza regionem, z którego pochodzą dane, ale nie poza odpowiedniej lokalizacji geograficznej .

W przypadku obciążeń z płatnością za token i aprowizowaną przepływnością:

Tylko administratorzy obszarów roboczych mogą zmieniać ustawienia ładu, takie jak limity szybkości dla punktów końcowych interfejsów API modelu foundation. Aby zmienić limity szybkości, wykonaj następujące czynności:
1. Otwórz interfejs użytkownika obsługującego w obszarze roboczym, aby wyświetlić punkty końcowe obsługujące.
2. Z menu kebab na końcówce interfejsów API modelu Foundation, który chcesz edytować, wybierz pozycję Wyświetl szczegóły.
3. W menu kebab w prawym górnym rogu strony szczegółów punktów końcowych wybierz pozycję Zmień limit szybkości.
Modele osadzania GTE Large (En) nie generują znormalizowanych osadzania.

Limity płatności za token

Poniżej przedstawiono limity istotne dla interfejsów API modelu foundation dla obciążeń z płatnością za token :

Obciążenia z płatnością za token nie są zgodne ze standardem HIPAA ani profilem zabezpieczeń zgodności.
Meta Llama 3.3 70B i GTE Large (En) modele są dostępne w regionach z płatnością za token UE i USA obsługiwanych.
Następujące modele płatności za token są obsługiwane tylko w interfejsach API modelu foundation pay-per-token obsługiwanych w regionach USA:
- Meta Llama 3.1 405B Poinstruowanie
- DBRX Poinstruowanie
- Mixtral-8x7B Poinstruowanie
- Duży BGE (en)
Jeśli obszar roboczy znajduje się w regionie obsługa modelu, ale nie w regionie USA lub UE, obszar roboczy musi być włączony na potrzeby przetwarzania danych między obszarami geograficznymi. Po włączeniu obciążenia z płatnością za token jest kierowany do STANÓW Zjednoczonych. Databricks Geo. Aby zobaczyć, które regiony geograficzne przetwarzają obciążenia z płatnością za token, zobacz Databricks Designated Services (Wyznaczone usługi usługi Databricks).

Aprowizowane limity przepływności

Poniżej przedstawiono limity istotne dla interfejsów API modelu foundation aprowizowanych obciążeń przepływności :

Aprowizowana przepływność obsługuje profil zgodności HIPAA i jest zalecana w przypadku obciążeń wymagających certyfikacji zgodności.
Aby użyć architektury modelu DBRX dla obciążenia aprowizowanej przepływności , punkt końcowy obsługujący musi znajdować się w jednym z następujących regionów:
- eastus
- eastus2
- westus
- centralus
- westeurope
- northeurope
- australiaeast
- canadacentral
- brazilsouth
W poniższej tabeli przedstawiono dostępność regionów obsługiwanych modeli Meta Llama 3.1, 3.2 i 3.3. Zobacz Wdrażanie dostosowanych modeli podstawowych, aby uzyskać wskazówki dotyczące wdrażania dostosowanych modeli.

Wariant modelu Meta Llama	Regiony
meta-llama/Llama-3.1-8B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-8B-Poinstruowanie	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-70B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-70B-Poinstruowanie	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.1-405B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-llama/Llama-3.1-405B-Poinstruowanie	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-llama/Llama-3.2-1B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.2-1B-Poinstruowanie	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.2-3B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.2-3B-Poinstruowanie	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.3-70B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`

Aprowizowane limity przepływności

Poniżej przedstawiono limity istotne dla interfejsów API modelu foundation aprowizowanych obciążeń przepływności :

Aprowizowana przepływność obsługuje profil zgodności HIPAA i jest zalecana w przypadku obciążeń wymagających certyfikacji zgodności.

Modele osadzania GTE Large (En) nie generują znormalizowanych osadzania.
W poniższej tabeli przedstawiono dostępność regionów obsługiwanych modeli Meta Llama 3.1, 3.2 i 3.3. Zobacz Wdrażanie dostosowanych modeli podstawowych, aby uzyskać wskazówki dotyczące wdrażania dostosowanych modeli.

Wariant modelu Meta Llama	Regiony
meta-llama/Llama-3.1-8B-Poinstruowanie	- `us-east1` - `us-central1`
meta-llama/Llama-3.1-70B-Poinstruowanie	- `us-east1` - `us-central1`
meta-llama/Llama-3.2-1B-Poinstruowanie	- `us-east1` - `us-central1`
meta-llama/Llama-3.2-3B-Poinstruowanie	- `us-east1` - `us-central1`

Dostępność regionów

Uwaga

Jeśli potrzebujesz punktu końcowego w nieobsługiwanym regionie, skontaktuj się z zespołem konta usługi Azure Databricks.

Jeśli obszar roboczy jest wdrożony w regionie obsługującym obsługę modelu, ale jest obsługiwany przez płaszczyznę sterowania w nieobsługiwanym regionie, obszar roboczy nie obsługuje obsługi modelu. Jeśli spróbujesz użyć obsługi modelu w takim obszarze roboczym, zostanie wyświetlony komunikat o błędzie z informacją, że obszar roboczy nie jest obsługiwany. Skontaktuj się z zespołem kont usługi Azure Databricks, aby uzyskać więcej informacji.

Aby uzyskać więcej informacji na temat regionalnej dostępności funkcji, zobacz Model obsługujący dostępność regionalną.

Udostępnij za pośrednictwem

Limity i regiony obsługi modelu

Limity zasobów i ładunków

Ograniczenia dotyczące sieci i zabezpieczeń

Limity interfejsów API modelu foundation

Limity płatności za token

Aprowizowane limity przepływności

Aprowizowane limity przepływności

Dostępność regionów

Opinia

Dodatkowe zasoby