Limites e regiões do Serviço de Modelo

Artigo
02/10/2025

Este artigo resume as limitações e a disponibilidade da região para o Serviço de Modelo do Mosaic AI e os tipos de ponto de extremidade compatíveis.

Limites de recursos e carga

O Serviço de Modelo do Mosaic AI impõe limites padrão para garantir um desempenho confiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta do Databricks.

A tabela a seguir resume as limitações de conteúdo e recursos para pontos de extremidade de serviço de modelo.

Recurso	Granularidade	Limite
Tamanho da carga	Por solicitação	16 MB. Para pontos de extremidade que atendem modelos de base, modelos externos ou agentes de IA, o limite é de 4 MB.
Tamanho da solicitação/resposta	Por solicitação	Nenhuma solicitação/resposta acima de 1 MB não será registrada.
Consultas por segundo (QPS)	Por workspace	200, mas pode ser aumentado para 25.000 ou mais entrando em contato com sua equipe de conta da Databricks.
Duração da execução do modelo	Por solicitação	120 segundos
Uso de memória do modelo de ponto de extremidade da CPU	Por ponto de extremidade	4 GB
Uso de memória do modelo de ponto de extremidade da GPU	Por ponto de extremidade	Maior ou igual à memória de GPU atribuída, depende do tamanho da carga de trabalho da GPU
Simultaneidade provisionada	Por modelo e por espaço de trabalho	Simultaneidade de 200. Pode ser aumentado entrando em contato com sua equipe de conta do Databricks.
Latência de sobrecarga	Por solicitação	Menos de 50 milissegundos
Script de inicialização		Não há suporte para scripts de inicialização.
Limites de taxa de APIs de Modelo do Foundation (pagamento por token)	Por workspace	Se os limites a seguir forem insuficientes para seu caso de uso, o Databricks recomenda usar o desempenho provisionado. - O Llama 3.3 70B Instruct tem um limite de duas consultas por segundo e 1.200 consultas por hora. - Llama 3.1 405B Instruct tem um limite de 1 consulta por segundo e 1200 consultas por hora. - O modelo DBRX Instruct tem um limite de uma consulta por segundo. - Mixtral-8x 7B Instruct tem um limite de taxa padrão de 2 consultas por segundo. - GTE Large (En) tem um limite de taxa de 150 consultas por segundo - BGE Large (En) tem um limite de taxa de 600 consultas por segundo.
Limites de taxa de APIs de Modelo do Foundation (taxa de transferência provisionada)	Por workspace	200

Limitações de rede e segurança

Os pontos de extremidade do Serviço de Modelo são protegidos por controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de IPs permitidos e Link Privado do Azure.
A conectividade privada (como o Link Privado do Azure) só tem suporte para pontos de extremidade de serviço de modelo que usam taxa de transferência provisionada ou pontos de extremidade que atendem a modelos personalizados.
Por padrão, o Model Serving não dá suporte ao Link Privado para pontos de extremidade externos (como o Azure OpenAI). O suporte para essa funcionalidade é avaliado e implementado por região. Entre em contato com a equipe da sua conta do Azure Databricks para obter mais informações.
O Model Serving não fornece patches de segurança para imagens de modelo existentes devido ao risco de desestabilização para implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão de modelo conterá os patches mais recentes. Entre em contato com a equipe da sua conta do Databricks para obter mais informações.

Limites das APIs do Foundation Model

Observação

Como parte do fornecimento das APIs do Modelo de Fundação, o Databricks pode processar seus dados fora da região e do provedor de nuvem de onde seus dados se originaram.

Observação

Como parte do fornecimento das APIs do Foundation Model, a Databricks pode processar seus dados fora da região de origem dos dados, mas não fora da localização geográfica relevante.

Para cargas de trabalho de taxa de transferência provisionada e de pagamento por token:

Somente os administradores do workspace podem alterar as configurações de governança, como limites de taxa para endpoints de APIs do Foundation Model. Para alterar os limites de taxa, use as seguintes etapas:
1. Abra a interface do usuário de serviço em seu workspace para ver seus pontos de extremidade de serviço.
2. No menu kebab no ponto de extremidade de APIs do Modelo do Foundation que você deseja editar, selecione Exibir detalhes.
3. No menu kebab no lado superior direito da página de detalhes dos pontos de extremidade, selecione Alterar o limite de taxa.
Os modelos de incorporação GTE Large (En) não geram incorporações normalizadas.

Limites de pagamento por token

Veja a seguir os limites relevantes para cargas de trabalho de pagamento por token das APIs do Foundation Model:

Cargas de trabalho de pagamento por tokennão são compatíveis com HIPAA ou perfil de segurança de conformidade.
Modelos Meta Llama 3.3 70B e GTE Large (En) estão disponíveis em regiões com suporte ao pagamento por token na Europa e nos EUA.
Os seguintes modelos de pagamento por token são compatíveis apenas com as APIs do Modelo de Base com suporte para pagamento por token nas regiões dos EUA:
- Meta Llama 3.1 405B Instruct
- DBRX Instruct
- Mixtral-8x7B Instruct
- BGE Grande (En)
Se o espaço de trabalho estiver em uma região de Serviço de modelo, mas não em uma região dos EUA ou da UE, ele deverá estar habilitado para processamento de dados entre áreas geográficas. Quando ativada, sua carga de trabalho de pagamento por token é roteada para os EUA. Databricks Geo. Para ver quais regiões geográficas processam cargas de trabalho de pagamento por token, consulte Serviços Designados do Databricks.

Limites de taxa de transferência provisionada

Veja a seguir os limites relevantes para cargas de trabalho de taxa de transferência provisionadas das APIs do Foundation Model:

A taxa de transferência provisionada dá suporte ao perfil de conformidade com a HIPAA e é recomendada para cargas de trabalho que exigem certificações de conformidade.
Para usar a arquitetura de modelo DBRX para uma carga de trabalho com taxa de transferência provisionada, o ponto de extremidade de serviço deve estar em uma das seguintes regiões:
- eastus
- eastus2
- westus
- centralus
- westeurope
- northeurope
- australiaeast
- canadacentral
- brazilsouth
A tabela a seguir mostra a disponibilidade da região dos modelos com suporte do Meta Llama 3.1, 3.2 e 3.3. Consulte Implantar modelos de base ajustados para obter diretrizes sobre como implantar modelos ajustados.

Variante do modelo Meta Llama	Regiões
meta-lhama/lhama-3.1-8B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-lhama/lhama-3.1-8B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-lhama/lhama-3.1-70B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-lhama/lhama-3.1-70B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-lhama/lhama-3.1-405B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-lhama/lhama-3.1-405B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`
meta-lhama/lhama-3.2-1B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-lhama/lhama-3.2-1B-instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-lhama/lhama-3.2-3B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-lhama/Lhama-3.2-3B-Instruir	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2` - `northeurope` - `westeurope`
meta-llama/Llama-3.3-70B	- `centralus` - `eastus` - `eastus2` - `northcentralus` - `westus` - `westus2`

Limites de taxa de transferência provisionada

Veja a seguir os limites relevantes para cargas de trabalho de taxa de transferência provisionadas das APIs do Foundation Model:

A taxa de transferência provisionada dá suporte ao perfil de conformidade com a HIPAA e é recomendada para cargas de trabalho que exigem certificações de conformidade.

Os modelos de incorporação GTE Large (En) não geram incorporações normalizadas.
A tabela a seguir mostra a disponibilidade da região dos modelos com suporte do Meta Llama 3.1, 3.2 e 3.3. Consulte Implantar modelos de base ajustados para obter diretrizes sobre como implantar modelos ajustados.

Variante do modelo Meta Llama	Regiões
meta-lhama/lhama-3.1-8B-Instruir	- `us-east1` - `us-central1`
meta-lhama/lhama-3.1-70B-Instruir	- `us-east1` - `us-central1`
meta-lhama/lhama-3.2-1B-instruir	- `us-east1` - `us-central1`
meta-lhama/Lhama-3.2-3B-Instruir	- `us-east1` - `us-central1`

Disponibilidade de região

Observação

Se você precisar de um ponto de extremidade em uma região sem suporte, entre em contato com a equipe da sua conta do Azure Databricks.

Se o workspace for implantado em uma região que oferece suporte ao serviço de modelo, mas é atendido por um plano de controle em uma região sem suporte, o workspace não oferece suporte ao serviço de modelo. Se você tentar usar o serviço de modelo em tal espaço de trabalho, verá uma mensagem de erro informando que seu espaço de trabalho não é suportado. Entre em contato com a equipe da sua conta do Azure Databricks para obter mais informações.

Para obter mais informações sobre a disponibilidade regional de recursos, confira Disponibilidade regional de distribuição de modelos.

Compartilhar via

Limites e regiões do Serviço de Modelo

Limites de recursos e carga

Limitações de rede e segurança

Limites das APIs do Foundation Model

Limites de pagamento por token

Limites de taxa de transferência provisionada

Limites de taxa de transferência provisionada

Disponibilidade de região

Comentários

Recursos adicionais