Partilhar via


Modelo Limites de serviço e regiões

Este artigo resume as limitações e a disponibilidade da região para o Mosaic AI Model Serving e os tipos de endpoint suportados.

Limites de recursos e carga útil

O Mosaic AI Model Serving impõe limites padrão para garantir um desempenho confiável. Se você tiver comentários sobre esses limites, entre em contato com sua equipe de conta Databricks.

A tabela a seguir resume as limitações de recursos e carga útil para pontos de extremidade de serviço de modelo.

Caraterística Granularidade Limite
Tamanho da carga útil Por pedido 16 MB. Para endpoints que servem modelos de fundação ou modelos externos, o limite é de 4 MB.
Consultas por segundo (QPS) Por espaço de trabalho 200, mas pode ser aumentado para 25.000 ou mais entrando em contato com sua equipe de conta Databricks.
Duração da execução do modelo Por pedido 120 segundos
Uso da memória do modelo de ponto de extremidade da CPU Por parâmetro de avaliação 4GB
Uso da memória do modelo de ponto de extremidade GPU Por parâmetro de avaliação Maior ou igual à memória GPU atribuída, depende do tamanho da carga de trabalho da GPU
Simultaneidade provisionada Por modelo e por espaço de trabalho 200 simultaneidade. Pode ser aumentado entrando em contato com sua equipe de conta Databricks.
Latência de sobrecarga Por pedido Menos de 50 milissegundos
Scripts init Não há suporte para scripts de inicialização.
Limites de taxa das APIs do Modelo de Base (pagamento por token) Por espaço de trabalho Se os limites a seguir forem insuficientes para seu caso de uso, o Databricks recomenda o uso da taxa de transferência provisionada.

- Llama 3.1 70B Instruct tem um limite de 2 consultas por segundo e 1200 consultas por hora.
- Llama 3.1 405B Instruct tem um limite de 1 consulta por segundo e 1200 consultas por hora.
- O modelo DBRX Instruct tem um limite de 1 consulta por segundo.
- O Mixtral-8x 7B Instruct tem um limite de taxa padrão de 2 consultas por segundo.
- GTE Large (En) tem um limite de taxa de 150 consultas por segundo
- BGE Large (En) tem um limite de taxa de 600 consultas por segundo.
Limites de taxa de APIs do modelo básico (taxa de transferência provisionada) Por espaço de trabalho 200

Existem limitações adicionais:

  • Se o espaço de trabalho for implantado em uma região que ofereça suporte ao serviço de modelo, mas seja servido por um plano de controle em uma região sem suporte, o espaço de trabalho não suportará o serviço de modelo. Se você tentar usar o serviço de modelo em tal espaço de trabalho, você verá em uma mensagem de erro informando que seu espaço de trabalho não é suportado. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.
  • O Model Serving não suporta scripts init.
  • Por padrão, o Model Serving não oferece suporte a PrivateLink para pontos de extremidade externos. O suporte para esta funcionalidade é avaliado e implementado por região. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.
  • O Model Serving não fornece patches de segurança para imagens de modelo existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com sua equipe de conta Databricks para obter mais informações.
Caraterística Granularidade Limite
Tamanho da carga útil Por pedido 16 MB. Para endpoints que servem modelos de fundação ou modelos externos, o limite é de 4 MB.
Consultas por segundo (QPS) Por espaço de trabalho 200 QPS. Pode ser aumentado para 3000 ou mais entrando em contato com sua equipe de conta Databricks.
Duração da execução do modelo Por pedido 120 segundos
Uso da memória do modelo de ponto de extremidade da CPU Por parâmetro de avaliação 4GB
Uso da memória do modelo de ponto de extremidade GPU Por parâmetro de avaliação Maior ou igual à memória GPU atribuída, depende do tamanho da carga de trabalho da GPU
Simultaneidade provisionada Por modelo e por espaço de trabalho 200 simultaneidade. Pode ser aumentado entrando em contato com sua conta Databricks.
Latência de sobrecarga Por pedido Menos de 50 milissegundos
Limites de taxa das APIs do Modelo de Base (pagamento por token) Por espaço de trabalho Se os limites a seguir forem insuficientes para seu caso de uso, o Databricks recomenda o uso da taxa de transferência provisionada.

- Llama 3.1 70B Instruct tem um limite de 2 consultas por segundo e 1200 consultas por hora.
- Llama 3.1 405B Instruct tem um limite de 1 consulta por segundo e 1200 consultas por hora.
- O modelo DBRX Instruct tem um limite de 1 consulta por segundo.
- O Mixtral-8x 7B Instruct tem um limite de taxa padrão de 2 consultas por segundo.
- GTE Large (En) tem um limite de taxa de 150 consultas por segundo
- BGE Large (En) tem um limite de taxa de 600 consultas por segundo.
Limites de taxa de APIs do modelo básico (taxa de transferência provisionada) Por espaço de trabalho O mesmo que o limite de QPS de serviço do modelo listado acima.

Os pontos de extremidade do Model Serving são protegidos pelo controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de permissões de IP e Link Privado.

O Azure Private Link só tem suporte para pontos de extremidade de serviço de modelo que usam taxa de transferência provisionada ou pontos de extremidade que servem modelos personalizados.

Existem também limitações adicionais:

  • É possível que um espaço de trabalho seja implantado em uma região suportada, mas seja servido por um plano de controle em uma região diferente. Esses espaços de trabalho não oferecem suporte ao Serviço de Modelo e resultam em uma mensagem de erro informando que seu espaço de trabalho não é suportado. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.
  • O Model Serving não suporta scripts init.

Limitações de rede e segurança

  • Os pontos de extremidade do Model Serving são protegidos pelo controle de acesso e respeitam as regras de entrada relacionadas à rede configuradas no espaço de trabalho, como listas de permissões de IP e Link Privado.
  • A conectividade privada (como o Azure Private Link) só é suportada para pontos de extremidade de serviço de modelo que usam taxa de transferência provisionada ou pontos de extremidade que servem modelos personalizados.
  • Por padrão, o Serviço de Modelo não oferece suporte ao Link Privado para pontos de extremidade externos (como o Azure OpenAI). O suporte para esta funcionalidade é avaliado e implementado por região. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.
  • O Model Serving não fornece patches de segurança para imagens de modelo existentes devido ao risco de desestabilização das implantações de produção. Uma nova imagem de modelo criada a partir de uma nova versão do modelo conterá os patches mais recentes. Entre em contato com sua equipe de conta Databricks para obter mais informações.

Limites das APIs do Modelo de Base

Nota

Como parte do fornecimento das APIs do Modelo de Base, o Databricks pode processar seus dados fora da região de origem dos dados, mas não fora da localização geográfica relevante.

Para cargas de trabalho de pagamento por token e taxa de transferência provisionada:

  • Somente os administradores do espaço de trabalho podem alterar as configurações de governança, como limites de taxa para pontos de extremidade de APIs do Modelo de Base. Para alterar os limites de taxa, use as seguintes etapas:
    1. Abra a interface do usuário de serviço em seu espaço de trabalho para ver seus pontos de extremidade de serviço.
    2. No menu kebab no ponto de extremidade das APIs do Modelo de Fundação que você deseja editar, selecione Exibir detalhes.
    3. No menu kebab no lado superior direito da página de detalhes dos endpoints, selecione Alterar limite de taxa.
  • Os modelos de incorporação GTE Large (En) não geram incorporações normalizadas.

Limites de pagamento por token

A seguir estão os limites relevantes para cargas de trabalho de pagamento por token de APIs do Modelo de Base:

  • As cargas de trabalho de pagamento por token não são compatíveis com HIPAA ou perfil de segurança de conformidade.
  • Os modelos GTE Large (En) e Meta Llama 3.1 70B Instruct estão disponíveis nas regiões suportadas pela UE e pelos EUA.
  • Os seguintes modelos de pagamento por token são suportados apenas nas regiões dos EUA suportadas pelas APIs do Modelo de Base com suporte de pagamento por token:
    • Meta Llama 3.1 405B Instruir
    • DBRX Instruir
    • Instruções Mixtral-8x7B
    • BGE Grande (En)
  • Se o seu espaço de trabalho estiver em uma região de Serviço de Modelo, mas não em uma região dos EUA ou da UE, seu espaço de trabalho deverá estar habilitado para processamento de dados geográficos cruzados. Quando habilitada, sua carga de trabalho de pagamento por token é roteada para os EUA. Databricks Geo. Para ver quais regiões geográficas processam cargas de trabalho de pagamento por token, consulte Serviços designados do Databricks.

Limites de taxa de transferência provisionada

A seguir estão os limites relevantes para cargas de trabalho de taxa de transferência provisionadas de APIs do Modelo de Base:

  • A taxa de transferência provisionada oferece suporte ao perfil de conformidade com a HIPAA e é recomendada para cargas de trabalho que exigem certificações de conformidade.
  • Para usar a arquitetura do modelo DBRX para uma carga de trabalho de taxa de transferência provisionada, seu ponto de extremidade de serviço deve estar em uma das seguintes regiões:
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • A tabela a seguir mostra a disponibilidade de região dos modelos Meta Llama 3.1 e 3.2 suportados. Consulte Implantar modelos de base ajustados para obter orientação sobre como implantar modelos ajustados.
Variante do modelo Meta Llama Regiões
meta-lama/Llama-3.1-8B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-8B-Instruir - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-lama/Llama-3.1-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-lama/Llama-3.1-70B-Instruir - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-lama/Llama-3.1-405B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-405B-Instruir - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-lama/Llama-3.2-1B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-lama/Llama-3.2-1B-Instruir - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-lama/Llama-3.2-3B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-3B-Instruir - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2

Disponibilidade da região

Nota

Se você precisar de um ponto de extremidade em uma região sem suporte, entre em contato com sua equipe de conta do Azure Databricks.

Se o espaço de trabalho for implantado em uma região que ofereça suporte ao serviço de modelo, mas seja servido por um plano de controle em uma região sem suporte, o espaço de trabalho não suportará o serviço de modelo. Se você tentar usar o serviço de modelo em tal espaço de trabalho, você verá em uma mensagem de erro informando que seu espaço de trabalho não é suportado. Entre em contato com sua equipe de conta do Azure Databricks para obter mais informações.

Para obter mais informações sobre a disponibilidade regional de recursos, consulte Modelo que serve a disponibilidade regional.