Migrar endpoints de serviço LLM otimizados para throughput provisionado

Artigo
01/07/2025

Importante

Esta documentação foi desativada e pode não ser atualizada. Os produtos, serviços ou tecnologias mencionados neste conteúdo não são mais suportados.

Este artigo descreve como migrar os seus endpoints de serviço LLM existentes para a experiência de taxa de transferência provisionada disponível usando as APIs do Modelo de Fundação .

O que está mudando?

A capacidade provisionada fornece uma experiência mais simples para o lançamento de endpoints de serviço LLM otimizados. A Databricks modificou seu sistema de serviço de modelo LLM para que:

Os intervalos de expansão podem ser configurados em termos nativos do LLM, como tokens por segundo em vez de simultaneidade.
Os clientes não precisam mais select tipos de carga de trabalho de GPU.

Novos pontos de extremidade de serviço LLM são criados com taxa de transferência provisionada por padrão. Se você quiser continuar selecionando o tipo de carga de trabalho da GPU, essa experiência só é suportada usando a API.

Migrar pontos de extremidade de serviço LLM para taxa de transferência provisionada

A maneira mais simples de migrar seu endpoint existente para a taxa de transferência provisionada é update seu endpoint com uma nova versão do modelo. Depois de select uma nova versão do modelo, a interface de utilizador exibe a experiência da taxa de transferência provisionada. A interface do usuário mostra intervalos de tokens por segundo com base no benchmarking Databricks para casos de uso típicos.

LLM de taxa de transferência provisionada atendendo

O desempenho com esta oferta atualizada é estritamente melhor devido a melhorias de otimização, e o preço do seu endpoint permanece inalterado. Entre em contato com model-serving-feedback@databricks.com para obter feedback ou preocupações sobre o produto.

Partilhar via

Migrar endpoints de serviço LLM otimizados para throughput provisionado

O que está mudando?

Migrar pontos de extremidade de serviço LLM para taxa de transferência provisionada

Comentários

Recursos adicionais