Migrar os pontos de extremidade do serviço LLM otimizados para taxa de transferência provisionada.
Este artigo descreve como migrar seus pontos de extremidade de serviço LLM existentes para a experiência de taxa de transferência provisionada disponível usando APIs do Modelo de Base.
O que vai mudar?
A taxa de transferência provisionada fornece uma experiência mais simples para a inicialização de pontos de extremidade de serviço LLM otimizados. O Databricks modificou seu sistema de serviço de modelo LLM para que:
- Os intervalos de expansão podem ser configurados em termos nativos de LLM, como tokens por segundo em vez de simultaneidade.
- Os clientes não precisam mais selecionar tipos de carga de trabalho de GPU por conta própria.
Os novos pontos de extremidade de serviço LLM são criados com taxa de transferência provisionada por padrão. Se desejar continuar selecionando o tipo de carga de trabalho da GPU, essa experiência só terá suporte usando a API.
Migrar pontos de extremidade de serviço LLM para taxa de transferência provisionada
A maneira mais simples de migrar seu ponto de extremidade existente para a taxa de transferência provisionada é atualizar seu ponto de extremidade com uma nova versão do modelo. Após selecionar uma nova versão de modelo, a interface do usuário exibe a experiência para taxa de transferência provisionada. A interface de usuário mostra faixas de tokens por segundo com base nos parâmetros de comparação do Databricks para casos de uso típicos.
O desempenho com esta oferta atualizada é estritamente melhor devido às melhorias de otimização, e o preço para o seu ponto de extremidade permanece inalterado. Entre em contato com model-serving-feedback@databricks.com
para comentários ou dúvidas sobre o produto.