Migrar endpoints de serviço LLM otimizados para throughput provisionado
Este artigo descreve como migrar seus pontos de extremidade de serviço LLM existentes para a experiência de taxa de transferência provisionada disponível usando APIs do Modelo de Base.
O que vai mudar?
A taxa de transferência provisionada fornece uma experiência mais simples para o lançamento de terminais de serviço LLM otimizados. A Databricks modificou seu sistema de serviço de modelo LLM para que:
- Os intervalos de expansão podem ser configurados em termos nativos do LLM, como tokens por segundo em vez de simultaneidade.
- Os clientes não precisam mais selecionar os tipos de carga de trabalho da GPU.
Novos pontos de extremidade de serviço LLM são criados com taxa de transferência provisionada por padrão. Se você quiser continuar selecionando o tipo de carga de trabalho da GPU, essa experiência só é suportada usando a API.
Migrar pontos de extremidade de serviço LLM para taxa de transferência provisionada
A maneira mais simples de migrar seu endpoint existente para a taxa de transferência provisionada é atualizar seu endpoint com uma nova versão do modelo. Depois de selecionar uma nova versão do modelo, a interface do usuário exibe a experiência para a taxa de transferência provisionada. A interface do usuário mostra intervalos de tokens por segundo com base no benchmarking Databricks para casos de uso típicos.
O desempenho com esta oferta atualizada é estritamente melhor devido a melhorias de otimização, e o preço do seu endpoint permanece inalterado. Entre em contato para obter feedback ou preocupações sobre o model-serving-feedback@databricks.com
produto.