Migración de puntos de conexión de servicio de LLM optimizados a rendimiento aprovisionado
Este artículo describe cómo migrar sus puntos de conexión de servicio de LLM existentes a la experiencia de rendimiento aprovisionado disponible usando las API de Foundation Model.
¿Qué está cambiando?
El rendimiento aprovisionado proporciona una experiencia más sencilla para iniciar puntos de conexión de servicio LLM optimizados. Databricks ha modificado el sistema de servicio del modelo LLM de forma que:
- Los intervalos de escalado horizontal se pueden configurar en términos nativos de LLM, como tokens por segundo en lugar de simultaneidad.
- Los clientes ya no necesitan seleccionar los tipos de carga de trabajo de GPU.
Los nuevos puntos de conexión de servicio LLM se crean con el rendimiento aprovisionado de forma predeterminada. Si desea seguir seleccionando el tipo de carga de trabajo de GPU, esta experiencia solo se admite mediante la API.
Migración de puntos de conexión de servicio de LLM a rendimiento aprovisionado
La manera más sencilla de migrar el punto de conexión existente al rendimiento aprovisionado es actualizar el punto de conexión con una nueva versión del modelo. Después de seleccionar una nueva versión del modelo, la interfaz de usuario muestra la experiencia para el rendimiento aprovisionado. La interfaz de usuario muestra los intervalos de tokens por segundo basados en los puntos de referencia de Databricks para casos de uso típicos.
El rendimiento con esta oferta actualizada es estrictamente mejor debido a las mejoras de optimización y el precio del punto de conexión permanece sin cambios. Póngase en contacto con model-serving-feedback@databricks.com
para cualquier duda o comentario sobre el producto.