Modelos de base admitidos en Mosaic AI Model Serving
En este artículo se describen los modelos fundamentales que puede servir utilizando Mosaic AI Model Serving.
Los modelos fundamentales son redes neuronales grandes y entrenadas previamente que se entrenan en grandes y amplias gamas de datos. Estos modelos están diseñados para aprender patrones generales en lenguaje, imágenes u otros tipos de datos, y se pueden ajustar para tareas específicas con entrenamiento adicional.
Model Serving ofrece opciones flexibles para hospedar y consultar modelos básicos en función de sus necesidades:
- Pago por token: Ideal para la experimentación y la exploración rápida. Esta opción le permite consultar puntos de conexión preconfigurados en el área de trabajo de Databricks sin compromisos iniciales de infraestructura.
- Rendimiento Aprovisionado: Recomendado para aplicaciones de producción que requieren garantías de rendimiento. Esta opción habilita la implementación de modelos de base optimizados con puntos de conexión de servicio optimizados.
- modelos externos: esta opción permite el acceso a los modelos de base hospedados fuera de Databricks, como los proporcionados por OpenAI o Antrópico. Estos modelos se pueden administrar centralmente en Databricks para simplificar la gobernanza.
Modelos de Foundation hospedados en Databricks
Databricks hospeda modelos de base abiertos de última generación, como Meta Llama. Estos modelos están disponibles mediante la API de Foundation Model y son accesibles mediante el pago por token o el rendimiento aprovisionado.
Pago por token
Se recomienda el modelo de pago por token para las API de Foundation Model al comenzar y explorar rápidamente. Cuando se admite un modelo mediante las API de Pago por token de Foundation Model, Databricks proporciona un punto de conexión preconfigurado en el área de trabajo de Azure Databricks que puede probar y consultar. También puede interactuar y chatear con estos modelos mediante AI Playground.
En la tabla siguiente se resumen los modelos admitidos para el pago por token. Consulte Foundation Model API limits for model region availability (Límites de las API de Foundation Model para ver la disponibilidad de regiones específicas del modelo).
Importante
- A partir del 11 de diciembre de 2024, Meta-Llama-3.3-70B-Instruct reemplaza la compatibilidad con Meta-Llama-3.1-70B-Instruct en los puntos de conexión de las API de Foundation Model de pago por token.
- Meta-Llama-3.1-405B-Instruct es el modelo de lenguaje grande más grande disponible abiertamente, compilado y entrenado por Meta y distribuido por Azure Machine Learning mediante el catálogo de modelos de AzureML.
- Ahora se retiran los siguientes modelos. Consulte modelos retirados para ver los modelos de reemplazo recomendados.
- Llama 2 70B Chat
- Instrucciones de MPT 7B
- Instrucciones de MPT 30B
Modelo | Tipo de tarea | Punto final | Notas |
---|---|---|---|
GTE Large (inglés) | Integración | databricks-gte-large-en |
No genera incrustaciones normalizadas. |
Meta-Llama-3.3-70B-Instruct | Chat | databricks-meta-llama-3-3-70b-instruct |
|
Meta-Llama-3.1-405B-Instruct* | Chat | databricks-meta-llama-3-1-405b-instruct |
|
DBRX Instruct | Chat | databricks-dbrx-instruct |
Este modelo ya no se admite después del 30 de abril de 2025. |
Mixtral-8x7B Instruct | Chat | databricks-mixtral-8x7b-instruct |
Este modelo ya no se admite después del 30 de abril de 2025. |
BGE Large (inglés) | Integración | databricks-bge-large-en |
*
Póngase en contacto con el equipo de la cuenta de Databricks si encuentra errores de punto de conexión o errores de estabilización al usar este modelo.
Rendimiento aprovisionado
Se recomienda el rendimiento aprovisionado de las API de Foundation Model para casos de producción. Puede crear un punto de conexión que use el rendimiento aprovisionado para implementar arquitecturas de modelo de base optimizadas. Cuando se usa el rendimiento aprovisionado, el punto de conexión de servicio está optimizado para cargas de trabajo del modelo de base que requieren garantías de rendimiento.
En la tabla siguiente se resumen las arquitecturas de modelo admitidas para el rendimiento aprovisionado. Databricks recomienda usar modelos básicos previamente entrenados en Unity Catalog para cargas de trabajo de rendimiento aprovisionadas. Consulte Límites de rendimiento aprovisionados para conocer las variantes del modelo Meta Llama y la disponibilidad de regiones compatibles.
Importante
Meta Llama 3.3 tiene licencia bajo la licencia LLAMA 3.3 Community License, Copyright © Meta Platforms, Inc. Todos los derechos reservados. Los clientes son responsables de garantizar su cumplimiento de los términos de esta licencia y la Directiva de uso aceptable de Llama 3.3.
Meta Llama 3.2 tiene licencia bajo la licencia LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. Todos los derechos reservados. Los clientes son responsables de garantizar su cumplimiento con los términos de esta licencia y la directiva de uso aceptable Llama 3.2.
Meta Llama 3.1 tiene licencia bajo la licencia LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos los derechos reservados. Los clientes son responsables de garantizar el cumplimiento de las licencias de modelo aplicables.
Arquitectura del modelo | Tipos de tareas | Notas |
---|---|---|
Meta Llama 3.3 | Chat o Completion | |
Meta Llama 3.2 3B | Chat o Completion | |
Meta Llama 3.2 1B | Chat o Completion | |
Meta Llama 3.1 | Chat o Completion | |
Meta Llama 3 | Chat o Completion | |
Meta Llama 2 | Chat o Completion | |
DBRX | Chat o Completion | |
Mistral | Chat o Completion | |
Mixtral | Chat o Completion | |
MPT | Chat o Completion | |
GTE v1.5 (inglés) | Integración | No genera incrustaciones normalizadas. |
BGE v1.5 (inglés) | Integración |
Acceso a modelos de base hospedados fuera de Databricks
También se puede acceder a los modelos fundamentales creados por proveedores de LLM, como OpenAI y Anthropic, en Databricks mediante modelos externos de . Estos modelos se hospedan fuera de Databricks y puede crear un punto de conexión para consultarlos. Estos puntos de conexión se pueden regular de forma centralizada desde Azure Databricks, lo que simplifica el uso y la administración de varios proveedores de LLM dentro de su organización.
En la tabla siguiente se presenta una lista no exhaustiva de los modelos admitidos y los correspondientes tipos de punto de conexión . Puede usar las asociaciones de modelos enumeradas para ayudarle a configurar el punto de conexión de los tipos de modelo recién publicados a medida que estén disponibles con un proveedor determinado. Los clientes son responsables de garantizar el cumplimiento de las licencias de modelo aplicables.
Nota
Con el rápido desarrollo de LLM, no hay ninguna garantía de que esta lista esté actualizada en todo momento. Las nuevas versiones de modelo del mismo proveedor se admiten normalmente incluso si no están en la lista.
Proveedor de modelos | llm/v1/completions | llm/v1/chat | llm/v1/embeddings |
---|---|---|---|
OpenAI** | - gpt-3.5-turbo-instruct - babbage-002 - davinci-002 |
- o1 - o1-mini - o1-mini-2024-09-12 - gpt-3.5-turbo - gpt-4 - gpt-4-turbo - gpt-4-turbo-2024-04 - gpt-4o - gpt-4o-2024-05-13 - gpt-4o-mini |
- text-embedding-ada-002 - text-embedding-3-large - text-embedding-3-small |
Azure OpenAI** | - text-davinci-003 - gpt-35-turbo-instruct |
- o1 - o1-mini - gpt-35-turbo - gpt-35-turbo-16k - gpt-4 - gpt-4-turbo - gpt-4-32k - gpt-4o - gpt-4o-mini |
- text-embedding-ada-002 - text-embedding-3-large - text-embedding-3-small |
Anthropic | - claude-1 - claude-1.3-100k - claude-2 - claude-2.1 - claude-2.0 - claude-instant-1.2 |
- claude-3-5-sonnet-latest - claude-3-5-haiku-latest - claude-3-5-opus-latest - claude-3-5-sonnet-20241022 - claude-3-5-haiku-20241022 - claude-3-5-sonnet-20240620 - claude-3-haiku-20240307 - claude-3-opus-20240229 - claude-3-sonnet-20240229 |
|
Cohere** | - comando - luz de comando |
- command-r7b-12-2024 - command-r-plus-08-2024 - command-r-08-2024 - command-r-plus - comando-r - comando - command-light-nightly - command-light - comando nocturno |
- embed-english-v2.0 - embed-multilingual-v2.0 - embed-english-light-v2.0 - embed-english-v3.0 - embed-english-light-v3.0 - embed-multilingual-v3.0 - embed-multilingual-light-v3.0 |
Servicio de modelo de IA de Mosaic | Punto de conexión de servicio de Databricks | Punto de conexión de servicio de Databricks | Punto de conexión de servicio de Databricks |
Amazon Bedrock | Anthropic: - claude-instant-v1 - claude-v2 Cohere: - command-text-v14 - command-light-text-v14 AI21 Labs: - j2-grande-instruct - j2-jumbo-instruct - j2-mid - j2-mid-v1 - j2-Ultra - j2-ultra-v1 |
Anthropic: - claude-3-5-sonnet-20241022-v2:0 - claude-3-5-haiku-20241022-v1:0 - claude-3-opus-20240229-v1:0 - claude-3-sonnet-20240229-v1:0 - claude-3-5-sonnet-20240620-v1:0 Cohere: - command-r-plus-v1:0 - command-r-v1:0 |
Amazona: - titan-embed-text-v1 - titan-embed-g1-text-02 Cohere: - embed-english-v3 - embed-multilingual-v3 |
AI21 Labs† | - j2-mid - j2-light - j2-Ultra |
||
Vertex AI de Google Cloud | text-bison | - chat-bison - Gemini-Pro - géminis-1.0-pro - gemini-1.5-pro - gemini-1.5-flash - gemini-2.0-flash |
- inserción de texto-004 - text-embedding-005 - textembedding-gecko |
El proveedor de modelos **
admite modelos de chat y finalización ajustados. Para consultar un modelo ajustado, rellene el campo name
de la configuración de external model
con el nombre del modelo ajustado.
† proveedor de modelos admite modelos de finalización personalizados.
Creación de puntos de conexión de servicio del modelo de base
Para consultar y usar modelos fundamentales en las aplicaciones de IA, primero debe crear un punto de conexión de servicio de modelo. Model Serving usa una API y una interfaz de usuario unificadas para crear y actualizar los puntos de conexión de servicio del modelo de base.
- Para crear un punto de conexión que sirva variantes ajustadas de los modelos de base disponibles a través del rendimiento aprovisionado de las API de Foundation Model, consulte Creación del punto de conexión de rendimiento aprovisionado mediante la API de REST.
- Para crear puntos de conexión de servicio que tengan acceso a los modelos fundamentales disponibles a través de la oferta de modelos externos, consulte Crear un punto de conexión de servicio para modelos externos.
Consulta del modelo de base que sirve puntos de conexión
Después de crear el modelo de puntos de conexión de servicio, podrá consultar el modelo de base. Model Serving usa una API y un SDK unificados compatibles con OpenAI para consultar modelos de base. Esta experiencia unificada simplifica la forma de experimentar y personalizar modelos fundamentales para su producción en nubes y proveedores admitidos.
Consulte Modelos básicos de consulta.