Compartir a través de


Modelos soportados para pago de token

Importante

Solo los modelos GTE Large (En) y Meta Llama 3.3 70B Instruct están disponibles en las regiones admitidas para pago por token en la UE y EE. UU..

Consulte los límites de las API de Foundation Model para los modelos de pago por token que solo se admiten en las regiones de EE. UU.

En este artículo se describen los modelos abiertos de última generación compatibles con las API Databricks Foundation Model en modo de pago por token.

Puede enviar solicitudes de consulta a estos modelos mediante los puntos de conexión de pago por token disponibles en el área de trabajo de Databricks. Consulte el artículo Modelos de base de consulta y la tabla de modelos admitidos de pago por token para conocer los nombres de los puntos de conexión de modelo que se van a usar.

Además de admitir modelos en modo de pago por token, las API de Foundation Model también ofrecen el modo de rendimiento aprovisionado. Databricks recomienda el rendimiento aprovisionado para cargas de trabajo de producción. Este modo admite todos los modelos de una familia de arquitectura de modelos (por ejemplo, modelos DBRX), incluidos los modelos afinados y personalizados preentrenados que son compatibles con el modo de pago por uso de token. Consulte las API de Foundation Model de rendimiento aprovisionado para obtener la lista de arquitecturas admitidas.

Puede interactuar con estos modelos admitidos mediante AI Playground.

Meta Llama 3.3 70B Instruct

Importante

A partir del 11 de diciembre de 2024, Meta-Llama-3.3-70B-Instruct reemplaza la compatibilidad con Meta-Llama-3.1-70B-Instruct en los puntos de conexión de las API de Foundation Model de pago por token.

Importante

Meta Llama 3.3 tiene licencia bajo la licencia LLAMA 3.3 Community License, Copyright © Meta Platforms, Inc. Todos los derechos reservados. Los clientes son responsables de asegurarse de que cumplen con los términos de esta licencia y la política de uso aceptable Llama 3.3.

Meta-Llama-3.3-70B-Instruct es un modelo de lenguaje grande de última generación con un contexto de 128 000 tokens creados y entrenados por Meta. El modelo admite varios lenguajes y está optimizado para casos de uso de diálogo. Obtenga más información sobre Meta Llama 3.3.

De forma similar a otros modelos de lenguaje grande, la salida de Llama-3 puede omitir algunos hechos y, en ocasiones, producir información falsa. Databricks recomienda usar la generación aumentada de recuperación (RAG) en escenarios en los que la precisión es especialmente importante.

Meta Llama 3.1 405B Instruct

Importante

El uso de este modelo con las API de Foundation Model se encuentra en versión preliminar pública. Póngase en contacto con el equipo de la cuenta de Databricks si encuentra errores de punto de conexión o errores de estabilización al usar este modelo.

Importante

Meta Llama 3.1 tiene licencia bajo la licencia LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Todos los derechos reservados. Los clientes son responsables de garantizar el cumplimiento de las licencias de modelo aplicables.

Meta-Llama-3.1-405B-Instruct es el modelo de lenguaje grande más grande disponible abiertamente, compilado y entrenado por Meta, y se distribuye mediante Azure Machine Learning mediante el catálogo de modelos de AzureML. El uso de este modelo permite a los clientes desbloquear nuevas funcionalidades, como el razonamiento avanzado, multiproceso y generación de datos sintéticos de alta calidad. Este modelo es competitivo con GPT-4-Turbo en términos de calidad.

Al igual que Meta-Llama-3.1-70B-Instruct, este modelo tiene un contexto de 128 000 tokens y admite diez idiomas. Se alinea con las preferencias humanas para la utilidad y la seguridad, y está optimizada para casos de uso de diálogo. Obtenga más información sobre los modelos de Meta Llama 3.1.

De forma similar a otros modelos de lenguaje grande, la salida de Llama-3.1 puede omitir algunos hechos y, en ocasiones, producir información falsa. Databricks recomienda usar la generación aumentada de recuperación (RAG) en escenarios en los que la precisión es especialmente importante.

DBRX Instruct

Importante

Este modelo ya no se admite después del 30 de abril de 2025. Consulte Modelos descontinuados para ver los modelos de reemplazo recomendados.

Importante

DBRX se proporciona bajo y sujeto a la Licencia de Modelo Abierto de Databricks , Copyright © Databricks, Inc. Todos los derechos reservados. Los clientes son responsables de garantizar el cumplimiento de las licencias aplicables del modelo, incluida la "Directiva de Uso Aceptable de Databricks" .

DBRX Instruct es una mezcla de expertos (MoE) de última generación entrenado por Databricks.

El modelo supera los modelos de código abierto establecidos en pruebas comparativas estándar y destaca en un amplio conjunto de tareas de lenguaje natural, como: resumen de texto, respuesta a preguntas, extracción y codificación.

DBRX Instruct puede controlar hasta 32 000 tokens de longitud de entrada y genera salidas de hasta 4000 tokens. Gracias a su arquitectura MoE, DBRX Instruct es muy eficiente para la inferencia, activando solo 36 mil millones de parámetros de un total de 132 mil millones de parámetros entrenados. El punto de conexión de pago por token que sirve a este modelo tiene un límite de velocidad de una consulta por segundo. Consulte Límites de servicio de modelos y regiones.

De forma similar a otros modelos de lenguaje grande, la salida de DBRX Instruct puede omitir algunos hechos y, en ocasiones, generar información falsa. Databricks recomienda usar la generación aumentada de recuperación (RAG) en escenarios en los que la precisión es especialmente importante.

Los modelos DBRX utilizan el siguiente mensaje del sistema predeterminado para asegurar la relevancia y precisión en las respuestas del modelo.

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Mixtral-8x7B Instruct

Importante

Este modelo ya no se admite después del 30 de abril de 2025. Consulte Modelos descontinuados para ver los modelos de reemplazo recomendados.

Mixtral-8x7B Instruct es una mezcla dispersa de alta calidad del modelo experto (SMoE) entrenado por Mistral AI. Mixtral-8x7B Instruct se puede usar para una variedad de tareas como responder preguntas, resumir y extraer.

Mixtral es capaz de manejar longitudes de contexto de hasta 32.000 tokens. Mixtral puede procesar inglés, francés, italiano, alemán y español. Mixtral iguala o supera a Llama 2 70B y GPT3.5 en la mayoría de los benchmarks (rendimiento Mixtral), siendo cuatro veces más rápido que Llama 70B durante la inferencia.

Como sucede con otros modelos de lenguaje de gran tamaño, no se debe confiar en que el modelo Mixtral-8x7B Instruct generará información objetivamente precisa. Aunque se han realizado grandes esfuerzos para limpiar los datos de preentrenamiento, es posible que este modelo pueda generar resultados lascivos, sesgados o ofensivos. Para reducir el riesgo, Databricks utiliza por defecto una variante del mensaje del sistema en modo seguro de Mistral .

GTE grande (Inglés)

Importante

GTE Grande (En) se proporciona bajo y sujeto a la licencia Apache 2.0, Copyright © The Apache Software Foundation, Todos los derechos reservados. Los clientes son responsables de garantizar el cumplimiento de las licencias de modelo aplicables.

Inserción de texto general (GTE) es un modelo de inserción de texto que puede asignar cualquier texto a un vector de inserción de 1024 dimensiones y una ventana de inserción de 8192 tokens. Estos vectores se pueden usar en bases de datos vectoriales para VM y para tareas como recuperación, clasificación, respuesta a preguntas, agrupación en clústeres o búsqueda semántica. Este punto de conexión sirve la versión en inglés del modelo y no genera incrustaciones normalizadas.

Los modelos de inserción son especialmente eficaces cuando se usan junto con los LLM en casos de uso de generación aumentada de recuperación (RAG). GTE se puede usar para buscar fragmentos de texto relevantes en fragmentos grandes de documentos que se pueden usar en el contexto de un LLM.

BGE grande (inglés)

BAAI General Embedding (BGE) es un modelo de incrustación de texto que puede mapear cualquier texto en un vector de incrustación de 1024 dimensiones y una ventana de incrustación de 512 tokens. Estos vectores se pueden usar en bases de datos vectoriales para LLMs y para tareas como recuperación, clasificación, respuesta a preguntas, agrupación o búsqueda semántica. Este punto de conexión sirve la versión en inglés del modelo y genera incrustaciones normalizadas.

Los modelos de inserción son especialmente eficaces cuando se usan junto con los LLM en casos de uso de generación aumentada de recuperación (RAG). BGE se puede usar para buscar fragmentos de texto relevantes en fragmentos grandes de documentos que se pueden usar en el contexto de un LLM.

En las aplicaciones RAG, es posible que pueda mejorar el rendimiento del sistema de recuperación mediante la inclusión de un parámetro de instrucción. Los autores de BGE recomiendan probar la instrucción "Represent this sentence for searching relevant passages:" para las incrustaciones de consultas, aunque su impacto en el rendimiento depende del dominio.

Recursos adicionales