Modèles pris en charge pour le paiement par jeton
Important
Seuls les modèles GTE Large (En) et Meta Llama 3.3 70B Instruct sont disponibles dans les régions de paiement par jeton UE et États-Unis prises en charge.
Consultez les limites des API de modèle de base pour les modèles de paiement par jeton uniquement pris en charge dans les régions des États-Unis.
Cet article décrit les modèles ouverts de pointe pris en charge par les APIs Databricks Foundation Model en mode paiement par jeton.
Vous pouvez envoyer des requêtes à ces modèles à l’aide des points de terminaison de paiement par jeton disponibles dans votre espace de travail Databricks. Consultez modèles de base de requêtes et table de modèles pris en charge par jeton de paiement par jeton pour les noms des points de terminaison de modèle à utiliser.
Outre la prise en charge des modèles en mode paiement par jeton, les API Foundation Model offrent également un mode de débit approvisionné. Databricks recommande le débit approvisionné pour les charges de travail de production. Ce mode prend en charge tous les modèles d’une famille d’architecture de modèle (par exemple, les modèles DBRX), y compris les modèles affinés et personnalisés préentraînés pris en charge en mode paiement par jeton. Consultez API Foundation Model en débit approvisionné pour obtenir la liste des architectures prises en charge.
Vous pouvez interagir avec ces modèles pris en charge à l’aide de la AI Playground.
Meta Llama 3.3 70B Instruct
Important
À compter du 11 décembre 2024, Meta-Llama-3.3-70B-Instruct remplace la prise en charge de Meta-Llama-3.1-70B-Instruct dans les points de terminaison de paiement par jeton des API de modèle de base.
Important
Meta Llama 3.3 est concédé sous licence LLAMA 3.3 Community License, Copyright © Meta Platforms, Inc. Tous les droits réservés. Les clients sont responsables de leur conformité aux termes de cette licence et de la Llama 3.3 Acceptable Use Policy.
Meta-Llama-3.3-70B-Instruct est un modèle de langage volumineux de pointe, disposant d'un contexte de 128 000 jetons, créé et entraîné par Meta. Le modèle prend en charge plusieurs langues et est optimisé pour les cas d’usage de dialogue. En savoir plus sur le Meta Llama 3.3.
Comme pour d’autres modèles de langage volumineux, la sortie de Llama-3 peut omettre certains faits et parfois produire de fausses informations. Databricks recommande d’utiliser la récupération de génération augmentée (RAG) dans les scénarios où la précision est particulièrement importante.
Meta Llama 3.1 405B Instruct
Important
L'utilisation de ce modèle avec les API du modèle de base est disponible dans Aperçu public. Contactez votre équipe de compte Databricks si vous rencontrez des échecs de point de terminaison ou des erreurs de stabilisation lors de l’utilisation de ce modèle.
Important
Meta Llama 3.1 est concédé sous licence LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Tous les droits réservés. Les clients sont responsables de la conformité aux licences de modèle applicables.
Meta-Llama-3.1-405B-Instruct est le plus grand modèle de langage de grande taille ouvertement disponible, conçu et entraîné par Meta, et distribué par Azure Machine Learning à l’aide du catalogue de modèles AzureML. L’utilisation de ce modèle permet aux clients de déverrouiller de nouvelles fonctionnalités, telles que le raisonnement avancé et multiétape et la génération de données synthétiques de qualité. Ce modèle est compétitif avec GPT-4-Turbo en termes de qualité.
Comme Meta-Llama-3.1-70B-Instruct, ce modèle a un contexte de 128 000 jetons et une prise en charge dans dix langues. Il s’aligne sur les préférences humaines pour l’utilité et la sécurité, et est optimisé pour les cas d’usage de dialogue. En savoir plus sur les modèles Meta Llama 3.1.
Comme pour d’autres modèles de langage volumineux, la sortie de Llama-3.1 peut omettre certains faits et parfois produire de fausses informations. Databricks recommande d’utiliser la récupération de génération augmentée (RAG) dans les scénarios où la précision est particulièrement importante.
DBRX Instruct
Important
Ce modèle n’est plus pris en charge après le 30 avril 2025. Consultez les modèles retirés pour connaître le modèle recommandé de remplacement.
Important
DBRX est fourni sous et soumis à la licence Databricks Open Model, Copyright © Databricks, Inc. Tous les droits réservés. Les clients sont responsables de s'assurer de la conformité aux licences de modèle applicables, y compris la politique d'utilisation acceptable Databricks .
DBRX Instruct est un modèle de langage de mélange d’experts (MoE) à la pointe de la technologie entraîné par Databricks.
Le modèle dépasse les modèles open source établis sur des benchmarks standard et excelle dans un large ensemble de tâches en langage naturel, comme la synthèse de texte, la réponse aux questions, l’extraction et le codage.
DBRX Instruct peut gérer jusqu’à 32 000 jetons de longueur d’entrée et génère des sorties allant jusqu’à 4 000 jetons. Grâce à son architecture MoE, DBRX Instruct est très efficace pour l’inférence, activant uniquement 36B paramètres sur un total de 132B de paramètres entraînés. Le point de terminaison de paiement par jeton qui sert ce modèle a une limite de taux d’une requête par seconde. Consultez Limites et régions de la mise en service de modèles.
Comme pour d’autres modèles de langage volumineux, la sortie DBRX Instruct peut omettre certains faits et parfois produire de fausses informations. Databricks recommande d’utiliser la récupération de génération augmentée (RAG) dans les scénarios où la précision est particulièrement importante.
Les modèles DBRX utilisent l’invite système par défaut suivante pour garantir la pertinence et la précision dans les réponses de modèle :
You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.
Mixtral-8x7B Instruct
Important
Ce modèle n’est plus pris en charge après le 30 avril 2025. Consultez modèles retirés pour le modèle de remplacement recommandé.
Mixtral-8x7B Instruct est un modèle de rare mixture d’experts (SMoE, Sparse Mixture of Experts) de haute qualité entraîné par Mistral AI. Mixtral-8x7B Instruct peut être utilisé pour diverses tâches telles que la réponse aux questions, la synthèse et l’extraction.
Mixtral peut gérer les longueurs de contexte jusqu’à 32 000 jetons. Mixtral peut traiter l’anglais, le français, l’italien, l’allemand et l’espagnol. Mixtral égale ou surclasse Llama 2 70B et GPT3.5 sur la plupart des benchmarks (Mixtral performance), tout en étant quatre fois plus rapide que Llama 2 70B pendant l’inférence.
Comme pour d’autres modèles de langage volumineux, le modèle Instruct Mixtral-8x7B ne doit pas être utilisé pour produire des informations factuellement précises. Bien que de grands efforts aient été déployés pour nettoyer les données de préentraînement, il est possible que ce modèle puisse générer des sorties lédiques, biaisées ou offensives. Pour réduire les risques, Databricks utilise par défaut une variante de l’invite système de mode sans échec de Mistral.
GTE Large (En)
Important
GTE Large (En) est fourni sous et soumis à la licence Apache 2.0, Copyright © The Apache Software Foundation, All rights reserved. Les clients sont responsables de la conformité aux licences de modèle applicables.
General Text Embedding (GTE) est un modèle d’incorporation de texte pouvant mapper n’importe quel texte à un vecteur d’incorporation à 1 024 dimensions et une fenêtre d’incorporation de 8 192 jetons. Ces vecteurs peuvent être utilisés dans les bases de données vectorielles pour les machines virtuelles et pour les tâches telles que la récupération, la classification, la réponse aux questions, le clustering ou la recherche sémantique. Ce point de terminaison sert la version anglaise du modèle et ne génère pas d’incorporations normalisées.
Les modèles d’incorporation sont particulièrement efficaces lorsqu’ils sont utilisés en tandem avec les LLM pour les cas d’usage de récupération de génération augmentée (RAG). GTE peut être utilisé pour rechercher des extraits de texte pertinents dans de grands blocs de documents qui peuvent être utilisés dans le contexte d’un LLM.
BGE Large (En)
BGE (BAAI General Embedding) est un modèle d’incorporation de texte qui peut mapper n’importe quel texte à un vecteur d’incorporation de dimension 1024 et une fenêtre d’incorporation de 512 jetons. Ces vecteurs peuvent être utilisés dans les bases de données vectorielles pour les machines virtuelles et pour les tâches telles que la récupération, la classification, la réponse aux questions, le clustering ou la recherche sémantique. Ce point de terminaison sert la version anglaise du modèle et génère des incorporations normalisées.
Les modèles d'incorporation sont particulièrement efficaces lorsqu'ils sont utilisés en tandem avec les LLMs pour les cas d'utilisation de génération augmentée par récupération (RAG). BGE peut être utilisé pour rechercher des extraits de texte pertinents dans de grands blocs de documents qui peuvent être utilisés dans le contexte d’un LLM.
Dans les applications RAG, vous pouvez être en mesure d’améliorer les performances de votre système de récupération en incluant un paramètre d’instruction. Les auteurs BGE recommandent d’essayer l’instruction "Represent this sentence for searching relevant passages:"
pour les incorporations de requêtes, bien que son impact sur les performances dépend du domaine.
Ressources additionnelles
- modèles de base de requêtes
- Référence de l’API REST du modèle de base