Modèles de base pris en charge sur le service de modèle Mosaic AI
Cet article décrit les modèles de base que vous pouvez servir en utilisant Service de modèles Mosaic AI.
Les modèles de base sont des réseaux neuronaux volumineux et préentraînés qui sont formés sur de grandes et larges gammes de données. Ces modèles sont conçus pour apprendre des modèles généraux dans le langage, les images ou d’autres types de données, et peuvent être affinés pour des tâches spécifiques avec une formation supplémentaire.
Model Service offre des options flexibles pour l’hébergement et l’interrogation de modèles de base en fonction de vos besoins :
- paiement par jeton : idéal pour l’expérimentation et l’exploration rapide. Cette option vous permet d’interroger des points de terminaison préconfigurés dans votre espace de travail Databricks sans engagements d’infrastructure initiaux.
- débit provisionné: recommandé pour les cas d’utilisation de production nécessitant des garanties de performances. Cette option permet le déploiement de modèles de base affinés avec des points de terminaison de service optimisés.
- modèles externes: cette option permet d’accéder aux modèles de base hébergés en dehors de Databricks, tels que ceux fournis par OpenAI ou Anthropic. Ces modèles peuvent être gérés de manière centralisée dans Databricks pour une gouvernance simplifiée.
Modèles de base hébergés sur Databricks
Databricks héberge des modèles open foundation de pointe, comme Meta Llama. Ces modèles sont mis à disposition à l’aide d’API Foundation Model et sont accessibles à l’aide d’un jeton payant ou d’un débit provisionné.
paiement par jeton
Les API Foundation Model paiement par jeton sont recommandées pour la prise en main et l’exploration rapide. Lorsqu’un modèle est pris en charge à l’aide des API Foundation Model pay-per token, Databricks fournit un point de terminaison préconfiguré dans votre espace de travail Azure Databricks que vous pouvez tester et interroger. Vous pouvez également interagir et discuter avec ces modèles à l’aide de la AI Playground.
Le tableau suivant récapitule les modèles pris en charge pour le paiement par jeton. Consultez Limites des API des modèles de base pour la disponibilité des modèles spécifique aux régions.
Essentiel
- À compter du 11 décembre 2024, Meta-Llama-3.3-70B-Instruct remplace la prise en charge de Meta-Llama-3.1-70B-Instruct dans les points de terminaison de paiement par jeton des API de modèle de base.
- Meta-Llama-3.1-405B-Instruct est le plus grand modèle de langage ouvert de pointe disponible, créé et entraîné par Meta et distribué par Azure Machine Learning via le catalogue de modèles AzureML.
- Les modèles suivants sont désormais mis hors service. Consultez Modèles mis hors service pour connaître les modèles de remplacement recommandés.
- Llama 2 70B Chat
- Instruction MPT 7B
- MPT 30B Instruct
Modèle | Type de tâche | Point de terminaison | Remarques |
---|---|---|---|
GTE Large (anglais) | Intégration | databricks-gte-large-en |
Ne génère pas d’incorporations normalisées. |
Meta-Llama-3.3-70B-Instruct | Chat | databricks-meta-llama-3-3-70b-instruct |
|
Meta-Llama-3.1-405B-Instruct* | Chat | databricks-meta-llama-3-1-405b-instruct |
|
DBRX Instruct | Chat | databricks-dbrx-instruct |
Ce modèle n’est plus pris en charge après le 30 avril 2025. |
Mixtral-8x7B Instruct | Chat | databricks-mixtral-8x7b-instruct |
Ce modèle n’est plus pris en charge après le 30 avril 2025. |
BGE Large (English) | Intégration | databricks-bge-large-en |
*
contactez votre équipe de compte Databricks si vous rencontrez des échecs de point de terminaison ou des erreurs de stabilisation lors de l’utilisation de ce modèle.
Débit approvisionné
Le débit approvisionné des API des modèles de base est recommandé pour les cas de production. Vous pouvez créer un point de terminaison qui utilise le débit provisionné pour déployer des architectures de modèle de base affinées. Lorsque vous utilisez le débit provisionné, le point de terminaison de service est optimisé pour les charges de travail de modèle de base qui nécessitent des garanties de performances.
Le tableau suivant récapitule les architectures de modèle prises en charge pour le débit approvisionné. Databricks recommande d’utiliser les modèles de base préentraînés dans Unity Catalog pour les charges de travail à débit provisionné. Consultez Limites des débits approvisionnés pour les variantes du modèle Meta Llama prises en charge et la disponibilité dans les régions.
Essentiel
Meta Llama 3.3 est concédé sous la licence de la communauté LLAMA 3.3, Copyright © Meta Platforms, Inc. Tous droits réservés. Les clients sont responsables du respect des termes de cette licence et de la stratégie d’utilisation acceptable de Llama 3.3.
Meta Llama 3.2 est concédé sous la licence de la communauté LLAMA 3.2, Copyright © Meta Platforms, Inc. Tous droits réservés. Les clients sont responsables du respect des termes de cette licence et de la stratégie d’utilisation acceptable de Llama 3.2.
Meta Llama 3.1 est concédé sous la licence de la communauté LLAMA 3.1, Copyright © Meta Platforms, Inc. Tous droits réservés. Les clients sont responsables du respect des licences de modèle applicables.
Architecture du modèle | Types de tâches | Remarques |
---|---|---|
DeepSeek R1 | Chat | Vous pouvez télécharger ces modèles, les inscrire dans le catalogue Unity et les déployer à l’aide du débit approvisionné. |
Meta Llama 3.3 | Conversation ou complétion | |
Meta Llama 3.2 3B | Conversation ou saisie | |
Meta Llama 3.2 1B | Conversation ou saisie | |
Meta Llama 3.1 | Conversation ou saisie | |
Meta Llama 3 | Conversation ou saisie | |
Meta Llama 2 | Conversation ou saisie | |
DBRX | Conversation ou saisie | |
Mistral | Conversation ou saisie | |
Mixtral | Conversation ou saisie | |
MPT | Conversation ou saisie | |
GTE v1.5 (anglais) | Intégration | Ne génère pas d’incorporations normalisées. |
BGE v1.5 (anglais) | Incorporation |
Accéder aux modèles de base hébergés en dehors de Databricks
Les modèles de base créés par des fournisseurs LLM, tels que OpenAI et Anthropic, sont également accessibles sur Databricks à l’aide de modèles externes. Ces modèles sont hébergés en dehors de Databricks et vous pouvez créer un point de terminaison pour les interroger. Ces points de terminaison peuvent être régis de manière centralisée à partir d’Azure Databricks, ce qui simplifie l’utilisation et la gestion de différents fournisseurs LLM au sein de votre organisation.
Le tableau suivant présente une liste non exhaustive des modèles pris en charge et des types de points de terminaison correspondants. Vous pouvez utiliser les associations de modèles répertoriées pour vous aider à configurer votre point de terminaison pour tous les types de modèles nouvellement publiés, car ils deviennent disponibles avec un fournisseur donné. Les clients sont responsables du respect des licences de modèle applicables.
Remarque
En raison du développement rapide des grands modèles de langage (LLM), aucune garantie ne peut être donnée quant au fait que cette liste soit à jour. Les nouvelles versions de modèle du même fournisseur sont généralement prises en charge même si elles ne figurent pas dans la liste.
Fournisseur du modèle | llm/v1/completions | llm/v1/chat | llm/v1/embeddings |
---|---|---|---|
OpenAI** | - gpt-3.5-turbo-instruct - babbage-002 - davinci-002 |
- o1 - o1-mini - o1-mini-2024-09-12 - gpt-3.5-turbo - gpt-4 - gpt-4-turbo - gpt-4-turbo-2024-04 - gpt-4o - gpt-4o-2024-05-13 - gpt-4o-mini |
- text-embedding-ada-002 - text-embedding-3-large - text-embedding-3-small |
Azure OpenAI** | - text-davinci-003 - gpt-35-turbo-instruct |
- o1 - o1-mini - gpt-35-turbo - gpt-35-turbo-16k - gpt-4 - gpt-4-turbo - gpt-4-32k - gpt-4o - gpt-4o-mini |
- text-embedding-ada-002 - text-embedding-3-large - text-embedding-3-small |
Anthropique | - claude-1 - claude-1.3-100k - claude-2 - claude-2.1 - claude-2.0 - claude-instant-1.2 |
- claude-3-5-sonnet-latest - claude-3-5-haiku-latest - claude-3-5-opus-latest - claude-3-5-sonnet-20241022 - claude-3-5-haiku-20241022 - claude-3-5-sonnet-20240620 - claude-3-haiku-20240307 - claude-3-opus-20240229 - claude-3-sonnet-20240229 |
|
Cohere** | - command - command-light |
- command-r7b-12-2024 - command-r-plus-08-2024 - command-r-08-2024 - command-r-plus - command-r - command - command-light-nightly - lumière de commande - command-nightly |
- embed-english-v2.0 - embed-multilingual-v2.0 - embed-english-light-v2.0 - embed-english-v3.0 - embed-english-light-v3.0 - embed-multilingual-v3.0 - embed-multilingual-light-v3.0 |
Service de modèles Mosaic AI | Point de terminaison de service Databricks | Point de terminaison de service Databricks | Point de terminaison de service Databricks |
Amazon Bedrock | Anthropic : - claude-instant-v1 - claude-v2 Cohere : - command-text-v14 - command-light-text-v14 Laboratoires AI21 : - j2-grande-instruct - j2-jumbo-instruct - j2-mid - j2-mid-v1 - j2-ultra - j2-ultra-v1 |
Anthropique : - claude-3-5-sonnet-20241022-v2:0 - claude-3-5-haiku-20241022-v1:0 - claude-3-opus-20240229-v1:0 - claude-3-sonnet-20240229-v1:0 - claude-3-5-sonnet-20240620-v1:0 Cohere : - command-r-plus-v1:0 - command-r-v1:0 |
Amazone: - titan-embed-text-v1 - titan-embed-g1-text-02 Cohere : - embed-english-v3 - embed-multilingual-v3 |
AI21 Labs† | - j2-mid - j2-light - j2-ultra |
||
Google Cloud Vertex AI | text-bison | - chat-bison - gemini-pro - gemini-1.0-pro - gemini-1.5-pro - gemini-1.5-flash - gemini-2.0-flash |
- incorporation de texte-004 - incorporation de texte-005 - textembedding-gecko |
**
Le fournisseur de modèles prend en charge les modèles de saisie et de conversation ajustés. Pour interroger un modèle affiné, renseignez le champ name
de la configuration external model
avec le nom de votre modèle affiné.
† fournisseur de modèles prend en charge les modèles d’achèvement personnalisés.
Créer des points de terminaison de mise en service de modèles de base
Pour interroger et utiliser des modèles de base dans vos applications IA, vous devez d’abord créer un point de terminaison de service de modèle. Model Service utilise une API unifiée et une interface utilisateur pour créer et mettre à jour des points de terminaison de service de modèle de base.
- Pour créer un point de terminaison qui sert des variantes affinées de modèles de base mis à disposition à l’aide du débit provisionné des API Foundation Model, consultez Créer votre point de terminaison de débit approvisionné à l’aide de l’API REST.
- Pour créer des points de terminaison de service qui accèdent aux modèles de base mis à disposition avec l’offre de modèles externes, consultez Créer un point de terminaison de mise en service de modèle externe.
Interroger les points de terminaison de service des modèles de base
Après avoir créé votre point de terminaison de service, vous pouvez interroger votre modèle de base. Model Service utilise une API et un SDK compatibles OpenAI unifiés pour interroger des modèles de base. Cette expérience unifiée simplifie l’expérience et la personnalisation des modèles de base pour la production dans les clouds et fournisseurs pris en charge.