Limites et régions de la mise en service de modèles

Article
03/10/2025

Cet article résume les limitations et la disponibilité de région pour le service de modèles Mosaic AI et les types de points de terminaison pris en charge.

Limites des ressources et de la charge utile

Le Service de modèles Mosaic AI impose des limites par défaut pour garantir des performances fiables. Si vous avez des commentaires sur ces limites, contactez votre équipe de compte Databricks.

Le tableau suivant récapitule les limitations en matière de ressources et de charges utiles pour les points de terminaison de service de modèles.

Fonctionnalité	Granularité	Limite
Taille de charge utile	Par demande	16 MO. Pour les points de terminaison servant des modèles de base , des modèles externes, ou agents IA la limite est de 4 Mo.
Taille de la demande/réponse	Par demande	Toute demande/réponse supérieure à 1 Mo n’est pas journalisée.
Requêtes par seconde	Par espace de travail	200, mais peut être augmenté à 25 000 ou plus en contactant votre équipe de compte Databricks.
Durée d’exécution du modèle	Par demande	120 secondes
Utilisation de la mémoire du modèle de point de terminaison du processeur	Par point de terminaison	4 Go
Utilisation de la mémoire du modèle de point de terminaison du GPU	Par point de terminaison	Supérieure ou égale à la mémoire du GPU affectée, dépend de la taille de la charge de travail du GPU
Accès concurrentiel provisionné	Par modèle et par espace de travail	Concurrence de 200. Vous pouvez augmenter cette valeur en accédant à votre compte Databricks.
Latence de surcharge	Par demande	Moins de 50 millisecondes
Scripts d’initialisation		Les scripts init ne sont pas pris en charge.
Limites du taux de transfert des API Foundation Model (paiement par jeton)	Par espace de travail	Si les limites suivantes sont insuffisantes pour votre cas d’utilisation, Databricks recommande d’utiliser le débit approvisionné. - Llama 3.3 70B Instruct a une limite de 2 requêtes par seconde et 1200 requêtes par heure. - Llama 3.1 405B Instruct a une limite de 1 requête par seconde et de 1 200 requêtes par heure. - Le modèle DBRX Instruct a une limite de 1 requête par seconde. - Mixtral-8x 7B Instruct a une limite de débit par défaut de 2 requêtes par seconde. - GtE Large (En) a une limite de débit de 150 requêtes par seconde - BGE Large (En) a une limite de débit de 600 requêtes par seconde.
Limites de débit des API du modèle de base (débit approvisionné)	Par espace de travail	200

Limitations de mise en réseau et de sécurité

Les points de terminaison au service des modèles sont protégés par le contrôle d’accès et respectent les règles d’entrée liées au réseau configurées sur l’espace de travail, dont les listes d’adresses IP autorisées et Private Link.
La connectivité privée (par exemple, Azure Private Link) est prise en charge uniquement pour les points de terminaison de service de modèle qui utilisent un débit approvisionné ou des points de terminaison qui servent des modèles personnalisés.
Par défaut, Model Serving ne prend pas en charge Private Link sur des points de terminaison externes (par exemple, Azure OpenAI). La prise en charge de cette fonctionnalité est évaluée et implémentée par région. Contactez l’équipe en charge de votre compte Azure Databricks pour plus d’informations.
Model Service ne fournit pas de correctifs de sécurité aux images de modèle existantes en raison du risque de déstabilisation des déploiements de production. Une nouvelle image de modèle créée à partir d’une nouvelle version de modèle contient les derniers correctifs. Contactez votre équipe de compte Databricks pour plus d’informations.

Limites des API Foundation Model

Remarque

Dans le cadre de la fourniture des API Foundation Model, Databricks peut traiter vos données en dehors de la région où vos données proviennent, mais pas en dehors de l’emplacement géographique approprié.

Pour les charges de travail de débit de paiement par jeton et de débit provisionné :

Seuls les administrateurs d’espace de travail peuvent modifier les paramètres de gouvernance, tels que les limites de débit pour les points de terminaison des API Foundation Model. Pour modifier les limites du taux de transfert, effectuez les étapes suivantes :
1. Ouvrez l’interface utilisateur de mise en service dans votre espace de travail pour afficher vos points de terminaison de mise en service.
2. Dans le menu kebab du point de terminaison des API Foundation Model à modifier, sélectionnez Afficher les détails.
3. Dans le menu kebab en haut à droite de la page des détails des points de terminaison, sélectionnez Modifier la limite du taux de transfert.
Les modèles d’incorporation GTE Large (En) ne génèrent pas d’incorporations normalisées.

Limites de paiement par jeton

Les limites suivantes concernent les API Foundation Model pour les charges de travail de paiement par jeton :

Les charges de travail de paiement par jeton sont conformes HIPAA.
Les charges de travail de paiement par jeton ne sont pas conformes au profil de sécurité de conformité.
Les modèles Meta Llama 3.3 70B et GTE Large (En) sont disponibles dans les régions prises en charge par jeton l’UE et les États-Unis.
Les modèles de paiement par jeton suivants sont pris en charge uniquement dans les API Foundation Model dans les régions de paiement par jeton prises en charge aux États-Unis :
- Meta Llama 3.1 405B Instruct
- DBRX Instruct
- Mixtral-8x7B Instruct
- BGE Large (En)
Si votre espace de travail se trouve dans une région Model Service, mais pas dans une région états-Unis ou ue, votre espace de travail doit être activé pour le traitement intergéographique des données. Lorsqu’elle est activée, votre charge de travail de paiement par jeton est acheminée vers les États-Unis. Databricks Geo. Pour voir quelles régions géographiques traitent les charges de travail de paiement par jeton, consultez Databricks Designated Services.

Limites de débit approvisionnées

Les limites suivantes concernent le débit provisionné des charges de travail des API Foundation Model :

Le débit approvisionné prend en charge le profil de conformité HIPAA et est recommandé pour les charges de travail qui nécessitent des certifications de conformité.
Pour utiliser l’architecture de modèle DBRX pour une charge de travail de débit approvisionné, votre point de terminaison de service doit se trouver dans l’une des régions suivantes :
- eastus
- eastus2
- westus
- centralus
- westeurope
- northeurope
- australiaeast
- canadacentral
- brazilsouth
Le tableau suivant montre la disponibilité régionale des modèles Meta Llama 3.1, 3.2 et 3.3 pris en charge. Consultez Déployer des modèles de base affinés pour obtenir des conseils sur la façon de déployer des modèles affinés.
Pour déployer un modèle Meta Llama à partir de system.ai dans Unity Catalog, vous devez choisir la version applicable Instruct. Les versions de base des modèles Meta Llama ne sont pas prises en charge pour le déploiement à partir du catalogue Unity. Voir [Recommandé] Déployez des modèles de base à partir du catalogue Unity.

Variante de modèle Meta Llama	Régions
meta-llama/Llama-3.1-8B	- `australiaeast` - `centralus` - `eastus` - `eastus2` - `northcentralus` - `southcentralus` - `westus` - `westus2` - `northeurope` - `westeurope` - `uksouth` - `japaneast`
meta-llama/Llama-3.1-8B-Instruct	- `australiaeast` - `centralus` - `eastus` - `eastus2` - `northcentralus` - `southcentralus` - `westus` - `westus2` - `northeurope` - `westeurope` - `uksouth` - `japaneast`
meta-llama/Llama-3.1-70B	- `australiaeast` - `centralus` - `eastus` - `eastus2` - `northcentralus` - `southcentralus` - `westus` - `westus2` - `northeurope` - `westeurope` - `uksouth` - `japaneast`
meta-llama/Llama-3.1-70B-Instruct	- `australiaeast` - `centralus` - `eastus` - `eastus2` - `northcentralus` - `southcentralus` - `westus` - `westus2` - `northeurope` - `westeurope` - `uksouth` - `japaneast`
meta-llama/Llama-3.1-405B	- `australiaeast` - `centralus` - `eastus` - `eastus2` - `northcentralus` - `southcentralus` - `westus` - `westus2` - `northeurope` - `westeurope` - `uksouth` - `japaneast`
meta-llama/Llama-3.1-405B-Instruct	- `australiaeast` - `centralus` - `eastus` - `eastus2` - `northcentralus` - `southcentralus` - `westus` - `westus2` - `northeurope` - `westeurope` - `uksouth` - `japaneast`
meta-llama/Llama-3.2-1B	- `australiaeast` - `centralus` - `eastus` - `eastus2` - `northcentralus` - `southcentralus` - `westus` - `westus2` - `northeurope` - `westeurope` - `uksouth` - `japaneast`
meta-llama/Llama-3.2-1B-Instruct	- `australiaeast` - `centralus` - `eastus` - `eastus2` - `northcentralus` - `southcentralus` - `westus` - `westus2` - `northeurope` - `westeurope` - `uksouth` - `japaneast`
meta-llama/Llama-3.2-3B	- `australiaeast` - `centralus` - `eastus` - `eastus2` - `northcentralus` - `southcentralus` - `westus` - `westus2` - `northeurope` - `westeurope` - `uksouth` - `japaneast`
meta-llama/Llama-3.2-3B-Instruct	- `australiaeast` - `centralus` - `eastus` - `eastus2` - `northcentralus` - `southcentralus` - `westus` - `westus2` - `northeurope` - `westeurope` - `uksouth` - `japaneast`
meta-llama/Llama-3.3-70B	- `australiaeast` - `centralus` - `eastus` - `eastus2` - `northcentralus` - `southcentralus` - `westus` - `westus2` - `northeurope` - `westeurope` - `uksouth` - `japaneast`

Disponibilité dans les régions

Remarque

Si vous avez besoin d’un point de terminaison dans une région non prise en charge, contactez l’équipe en charge de votre compte Azure Databricks.

Si votre espace de travail est déployé dans une région qui prend en charge le service de modèle, mais qu’il est servi par un plan de contrôle dans une région non prise en charge, l’espace de travail ne prend pas en charge le service de modèle. Si vous tentez d’utiliser le modèle servant dans un tel espace de travail, un message d’erreur s’affiche indiquant que votre espace de travail n’est pas pris en charge. Contactez l’équipe en charge de votre compte Azure Databricks pour plus d’informations.

Pour plus d’informations sur la disponibilité régionale des fonctionnalités, consultez Modèle desservant la disponibilité régionale.

Partager via