Partager via


Limites et régions de la mise en service de modèles

Cet article résume les limitations et la disponibilité de région pour le service de modèles Mosaic AI et les types de points de terminaison pris en charge.

Limites des ressources et de la charge utile

Le Service de modèles Mosaic AI impose des limites par défaut pour garantir des performances fiables. Si vous avez des commentaires sur ces limites, contactez votre équipe de compte Databricks.

Le tableau suivant récapitule les limitations en matière de ressources et de charges utiles pour les points de terminaison de service de modèles.

Fonctionnalité Granularité Limite
Taille de charge utile Par demande 16 Mo. Pour les points de terminaison servant des modèles de base ou des modèles externes, la limite est de 4 Mo.
Requêtes par seconde Par espace de travail 200, mais peut être augmenté à 25 000 ou plus en accédant à votre équipe de compte Databricks.
Durée d’exécution du modèle Par demande 120 secondes
Utilisation de la mémoire du modèle de point de terminaison du processeur Par point de terminaison 4 Go
Utilisation de la mémoire du modèle de point de terminaison du GPU Par point de terminaison Supérieure ou égale à la mémoire du GPU affectée, dépend de la taille de la charge de travail du GPU
Accès concurrentiel provisionné Par modèle et par espace de travail Concurrence de 200. Peut être augmenté en accédant à votre équipe de compte Databricks.
Latence de surcharge Par demande Moins de 50 millisecondes
Scripts d’initialisation Les scripts init ne sont pas pris en charge.
Limites du taux de transfert des API Foundation Model (paiement par jeton) Par espace de travail Si les limites suivantes sont insuffisantes pour votre cas d’utilisation, Databricks recommande d’utiliser le débit approvisionné.

- Llama 3.1 70B Instruct a une limite de 2 requêtes par seconde et de 1 200 requêtes par heure.
- Llama 3.1 405B Instruct a une limite de 1 requête par seconde et de 1 200 requêtes par heure.
- Le modèle DBRX Instruct a une limite de 1 requête par seconde.
- Mixtral-8x 7B Instruct a une limite de débit par défaut de 2 requêtes par seconde.
- GtE Large (En) a une limite de débit de 150 requêtes par seconde
- BGE Large (En) a une limite de débit de 600 requêtes par seconde.
Limites du taux de transfert des API Foundation Model (débit approvisionné) Par espace de travail 200

Limitations de mise en réseau et de sécurité

  • Les points de terminaison au service des modèles sont protégés par le contrôle d’accès et respectent les règles d’entrée liées au réseau configurées sur l’espace de travail, dont les listes d’adresses IP autorisées et Private Link.
  • La connectivité privée (par exemple, Azure Private Link) est prise en charge uniquement pour les points de terminaison de service de modèle qui utilisent un débit approvisionné ou des points de terminaison qui servent des modèles personnalisés.
  • Par défaut, Model Serving ne prend pas en charge Private Link sur des points de terminaison externes (par exemple, Azure OpenAI). La prise en charge de cette fonctionnalité est évaluée et implémentée par région. Contactez l’équipe en charge de votre compte Azure Databricks pour plus d’informations.
  • Model Service ne fournit pas de correctifs de sécurité aux images de modèle existantes en raison du risque de déstabilisation des déploiements de production. Une nouvelle image de modèle créée à partir d’une nouvelle version de modèle contient les derniers correctifs. Contactez votre équipe de compte Databricks pour plus d’informations.

Limites des API Foundation Model

Remarque

Dans le cadre de la fourniture des API Foundation Model, Databricks peut traiter vos données en dehors de la région où vos données proviennent, mais pas en dehors de l’emplacement géographique approprié.

Pour les charges de travail de débit de paiement par jeton et de débit provisionné :

  • Seuls les administrateurs d’espace de travail peuvent modifier les paramètres de gouvernance, tels que les limites de débit pour les points de terminaison des API Foundation Model. Pour modifier les limites du taux de transfert, effectuez les étapes suivantes :
    1. Ouvrez l’interface utilisateur de mise en service dans votre espace de travail pour afficher vos points de terminaison de mise en service.
    2. Dans le menu kebab du point de terminaison des API Foundation Model à modifier, sélectionnez Afficher les détails.
    3. Dans le menu kebab en haut à droite de la page des détails des points de terminaison, sélectionnez Modifier la limite du taux de transfert.
  • Les modèles d’incorporation GTE Large (En) ne génèrent pas d’incorporations normalisées.

Limites de paiement par jeton

Les limites suivantes concernent les API Foundation Model pour les charges de travail de paiement par jeton :

  • Les charges de travail de paiement par jeton ne sont pas conformes à HIPAA ou au profil de sécurité de conformité.
  • Les modèles GtE Large (En) et Meta Llama 3.1 70B Instruct sont disponibles dans les régions prises en charge par jeton et l’UE et les États-Unis.
  • Les modèles de paiement par jeton suivants sont pris en charge uniquement dans les API Foundation Model dans les régions de paiement par jeton prises en charge aux États-Unis :
    • Meta Llama 3.1 405B Instruct
    • DBRX Instruct
    • Mixtral-8x7B Instruct
    • BGE Large (En)
  • Si votre espace de travail se trouve dans une région Model Service, mais pas dans une région états-Unis ou ue, votre espace de travail doit être activé pour le traitement intergéographique des données. Lorsqu’elle est activée, votre charge de travail de paiement par jeton est acheminée vers les États-Unis. Databricks Geo. Pour voir quelles régions géographiques traitent les charges de travail de paiement par jeton, consultez Databricks Designated Services.

Limites de débit approvisionnées

Les limites suivantes concernent les charges de travail de débit provisionnée des API Foundation Model :

  • Le débit approvisionné prend en charge le profil de conformité HIPAA et est recommandé pour les charges de travail qui nécessitent des certifications de conformité.
  • Pour utiliser l’architecture de modèle DBRX pour une charge de travail de débit approvisionné, votre point de terminaison de service doit se trouver dans l’une des régions suivantes :
    • eastus
    • eastus2
    • westus
    • centralus
    • westeurope
    • northeurope
    • australiaeast
    • canadacentral
    • brazilsouth
  • Le tableau suivant montre la disponibilité de la région des modèles Meta Llama 3.1 et 3.2 pris en charge. Consultez Déployer des modèles de base affinés pour obtenir des conseils sur la façon de déployer des modèles affinés.
Variante de modèle Meta Llama Régions
meta-llama/Llama-3.1-8B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-8B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.1-70B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-70B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-405B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.1-405B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
meta-llama/Llama-3.2-1B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-1B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-3B - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope
meta-llama/Llama-3.2-3B-Instruct - centralus
- eastus
- eastus2
- northcentralus
- westus
- westus2
- northeurope
- westeurope

Disponibilité dans les régions

Remarque

Si vous avez besoin d’un point de terminaison dans une région non prise en charge, contactez l’équipe en charge de votre compte Azure Databricks.

Si votre espace de travail est déployé dans une région qui prend en charge le service de modèle, mais qu’il est servi par un plan de contrôle dans une région non prise en charge, l’espace de travail ne prend pas en charge le service de modèle. Si vous tentez d’utiliser le modèle servant dans un tel espace de travail, un message d’erreur s’affiche indiquant que votre espace de travail n’est pas pris en charge. Contactez l’équipe en charge de votre compte Azure Databricks pour plus d’informations.

Pour plus d’informations sur la disponibilité régionale des fonctionnalités, consultez Modèle desservant la disponibilité régionale.