Types de déploiement dans l’inférence de modèle Azure AI
L’inférence de modèle Azure AI dans Azure AI services fournit aux clients des choix sur la structure d’hébergement qui correspond à leurs modèles d’entreprise et d’utilisation. Le service propose deux principaux types de déploiement : standard et approvisionné. Standard est proposé avec une option de déploiement mondial qui permet d’acheminer le trafic à l’échelle mondiale pour fournir un débit plus élevé. Approvisionné est également offert avec une option de déploiement global, ce qui permet aux utilisateurs d’acheter et de déployer des unités de débit approvisionnées sur l’ensemble de l’infrastructure globale Azure.
Tous les déploiements peuvent effectuer exactement les mêmes opérations d’inférence, mais la facturation, la mise à l’échelle et les performances sont sensiblement différentes. Dans le cadre de la conception de votre solution, vous devez prendre deux décisions clés :
- Besoins de résidence des données : ressources mondiales versus régionales
- Volume d’appel : standard versus approvisionné
La prise en charge des types de déploiement varie selon le modèle et le fournisseur de modèles.
Types de déploiement mondial versus régional
Pour les déploiements standard et approvisionné, vous avez le choix entre deux types de configuration dans votre ressource : mondial ou régional. Global-Standard est le point de départ recommandé.
Les déploiements globaux utilisent l’infrastructure mondiale d’Azure et acheminent dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. Cela signifie que vous obtenez les limites de débit initiales les plus élevées et la meilleure disponibilité de modèle avec l’option globale, tout en permettant de fournir notre contrat SLA de durée de bon fonctionnement et notre faible latence. Pour les charges de travail à volumes élevés au-dessus du niveau d’utilisation spécifié sur la norme standard et globale, vous pouvez rencontrer des variations de latence accrues. Pour les clients qui nécessitent une variation de latence moindre lors de l’utilisation de charges de travail importantes, nous vous recommandons d’acheter un débit approvisionné.
Nos déploiements globaux constituent le premier emplacement pour tous les nouveaux modèles et toutes les nouvelles fonctionnalités. Les clients avec de très grandes exigences de débit ont tout intérêt à envisager notre offre de déploiement approvisionné.
Standard
Les déploiements standard fournissent un modèle de facturation de paiement par appel sur le modèle choisi. Fournit le moyen le plus rapide de commencer, car vous payez uniquement ce que vous consommez. Les modèles disponibles dans chaque région ainsi que le débit peuvent être limités.
Les déploiements standard sont optimisés pour les charges de travail à volume bas ou moyen avec une rafale élevée. Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence.
Seuls les modèles Azure OpenAI prennent en charge ce type de déploiement.
Standard global
Les déploiements globaux sont disponibles dans les mêmes ressources Azure AI services que les types de déploiements non-globaux, mais ils vous permettent d’utiliser l’infrastructure globale d’Azure pour router dynamiquement le trafic vers le centre de données avec la meilleure disponibilité pour chaque requête. L’option Mondial Standard fournit le quota par défaut le plus élevé et élimine la nécessité d’équilibrer la charge entre plusieurs ressources.
Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence. Le seuil est défini par modèle. Pour les applications qui nécessitent une variation de latence moindre pour une utilisation importante de charges de travail, nous vous recommandons d’acheter un débit approvisionné, si celui-ci est disponible.
Approvisionné global
Les déploiements globaux sont disponibles dans les mêmes ressources Azure AI services que les types de déploiements non globaux, mais ils vous permettent de tirer parti de l’infrastructure globale d’Azure pour router dynamiquement le trafic vers le centre de données avec la meilleure disponibilité pour chaque requête. Les déploiements approvisionnés globaux fournissent une capacité de traitement de modèle réservée pour le débit élevé et prévisible en utilisant une infrastructure globale Azure.
Seuls les modèles Azure OpenAI prennent en charge ce type de déploiement.