Intégration des unités de débit approvisionnées

Article
12/10/2024

Cet article vous guide tout au long du processus d’intégration des unités de débit approvisionnées (PTU). Une fois que vous avez terminé l’intégration initiale, nous vous recommandons de faire référence au guide de démarrage des PTU.

Quand utiliser des unités de débit approvisionnées (PTU)

Vous devez envisager de basculer des déploiements standard vers les déploiements approvisionnés quand vous avez des exigences de latence et de débit prévisibles et bien définies. Cela se produit généralement quand l’application est prête pour la production ou a déjà été déployée en production et qu’il existe une compréhension du trafic attendu. Les utilisateurs peuvent ainsi prévoir exactement la capacité requise et éviter une facturation non prévue.

Scénarios typiques d’unités de débit approvisionnées

Une application qui est en production ou prête pour la production.
Une application qui a des attentes prévisibles en matière de capacité/d’utilisation.
Une application qui a des exigences sensibles en matière de temps réel/latence.

Remarque

Dans des cas d’usage d’agent ou d’appel de fonction, l’utilisation du jeton peut être variable. Vous devez comprendre l’utilisation prévue de vos jetons par minute (TPM) en détail avant de migrer des charges de travail vers les PTU.

Dimensionnement et estimation : déploiements approvisionnés

La détermination de la quantité appropriée de débit approvisionné ou de PTU nécessaire à votre charge de travail est une étape essentielle pour optimiser les performances et les coûts. Si vous ne connaissez pas les différentes approches disponibles pour estimer un débit au niveau du système, consultez les suggestions d’estimation du débit au niveau du système, passez en revue les suggestions d’estimation du débit au niveau du système dans notre documentation sur la latence et les performances. Cette section décrit comment utiliser les calculatrices de capacité Azure OpenAI pour estimer le nombre d’unités de débit approvisionnées (PTU) requises pour prendre en charge une charge de travail donnée.

Estimation des unités de débit approvisionnées et du coût

Pour obtenir une estimation rapide pour votre charge de travail en utilisant des TPM (Jetons par minute) d’entrée et de sortie, tirez profit du planificateur de capacité intégré dans la section des détails du déploiement de l’écran de dialogue du déploiement. Le planificateur de capacité intégré fait partie du workflow de déploiement permettant de simplifier le dimensionnement et l’allocation de quota d’un déploiement d’unités de débit approvisionnées pour une charge de travail donnée. Pour découvrir plus d’informations sur la procédure d’identification et d’estimation des données de TPM, passez en revue les suggestions dans notre documentation sur la latence et les performances.

Après avoir rempli les données de TPM d’entrée et de sortie dans la calculatrice de capacité intégrée, sélectionnez le bouton Calculatrice pour afficher votre suggestion d’allocation d’unités de débit approvisionnées.

Capture d’écran de la calculatrice de capacité d’unités de débit approvisionnées du workflow de déploiement.

Pour estimer la capacité provisionnée à l’aide des données au niveau de la demande, ouvrez le planificateur de capacité dans Azure AI Foundry. La calculatrice de capacité se trouve sous Ressources partagées>Quota de modèles>Azure OpenAI Approvisionné.

L’option Approvisionné et le planificateur de capacité sont disponibles uniquement dans certaines régions du volet Quota. Si vous ne voyez pas cette option, définissez la région de quota sur Suède Centre pour la rendre disponible. Entrez les paramètres suivants en fonction de votre charge de travail.

Input	Description
Modèle	Modèle OpenAI que vous envisagez d’utiliser. Par exemple : GPT-4
Version	Version du modèle que vous envisagez d’utiliser, par exemple 0614
Pic d’appels par minute	Nombre d’appels par minute qui sont censés être envoyés au modèle
Jetons dans l’appel de prompt	Nombre de jetons dans le prompt pour chaque appel au modèle. Les appels avec des prompts plus grands utilisent davantage le déploiement de PTU. Cette calculatrice suppose actuellement une valeur de prompt unique et s’adresse donc aux charges de travail avec une large variance. Nous vous recommandons d’évaluer votre déploiement sur votre trafic pour déterminer l’estimation la plus précise des PTU nécessaires à votre déploiement.
Jetons dans la réponse du modèle	Nombre de jetons générés par chaque appel au modèle. Les appels avec des tailles de génération plus grandes utiliseront davantage le déploiement de PTU. Cette calculatrice suppose actuellement une valeur de prompt unique et s’adresse donc aux charges de travail avec une large variance. Nous vous recommandons d’évaluer votre déploiement sur votre trafic pour déterminer l’estimation la plus précise des PTU nécessaires à votre déploiement.

Après avoir renseigné les détails requis, sélectionnez le bouton Calculer dans la colonne de sortie.

Les valeurs dans la colonne de sortie correspondent au nombre estimé de PTU requises pour les entrées de charge de travail fournies. La première valeur de sortie représente le nombre estimé de PTU requises pour la charge de travail, arrondi à l’incrément d’échelle PTU le plus proche. La deuxième valeur de sortie représente le nombre estimé brut de PTU requises pour la charge de travail. Les totaux de jetons sont calculés à l’aide de l’équation suivante : Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).

Remarque

Les calculatrices de capacité fournissent une estimation basée sur des critères d’entrée simples. La façon la plus précise de déterminer votre capacité est de comparer un déploiement avec une charge de travail représentative de votre cas d’utilisation.

Présentation du modèle d’achat de débit approvisionné

Azure OpenAI Approvisionné et Approvisionné global sont vendus à la demande sur une base horaire en fonction du nombre d’unités PTU déployées, avec une remise substantielle accordée pour un engagement de durée via l’achat de réservations Azure.

Le modèle horaire est utile pour les besoins de déploiement à court terme, tels que la validation de nouveaux modèles ou l’acquisition d’une capacité pour un hackathon.  Toutefois, les remises fournies par la réservation Azure pour Azure OpenAI Approvisionné et Approvisionné global sont considérables, et pour la plupart des clients qui présentent une utilisation à long terme cohérente, un modèle réservé constitue une proposition plus intéressante.

Remarque

Les clients Azure OpenAI Provisioned intégrés avant la mise à jour en libre-service d’août utilisent un modèle d’achat appelé « modèle d’engagement ». Ces clients peuvent continuer à utiliser cet ancien modèle d’achat parallèlement au modèle d’achat horaire/de réservation. Le modèle d’engagement n’est pas disponible pour les nouveaux clients. Pour plus d’informations sur le modèle d’achat d’engagement et les options de coexistence et de migration, consultez la mise à jour d’août d’Azure OpenAI Provisioned.

Utilisation horaire

Les déploiements Approvisionné et Approvisionné global sont facturés à un taux horaire ($/PTU/h) sur la base du nombre d’unités PTU déployées.  Par exemple, un déploiement de 300 PTU est facturé au taux horaire multiplié par 300.  La tarification d’Azure OpenAI est disponible dans la calculatrice de prix Azure.

Si un déploiement existe partiellement pendant une heure, il est facturé au prorata du nombre de minutes pendant lesquelles il a été déployé au cours de l’heure.  Par exemple, un déploiement qui existe pendant 15 minutes au cours d’une heure encourt 1/4 des frais horaires. 

Si la taille du déploiement est modifiée, les coûts du déploiement sont ajustés pour correspondre au nouveau nombre de PTU.

Le paiement sur une base horaire des déploiements approvisionnés et approvisionnés globaux est idéal pour les scénarios de déploiement à court terme.  Citons par exemple l’évaluation de la qualité et des performances de nouveaux modèles ou l’augmentation temporaire de la capacité en PTU pour couvrir un événement tel qu’un hackathon. 

Toutefois, les clients qui nécessitent une utilisation à long terme des déploiements approvisionnés et approvisionnés globaux peuvent réduire considérablement leurs dépenses par mois en achetant une réservation Azure avec une remise de durée, comme indiqué dans la section suivante.

Remarque

Il n’est pas recommandé de mettre à l’échelle les déploiements de production en fonction du trafic entrant et de les payer uniquement sur une base horaire. Il existe deux raisons à cela :

Les économies réalisées en achetant une réservation Azure pour Azure OpenAI Provisioned sont significatives, et il est plus économique dans de nombreux cas de maintenir un déploiement dimensionné pour un volume de production complet payé via une réservation que de mettre à l’échelle le déploiement selon le trafic entrant.
Le fait d’avoir un quota provisionné inutilisé (PTU) ne garantit pas qu’une capacité sera disponible pour prendre en charge l’augmentation de la taille du déploiement en cas de besoin. Le quota limite le nombre maximal de PTU pouvant être déployées, mais il ne s’agit pas d’une garantie de capacité. La capacité provisionnée pour chaque région et chaque modal change dynamiquement tout au long de la journée et peut ne pas être disponible au moment voulu. Il est donc recommandé de maintenir un déploiement permanent pour couvrir vos besoins en trafic (avec un paiement via une réservation).
Les frais pour les déploiements sur une ressource supprimée continuent jusqu’à ce que la ressource soit vidée. Pour éviter cela, supprimez le déploiement d’une ressource avant de supprimer la ressource. Pour plus d’informations, consultez Récupérer ou vider des ressources Azure AI services supprimées.

Réservations Azure pour des déploiements approvisionnés Azure OpenAI

Vous pouvez bénéficier de remises sur le prix d’utilisation horaire en achetant une réservation Azure pour Azure OpenAI Approvisionné et Approvisionné global. Une réservation Azure est un mécanisme de remise contre un engagement de durée qui est partagé par de nombreux produits Azure. Citons par exemple Compute et Cosmos DB. Pour Azure OpenAI Approvisionné et Approvisionné global, la réservation vous offre une remise si vous vous engagez à payer un nombre fixe de PTU pendant une période d’un mois ou d’un an. 

Les réservations Azure sont achetées via le portail Azure, et non via le portail Azure AI Foundry. Lien vers le portail de réservation Azure.
Les réservations sont achetées au niveau régional et peuvent être étendues de manière flexible pour couvrir l’utilisation d’un groupe de déploiements. Les étendues de réservation incluent :
- Groupes de ressources ou abonnements individuels
- Groupe d’abonnements dans un groupe d’administration
- Tous les abonnements dans un compte de facturation
Vous pouvez acheter de nouvelles réservations pour couvrir la même étendue que les réservations existantes afin de bénéficier d’une remise sur les nouveaux déploiements provisionnés. Vous pouvez également mettre à jour l’étendue de réservations existantes à tout moment sans pénalité, par exemple pour couvrir un nouvel abonnement.
Vous pouvez annuler des réservations après l’achat, mais les crédits sont limités.
Si la taille des déploiements provisionnés dans l’étendue d’une réservation dépasse le montant de la réservation, l’excès est facturé au tarif horaire. Par exemple, si des déploiements s’élevant à 250 PTU existent dans l’étendue d’une réservation de 200 PTU, 50 PTU sont facturées sur une base horaire jusqu’à ce que les tailles de déploiement soient réduites à 200 PTU ou jusqu’à ce qu’une réservation soit créée pour couvrir les 50 restantes.
Les réservations garantissent un prix réduit pour la durée sélectionnée.  Elles ne réservent pas de capacité sur le service et ne garantissent pas sa disponibilité lors de la création d’un déploiement. Nous recommandons vivement aux clients de créer des déploiements avant d’acheter une réservation pour éviter l’achat excessif d’une réservation.

Important

La disponibilité de la capacité pour les déploiements de modèles est dynamique et change fréquemment d’une région à l’autre et d’un modèle à l’autre. Pour vous empêcher d’acheter une réservation pour plus de PTU que vous ne pouvez en utiliser, créez d’abord des déploiements, puis achetez la réservation Azure pour couvrir les PTU que vous avez déployées. Cette bonne pratique garantit que vous pouvez tirer pleinement parti de la remise de réservation et vous empêcher d’acheter un engagement à terme que vous ne pouvez pas utiliser.
Les exigences en matière de rôle et de stratégie de locataire Azure pour acheter une réservation sont différentes de celles associées à la création d’un déploiement ou d’une ressource Azure OpenAI. Vérifiez l’autorisation d’acheter des réservations avant qu’il ne soit nécessaire de le faire. Pour plus d’informations, consultez la documentation sur les réservations Azure OpenAI Provisioned.

Important : dimensionnement des réservations approvisionnées Azure OpenAI

Les quantités de PTU dans les achats de réservation sont indépendantes des PTU allouées dans le quota ou utilisées dans les déploiements. Il est possible d’acheter une réservation pour une quantité de PTU supérieure à celle dont vous disposez dans le quota ou que vous pouvez déployer pour la région, le modèle ou la version souhaités. Les crédits pour l’achat excessif d’une réservation sont limités, et les clients doivent prendre les mesures nécessaires pour s’assurer que les tailles de leurs réservations sont conformes aux PTU déployées.

La meilleure pratique consiste à toujours acheter une réservation une fois les déploiements créés. Cela évite d’acheter une réservation et de réaliser ensuite que la capacité requise n’est pas disponible pour la région ou le modèle souhaité.

Pour aider les clients à acheter le bon nombre de réservations. Le nombre total de PTU dans un abonnement et une région qui peuvent être couverts par une réservation est répertorié sur la page Quotas d’Azure AI Foundry. Consultez le message « PTU disponibles pour la réservation ».

Gérer les réservations Azure

Une fois qu’une réservation est créée, la meilleure pratique est de la surveiller pour s’assurer qu’elle reçoit l’utilisation attendue. Cela peut être effectué via le Portail de réservation Azure ou Azure Monitor. Vous trouverez plus d’informations sur ces rubriques, entre autres, ici :

Partager via

Intégration des unités de débit approvisionnées

Quand utiliser des unités de débit approvisionnées (PTU)

Scénarios typiques d’unités de débit approvisionnées

Dimensionnement et estimation : déploiements approvisionnés

Estimation des unités de débit approvisionnées et du coût

Présentation du modèle d’achat de débit approvisionné

Utilisation horaire

Réservations Azure pour des déploiements approvisionnés Azure OpenAI

Important : dimensionnement des réservations approvisionnées Azure OpenAI

Étapes suivantes

Commentaires

Ressources supplémentaires