Partager via


Types de déploiement Azure OpenAI

Azure OpenAI permet aux clients de choisir la structure d’hébergement qui correspond à leurs modèles d’entreprise et d’utilisation. Le service propose deux principaux types de déploiements : standard et approvisionné. Pour un type de déploiement donné, les clients peuvent aligner leurs charges de travail avec leurs exigences de traitement des données en choisissant une des options de traitement Zone géographique Azure (Standard ou Provisioned-Managed), Zone de données spécifiée par Microsoft (DataZone-Standard ou DataZone Provisioned-Managed) ou Global (Global-Standard ou Global Provisioned-Managed).

Tous les déploiements peuvent effectuer exactement les mêmes opérations d’inférence, mais la facturation, la mise à l’échelle et les performances sont sensiblement différentes. Dans le cadre de votre conception de solution, vous devez prendre deux décisions clés :

  • Emplacement du traitement des données
  • Volume d’appels

Emplacements de traitement des données de déploiement Azure OpenAI

Pour les déploiements standard, il existe trois options de type de déploiement à choisir : global, zone de données et zone géographique Azure. Pour les déploiements approvisionnés, il existe deux options de type de déploiement à choisir : global et zone géographique Azure. Global-Standard est le point de départ recommandé.

Les déploiements globaux tirent parti de l’infrastructure mondiale d’Azure pour acheminer dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client. Cela signifie que vous obtenez les limites de débit initiales les plus élevées et la meilleure disponibilité de modèle avec Global, tout en permettant de fournir notre contrat SLA de durée de bon fonctionnement et notre faible latence. Pour les charges de travail à volumes élevés au-dessus du niveau d’utilisation spécifié sur la norme standard et globale, vous pouvez rencontrer des variations de latence accrues. Pour les clients qui nécessitent une variation de latence moindre lors de l’utilisation de charges de travail importantes, nous vous recommandons de tirer parti de nos types de déploiements approvisionnés.

Nos déploiements mondiaux conviennent parfaitement à tous les nouveaux modèles et toutes les nouvelles fonctionnalités. Selon le volume d’appels, les clients avec des exigences de variation de volume et de faible latence devraient considérer nos types de déploiement approvisionnés.

Les déploiements de zone de données tirent parti de l’infrastructure globale d’Azure pour acheminer dynamiquement le trafic client vers le centre de données avec la meilleure disponibilité pour les demandes d’inférence du client, au sein de la zone de données définie par Microsoft. Situés entre nos offres de déploiement de zone géographique Azure et global, les déploiements de zones de données fournissent des limites de quota élevées tout en conservant le traitement des données dans la zone de données spécifiée par Microsoft. Les données stockées au repos continueront de rester dans la zone géographique de la ressource Azure OpenAI (par exemple, la zone géographique Azure est la Suède pour une ressource Azure OpenAI créée dans la région Azure centre de Suède).

Si la ressource Azure OpenAI utilisée dans votre déploiement de zone de données se trouve aux États-Unis, les données seront traitées aux États-Unis. Si la ressource Azure OpenAI utilisée dans votre déploiement de zone de données se trouve dans une nation membre de l’Union européenne, les données seront traitées dans les zones géographiques de la nation membre de l’Union européenne. Pour tous les types de déploiement de service Azure OpenAI, toutes les données stockées au repos continueront de rester dans la zone géographique de la ressource Azure OpenAI. Les engagements de traitement et de conformité des données Azure restent applicables.

Pour les types de déploiement étiquetés « Global », vous pouvez traiter les requêtes et réponses dans n’importe quelle zone géographique où le modèle Azure OpenAI est déployé (découvrez plus d’informations sur la disponibilité régionale des modèles). Pour tous les types de déploiement étiquetés « DataZone », vous pouvez traiter les requêtes et réponses dans n’importe quelle zone géographique au sein de la zone de données spécifiée, comme défini par Microsoft. Si vous créez un déploiement DataZone dans une ressource Azure OpenAI située aux États-Unis, vous pouvez traiter les requêtes et réponses n’importe où aux États-Unis. Si vous créez un déploiement DataZone dans une ressource Azure OpenAI située chez une nation membre de l’Union européenne, vous pouvez traiter les requêtes et réponses dans celle-ci ou toute autre nation membre de l’Union européenne. Pour les types de déploiement Global et DataZone, toutes les données stockées au repos, telles que les données chargées, sont stockées dans la zone géographique désignée. Seul l’emplacement de traitement est affecté lorsqu’un client utilise un type de déploiement Global ou DataZone dans Azure OpenAI Service. Les engagements de conformité et de traitement de données Azure restent applicables.

Standard global

Important

Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données.

Les déploiements mondiaux sont disponibles dans les mêmes ressources Azure OpenAI que les types de déploiements non mondiaux, mais ils vous permettent de tirer parti de l’infrastructure mondiale d’Azure pour router dynamiquement le trafic vers le centre de données avec la meilleure disponibilité pour chaque requête. L’option Mondial Standard fournit le quota par défaut le plus élevé et élimine la nécessité d’équilibrer la charge entre plusieurs ressources.

Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence. Le seuil est défini par modèle. Consultez la page des quotas pour en savoir plus. Pour les applications qui nécessitent une variation de latence moindre lors de l’utilisation de charges de travail importantes, nous vous recommandons d’acheter un débit approvisionné.

Approvisionné global

Important

Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données.

Les déploiements mondiaux sont disponibles dans les mêmes ressources Azure OpenAI que les types de déploiements non mondiaux, mais ils vous permettent de tirer parti de l’infrastructure mondiale d’Azure pour router dynamiquement le trafic vers le centre de données avec la meilleure disponibilité pour chaque requête. Les déploiements approvisionnés globaux fournissent une capacité de traitement de modèle réservée pour le débit élevé et prévisible en utilisant une infrastructure globale Azure.

Traitement par lots global

Important

Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI. En savoir plus sur la résidence des données.

Le traitement par lots global est conçu pour gérer efficacement les tâches de traitement à grande échelle et à volume élevé. Traitez les groupes asynchrones de requêtes avec un quota distinct, avec un délai d’exécution cible de 24 heures, à un coût 50 % inférieur au type Standard global. Avec le traitement par lots, plutôt que d’envoyer une seule requête à la fois, vous envoyez un grand nombre de requêtes dans un seul fichier. Les requêtes de traitement par lots global ont un quota de jetons empilés distinct qui évite toute interruption de vos charges de travail en ligne.

Les principaux cas d’utilisation sont les suivants :

  • Traitement de données à grande échelle : analysez rapidement des jeux de données étendus en parallèle.

  • Génération de contenu : créez des volumes de texte importants, notamment des descriptions de produits ou des articles.

  • Révision et résumé de documents : automatisez la révision et le résumé de documents longs.

  • Automatisation du service clientèle : gérez simultanément de nombreuses requêtes pour obtenir des réponses plus rapides.

  • Extraction et analyse des données : extrayez et analysez des informations provenant de vastes quantités de données non structurées.

  • Tâches de traitement du langage naturel (NLP) : effectuez par exemple des tâches d’analyse des sentiments ou de traduction sur de grands jeux de données.

  • Marketing et personnalisation : générez du contenu et des suggestions personnalisés à grande échelle.

Standard de zone de données

Important

Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI, au sein de la zone de donnée spécifiée par Microsoft. En savoir plus sur la résidence des données.

Les déploiements Standard de zone de données sont disponibles dans la même ressource Azure OpenAI que tous les autres types de déploiement Azure OpenAI, mais vous permettent de profiter de l’infrastructure globale Azure pour acheminer dynamiquement le trafic vers le centre de données au sein de la zone de données définie par Microsoft avec la meilleure disponibilité pour chaque requête. Standard de zone de données fournit des quotas par défaut plus élevés que nos types de déploiement basés sur la zone géographique Azure.

Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence. Le seuil est défini par modèle. Consultez la page Quotas et limites pour en savoir plus. Pour les charges de travail qui nécessitent une variation de faible latence à un niveau du volume important, nous vous recommandons d’exploiter les offres de déploiement approvisionnées.

Approvisionné dans les zones de données

Important

Les données stockées au repos restent dans la zone géographique Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI de la zone de donnée spécifiée par Microsoft.En savoir plus sur la résidence des données.

Les déploiements approvisionnés pour une zone de données sont disponibles dans la même ressource Azure OpenAI que tous les autres types de déploiement Azure OpenAI, mais ils vous permettent de tirer profit de l’infrastructure globale Azure pour acheminer dynamiquement le trafic vers le centre de données au sein de la zone de données spécifiée par Microsoft avec la meilleure disponibilité pour chaque requête. Les déploiements approvisionnés pour une zone de données fournissent une capacité de traitement de modèle réservée pour un débit élevé et prévisible en utilisant l’infrastructure Azure dans la zone de données spécifiées par Microsoft.

Déploiements par lots pour une zone de données

Important

Les données stockées au repos restent dans la géographie Azure désignée, mais le traitement des données pour inférence est possible dans n’importe quel emplacement Azure OpenAI, au sein de la zone de donnée spécifiée par Microsoft. En savoir plus sur la résidence des données.

Les déploiements par lots pour une zone de données offrent les mêmes fonctionnalités que les déploiements par lots globaux tout en vous permettent de tirer profit de l’infrastructure globale Azure pour acheminer dynamiquement le trafic vers les seuls centres de données de la zone de données définie par Microsoft avec la meilleure disponibilité pour chaque requête.

Standard

Les déploiements standard fournissent un modèle de facturation de paiement par appel sur le modèle choisi. Fournit le moyen le plus rapide de commencer, car vous payez uniquement ce que vous consommez. Les modèles disponibles dans chaque région ainsi que le débit peuvent être limités.

Les déploiements standard sont optimisés pour les charges de travail à volume bas ou moyen avec une rafale élevée. Les clients avec un volume élevé constant peuvent rencontrer une plus grande variabilité de la latence.

approvisionné

Les déploiements approvisionnés vous permettent de spécifier la quantité de débit dont vous avez besoin dans un déploiement. Le service alloue ensuite la capacité de traitement du modèle nécessaire et garantit qu’elle est prête pour votre utilisation. Le débit est défini en termes d’unités de débit approvisionnées (PTU), ce qui est une façon normalisée de représenter le débit pour votre déploiement. Chaque paire modèle-version nécessite des quantités différentes de PTU afin de déployer et de fournir des quantités différentes de débit par PTU. Pour en savoir plus, consultez notre article sur les concepts du débit approvisionné.

Comment désactiver l’accès aux déploiements mondiaux dans votre abonnement

Azure Policy aide à appliquer les normes organisationnelles et à évaluer la conformité à l’échelle. Avec son tableau de bord de conformité, il fournit une vue agrégée permettant d’évaluer l’état général de l’environnement, avec la possibilité d’explorer au niveau de chaque ressource et stratégie. Il vous aide également à mettre vos ressources en conformité par le biais de la correction en bloc pour les ressources existantes et de la correction automatique pour les nouvelles ressources. En savoir plus sur Azure Policy et les contrôles intégrés spécifiques pour les services d’IA.

Vous pouvez utiliser la stratégie suivante pour désactiver l’accès aux types de déploiements Azure OpenAI. Pour désactiver l’accès à un type de déploiement spécifique, remplacez GlobalStandard par le nom de la référence SKU du type de déploiement dont vous souhaitez désactiver l’accès.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Déployer des modèles

Capture d’écran montrant la boîte de dialogue de déploiement de modèle dans le portail Azure AI Foundry avec trois types de déploiement mis en évidence.

Pour découvrir la création de ressources et le déploiement de modèles, reportez-vous au guide de création de ressources.

Voir aussi