Ajouter et configurer des modèles au service d’inférence de modèles Azure AI
Vous pouvez décider et configurer les modèles disponibles pour l’inférence dans le point de terminaison d’inférence du modèle de la ressource. Lorsqu’un modèle donné est configuré, vous pouvez ensuite générer des prédictions à partir de celui-ci en indiquant son nom de modèle ou son nom de déploiement dans vos demandes. Aucune autre modification n’est requise dans votre code pour l’utiliser.
Dans cet article, vous apprenez à ajouter un nouveau modèle au service d’inférence de modèle Azure AI dans Azure AI services.
Prérequis
Pour effectuer ce qui est décrit dans cet article, vous avez besoin des éléments suivants :
- Un abonnement Azure. Si vous utilisez des modèles GitHub, vous pouvez mettre à niveau votre expérience et créer un abonnement Azure dans le processus. En savoir plus sur la mise à niveau des modèles GitHub vers des modèles Azure AI dans AI Services.
- Une ressource Azure AI services. Pour plus d’informations, consultez Créer une ressource Azure AI Services.
Ajouter un modèle
Contrairement aux modèles GitHub où tous les modèles sont déjà configurés, la ressource Azure AI Services vous permet de contrôler les modèles disponibles dans votre point de terminaison et sous quelle configuration.
Vous pouvez ajouter tous les modèles dont vous avez besoin dans le point de terminaison à l’aide d’Azure AI Foundry pour GitHub. Dans l’exemple suivant, nous ajoutons un modèle Mistral-Large
dans le service :
Accédez à la section Catalogue de modèles dans Azure AI Foundry pour GitHub.
Faites défiler jusqu’au modèle qui vous intéresse et sélectionnez-le.
Vous pouvez consulter les détails du modèle sur la carte de modèle.
Sélectionnez Déployer.
Pour les fournisseurs de modèles qui nécessitent des conditions contractuelles supplémentaires, vous êtes invité à accepter ces conditions. Par exemple, les modèles Mistral vous demandent d’accepter d’autres conditions. Acceptez les conditions de ces cas en sélectionnant S’abonner et déployer.
Vous pouvez configurer les paramètres de déploiement à ce moment. Par défaut, le déploiement reçoit le nom du modèle que vous déployez. Le nom du déploiement est utilisé dans le paramètre
model
pour que la requête soit acheminée vers ce modèle de déploiement particulier. Ce paramètre vous permet également de configurer des noms spécifiques pour vos modèles lorsque vous attachez des configurations spécifiques. Par exemple,o1-preview-safe
pour un modèle avec un filtre de contenu de sécurité du contenu strict.
Conseil
Chaque modèle peut prendre en charge différents types de déploiements, fournissant des garanties différentes de débit ou de résidence des données. Pour plus d’informations, consultez les types de déploiement.
- Utilisez l’option Personnaliser si vous devez modifier des paramètres tels que le filtre de contenu ou la limitation de débit (si disponible).
Sélectionnez Déployer.
Une fois le déploiement terminé, le nouveau modèle est répertorié sur la page et il est prêt à être utilisé.
Utiliser le modèle
Les modèles déployés dans Azure AI services peuvent être consommés à l’aide du point de terminaison d’inférence du modèle Azure AI pour la ressource.
Pour l’utiliser :
Obtenez l’URL et les clés du point de terminaison d’inférence du modèle Azure AI à partir de la page de déploiement ou de la page Vue d’ensemble. Si vous utilisez l’authentification Microsoft Entra ID, vous n’avez pas besoin de clé.
Utilisez l’URL et les clés du point de terminaison d’inférence de modèle précédentes lors de la construction de votre client. L’exemple suivant utilise le package Azure AI Inférence :
Installez le package
azure-ai-inference
à l’aide de votre gestionnaire de package, par exemple pip :pip install azure-ai-inference>=1.0.0b5
Avertissement
La ressource Azure AI Services nécessite la version
azure-ai-inference>=1.0.0b5
de Python.Vous pouvez ensuite utiliser le package pour consommer le modèle. L’exemple suivant montre comment créer un client pour consommer les complétions de conversation :
import os from azure.ai.inference import ChatCompletionsClient from azure.core.credentials import AzureKeyCredential client = ChatCompletionsClient( endpoint=os.environ["AZUREAI_ENDPOINT_URL"], credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]), )
Découvrez nos exemples, et lisez la documentation de référence API pour vous lancer.
Lors de la construction de votre requête, indiquez le paramètre
model
et insérez le nom du modèle de déploiement que vous avez créé.from azure.ai.inference.models import SystemMessage, UserMessage response = client.complete( messages=[ SystemMessage(content="You are a helpful assistant."), UserMessage(content="Explain Riemann's conjecture in 1 paragraph"), ], model="mistral-large" ) print(response.choices[0].message.content)
Conseil
Lorsque vous utilisez le point de terminaison, vous pouvez remplacer le paramètre model
par n’importe quel modèle de déploiement disponible dans votre ressource.
En outre, les modèles Azure OpenAI peuvent être consommés à l’aide du point de terminaison de service Azure OpenAI dans la ressource. Ce point de terminaison est exclusif pour chaque modèle de déploiement et a sa propre URL.
Personnalisation du modèle de déploiement
Lors de la création de modèles de déploiement, vous pouvez configurer d’autres paramètres, notamment le filtrage de contenu et les limites de débit. Pour configurer d’autres paramètres, sélectionnez l’option Personnaliser dans l’Assistant Déploiement.
Remarque
Les configurations peuvent varier en fonction du modèle que vous déployez.