Partager via


Ajouter et configurer des modèles au service d’inférence de modèles Azure AI

Vous pouvez décider et configurer les modèles disponibles pour l’inférence dans le point de terminaison d’inférence du modèle de la ressource. Lorsqu’un modèle donné est configuré, vous pouvez ensuite générer des prédictions à partir de celui-ci en indiquant son nom de modèle ou son nom de déploiement dans vos demandes. Aucune autre modification n’est requise dans votre code pour l’utiliser.

Dans cet article, vous apprenez à ajouter un nouveau modèle au service d’inférence de modèle Azure AI dans Azure AI services.

Prérequis

Pour effectuer ce qui est décrit dans cet article, vous avez besoin des éléments suivants :

Ajouter un modèle

Contrairement aux modèles GitHub où tous les modèles sont déjà configurés, la ressource Azure AI Services vous permet de contrôler les modèles disponibles dans votre point de terminaison et sous quelle configuration.

Vous pouvez ajouter tous les modèles dont vous avez besoin dans le point de terminaison à l’aide d’Azure AI Foundry pour GitHub. Dans l’exemple suivant, nous ajoutons un modèle Mistral-Large dans le service :

  1. Accédez à la section Catalogue de modèles dans Azure AI Foundry pour GitHub.

  2. Faites défiler jusqu’au modèle qui vous intéresse et sélectionnez-le.

  3. Vous pouvez consulter les détails du modèle sur la carte de modèle.

  4. Sélectionnez Déployer.

  5. Pour les fournisseurs de modèles qui nécessitent des conditions contractuelles supplémentaires, vous êtes invité à accepter ces conditions. Par exemple, les modèles Mistral vous demandent d’accepter d’autres conditions. Acceptez les conditions de ces cas en sélectionnant S’abonner et déployer.

    Capture d’écran montrant comment accepter les conditions générales d’un modèle Mistral-Large.

  6. Vous pouvez configurer les paramètres de déploiement à ce moment. Par défaut, le déploiement reçoit le nom du modèle que vous déployez. Le nom du déploiement est utilisé dans le paramètre model pour que la requête soit acheminée vers ce modèle de déploiement particulier. Ce paramètre vous permet également de configurer des noms spécifiques pour vos modèles lorsque vous attachez des configurations spécifiques. Par exemple, o1-preview-safe pour un modèle avec un filtre de contenu de sécurité du contenu strict.

Conseil

Chaque modèle peut prendre en charge différents types de déploiements, fournissant des garanties différentes de débit ou de résidence des données. Pour plus d’informations, consultez les types de déploiement.

  1. Utilisez l’option Personnaliser si vous devez modifier des paramètres tels que le filtre de contenu ou la limitation de débit (si disponible).

Capture d’écran montrant comment personnaliser le déploiement si nécessaire.

  1. Sélectionnez Déployer.

  2. Une fois le déploiement terminé, le nouveau modèle est répertorié sur la page et il est prêt à être utilisé.

Utiliser le modèle

Les modèles déployés dans Azure AI services peuvent être consommés à l’aide du point de terminaison d’inférence du modèle Azure AI pour la ressource.

Pour l’utiliser :

  1. Obtenez l’URL et les clés du point de terminaison d’inférence du modèle Azure AI à partir de la page de déploiement ou de la page Vue d’ensemble. Si vous utilisez l’authentification Microsoft Entra ID, vous n’avez pas besoin de clé.

    Capture d’écran montrant comment obtenir l’URL et la clé associées au déploiement.

  2. Utilisez l’URL et les clés du point de terminaison d’inférence de modèle précédentes lors de la construction de votre client. L’exemple suivant utilise le package Azure AI Inférence :

    Installez le package azure-ai-inference à l’aide de votre gestionnaire de package, par exemple pip :

    pip install azure-ai-inference>=1.0.0b5
    

    Avertissement

    La ressource Azure AI Services nécessite la version azure-ai-inference>=1.0.0b5 de Python.

    Vous pouvez ensuite utiliser le package pour consommer le modèle. L’exemple suivant montre comment créer un client pour consommer les complétions de conversation :

    import os
    from azure.ai.inference import ChatCompletionsClient
    from azure.core.credentials import AzureKeyCredential
    
    client = ChatCompletionsClient(
        endpoint=os.environ["AZUREAI_ENDPOINT_URL"],
        credential=AzureKeyCredential(os.environ["AZUREAI_ENDPOINT_KEY"]),
    )
    

    Découvrez nos exemples, et lisez la documentation de référence API pour vous lancer.

  3. Lors de la construction de votre requête, indiquez le paramètre model et insérez le nom du modèle de déploiement que vous avez créé.

    from azure.ai.inference.models import SystemMessage, UserMessage
    
    response = client.complete(
        messages=[
            SystemMessage(content="You are a helpful assistant."),
            UserMessage(content="Explain Riemann's conjecture in 1 paragraph"),
        ],
        model="mistral-large"
    )
    
    print(response.choices[0].message.content)
    

Conseil

Lorsque vous utilisez le point de terminaison, vous pouvez remplacer le paramètre model par n’importe quel modèle de déploiement disponible dans votre ressource.

En outre, les modèles Azure OpenAI peuvent être consommés à l’aide du point de terminaison de service Azure OpenAI dans la ressource. Ce point de terminaison est exclusif pour chaque modèle de déploiement et a sa propre URL.

Personnalisation du modèle de déploiement

Lors de la création de modèles de déploiement, vous pouvez configurer d’autres paramètres, notamment le filtrage de contenu et les limites de débit. Pour configurer d’autres paramètres, sélectionnez l’option Personnaliser dans l’Assistant Déploiement.

Remarque

Les configurations peuvent varier en fonction du modèle que vous déployez.

Étapes suivantes