Déployer un flux pour l’inférence en temps réel
Important
Les éléments marqués (préversion) dans cet article sont actuellement en préversion publique. Cette préversion est fournie sans contrat de niveau de service, nous la déconseillons dans des charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.
Une fois que vous avez généré un flux d’invite et que vous l’avez testé correctement, vous pouvez le déployer en tant que point de terminaison en ligne. Les déploiements sont hébergés dans un point de terminaison. Ils peuvent recevoir des données des clients et retourner des réponses en temps réel.
Vous pouvez appeler le point de terminaison pour une inférence en temps réel dans le cadre d’une conversation, d’une assistance par copilote ou d’une autre application d’IA générative. Le flux d’invite prend en charge le déploiement de points de terminaison à partir d’un flux ou d’une série de tests en bloc.
Dans cet article, vous allez découvrir comment déployer un flux en tant que point de terminaison en ligne managé pour l’inférence en temps réel. Voici les étapes à suivre :
- Tester votre flux et le préparer pour le déploiement.
- Créer un déploiement en ligne.
- Accorder des autorisations au point de terminaison.
- Tester le point de terminaison.
- Consommer le point de terminaison.
Prérequis
Pour déployer un flux d’invite en tant que point de terminaison en ligne, vous avez besoin de ce qui suit :
- Un abonnement Azure. Si vous n’en avez pas, créez un compte gratuit avant de commencer.
- Un projet Azure AI Foundry.
Créer un déploiement en ligne
Maintenant que vous avez créé un flux et que vous l’avez testé correctement, il est temps de créer votre point de terminaison en ligne pour l’inférence en temps réel.
Suivez les étapes ci-dessous pour déployer un flux d’invite en tant que point de terminaison en ligne dans Azure AI Foundry.
Préparez un flux d’invite au déploiement. Si vous n’en avez pas, consultez Guide pratique pour créer un flux d’invite.
Facultatif : sélectionnez Conversation pour tester si le flux fonctionne correctement. Tester le flux avant le déploiement est une bonne pratique que nous recommandons.
Sélectionnez Déployer dans l’éditeur de flux.
Indiquez les informations demandées dans la page Paramètres de base de l’Assistant Déploiement.
Sélectionnez Vérifier + créer pour passer en revue les paramètres et créer le déploiement. Sinon, vous pouvez sélectionner Suivant pour accéder aux pages des paramètres avancés.
Sélectionnez Créer pour déployer le flux d’invite.
Pour voir l’état de votre déploiement, sélectionnez Déploiements dans le volet de navigation gauche. Une fois le déploiement correctement créé, vous pouvez le sélectionner pour voir les détails.
Sélectionnez l’onglet Consommer pour voir les exemples de code qui permettent de consommer le modèle déployé dans votre application.
Remarque
Dans cette page, vous pouvez également voir l’URL du point de terminaison, qui vous permet de consommer le point de terminaison.
Vous pouvez utiliser directement le point de terminaison REST ou commencer à utiliser l’un des exemples affichés ici.
Pour plus d’informations, consultez les sections ci-dessous.
Conseil
Pour obtenir un guide sur le déploiement d’un modèle de base, consultez Déploiement de modèles avec Azure AI Foundry.
Paramètres et configurations
Fichier texte d’exigences
Vous pouvez éventuellement spécifier les packages supplémentaires dont vous avez besoin dans requirements.txt
. Vous trouverez requirements.txt
dans le dossier racine de votre dossier de flux. Lorsque vous déployez un flux d’invite sur un point de terminaison en ligne managé dans l’interface utilisateur, par défaut, le déploiement utilise l’environnement créé en fonction de l’image de base spécifiée dans la flow.dag.yaml
et les dépendances spécifiées dans l' requirements.txt
du flux.
Remarque
L’image de base spécifiée dans l' flow.dag.yaml
doit être créée en fonction des mcr.microsoft.com/azureml/promptflow/promptflow-runtime-stable:<newest_version>
d’image de base de flux d’invite et vous trouverez la dernière version ici. Si vous ne spécifiez pas l’image de base dans le flow.dag.yaml
, le déploiement utilise l’image de base par défaut mcr.microsoft.com/azureml/promptflow/promptflow-runtime-stable:latest
.
Paramètres de base
Cette étape vous permet de configurer les paramètres de base lorsque vous sélectionnez Déployer sur l’éditeur de flux.
Propriété | Description |
---|---|
Point de terminaison | Vous pouvez choisir de déployer un nouveau point de terminaison ou de mettre à jour un point de terminaison existant. Si vous sélectionnez Nouveau, vous devez spécifier le nom du point de terminaison. |
Nom du déploiement | - Dans le même point de terminaison, le nom de déploiement doit être unique. - Si vous sélectionnez un point de terminaison existant et que vous entrez un nom de déploiement existant, ce déploiement est remplacé par les nouvelles configurations. |
Machine virtuelle | Taille de machine virtuelle à utiliser pour le déploiement. |
Nombre d’instances | Nombre d’instances à utiliser pour le déploiement. Spécifiez la valeur relative à la charge de travail attendue. Pour une haute disponibilité, nous vous recommandons de définir la valeur sur au moins 3 . Nous réservons 20 % en plus pour effectuer des mises à niveau. |
Collecte de données d’inférence | Si vous activez cette option, les entrées et sorties de flux sont collectées automatiquement dans une ressource de données Azure Machine Learning, et peuvent être utilisées pour un monitoring ultérieur. |
Une fois que vous avez fini de définir les paramètres de base, vous pouvez directement passer à Vérifier + créer pour finir la création, ou vous pouvez sélectionner Suivant pour configurer les paramètres avancés.
Paramètres avancés - Point de terminaison
Vous pouvez spécifier les paramètres suivants pour le point de terminaison.
Dans le workflow des paramètres avancés, vous pouvez également spécifier des étiquettes de déploiement et sélectionner un environnement personnalisé.
Type d'authentification
Méthode d’authentification du point de terminaison. L’authentification par clé fournit une clé primaire et secondaire qui n’expire pas. L’authentification basée sur les jetons Azure Machine Learning fournit un jeton qui s’actualise régulièrement automatiquement.
Type d'identité
Le point de terminaison doit accéder aux ressources Azure, par exemple Azure Container Registry ou à vos connexions de hub Azure AI Foundry pour l’inférence. Vous pouvez autoriser l’autorisation de point de terminaison à accéder aux ressources Azure en accordant l’autorisation à son identité managée.
L’identité attribuée par le système est créée automatiquement après la création de votre point de terminaison, tandis que l’identité attribuée par l’utilisateur est créée par l’utilisateur. En savoir plus sur les Identités managées.
Attribué par le système
Vous remarquez qu’il existe une option permettant d’indiquer s’il est nécessaire d’Appliquer l’accès aux secrets de connexion (préversion). Si votre flux utilise des connexions, le point de terminaison doit accéder à celles-ci pour effectuer l’inférence. L’option est activée par défaut, et le point de terminaison se voit octroyer le rôle Lecteur de secrets de connexion de l’espace de travail Azure Machine Learning pour accéder automatiquement aux connexions, si vous disposez de l’autorisation de lecteur de secrets de connexion. Si vous désactivez cette option, vous devez octroyer vous-même, manuellement, ce rôle à l’identité affectée par le système, ou demander de l’aide à votre administrateur. En savoir plus sur l’octroi d’une autorisation à l’identité de point de terminaison.
Affecté par l’utilisateur
Lorsque vous créez le déploiement, Azure tente d’extraire l’image du conteneur utilisateur de l’Azure Container Registry (ACR) du hub Azure AI Foundry et monte le modèle utilisateur et les artefacts de code dans le conteneur utilisateur à partir du compte de stockage du hub.
Si vous avez créé le point de terminaison associé avec une identité affectée par l’utilisateur, celle-ci doit se voir octroyer les rôles suivants avant la création du déploiement. Sinon, la création du déploiement sera un échec.
Étendue | Rôle | Pourquoi il est nécessaire |
---|---|---|
Projet Azure AI Foundry | Rôle Lecteur de secrets de connexion de l’espace de travail Azure Machine Learning OU un rôle personnalisé avec Microsoft.MachineLearningServices/workspaces/connections/listsecrets/action |
Obtenir des connexions de projet |
Registre de conteneurs d’un projet Azure AI Foundry | Extraction ACR | Tirage (pull) d’image de conteneur |
Stockage par défaut d’un projet Azure AI Foundry | Lecteur des données blob du stockage | Charger le modèle à partir du stockage |
Projet Azure AI Foundry | Rédacteur de métriques AzureML (aperçu) | Après avoir déployé le point de terminaison, si vous souhaitez surveiller les métriques liées au point de terminaison telles que l’utilisation du processeur/GPU/disque/mémoire, vous devez accorder cette autorisation à l’identité. Facultatif |
Consultez les instructions détaillées sur la façon d’accorder des autorisations à l’identité du point de terminaison dans Accorder des autorisations au point de terminaison.
Important
Si votre flux utilise des connexions d’authentification basées sur Microsoft Entra ID, que vous utilisiez une identité affectée par le système ou par l’utilisateur, vous devez toujours accorder à l’identité managée les rôles appropriés sur les ressources correspondantes afin qu’elle puisse effectuer des appels d’API vers cette ressource. Par exemple, si votre connexion Azure OpenAI utilise une authentification basée sur Microsoft Entra ID, vous devez accorder à l’identité managée de votre point de terminaison le rôle Utilisateur OpenAI Cognitive Services ou Contributeur OpenAI Cognitive Services sur les ressources Azure OpenAI correspondantes.
Paramètres avancés – Sorties et connexions
Lors de cette étape, vous pouvez afficher toutes les sorties de flux, et spécifier celles à inclure dans la réponse du point de terminaison que vous déployez. Par défaut, toutes les sorties de flux sont sélectionnées.
Vous pouvez également spécifier les connexions utilisées par le point de terminaison lorsque celui-ci procède à une inférence. Par défaut, elles sont héritées du flux.
Une fois que vous avez configuré et passé en revue toutes les étapes ci-dessus, vous pouvez sélectionner Vérifier + créer pour finir la création.
Remarque
Attendez-vous à ce que la création du point de terminaison prenne plus de 15 minutes, car celle-ci présente plusieurs phases, notamment la création d’un point de terminaison, l’inscription du modèle, la création d’un déploiement, etc.
Vous pouvez voir la progression de la création du déploiement via la notification qui commence par Déploiement du flux d’invite.
Activer le suivi en déclenchant les diagnostics Application Insights (préversion)
Si vous activez cette option, les données de suivi et les métriques du système pendant l’inférence (comme le nombre de jetons, la latence du flux, la demande de flux, etc.) seront collectées dans Application Insights lié à l’espace de travail. Pour plus d’informations, consultez les Données et métriques de suivi de la mise à disposition du flux d’invite.
Accorder des autorisations au point de terminaison
Important
L’octroi d’autorisations (ajout d’une attribution de rôle) est uniquement activé pour le propriétaire des ressources Azure spécifiques. Vous devrez peut-être demander à votre propriétaire d’abonnement Azure (qui est peut-être votre administrateur informatique) de l’aide.
Il est recommandé d’accorder des rôles à l’identité affectée par l’utilisateur avant la création du déploiement. La mise en application de l’autorisation accordée peut prendre plus de 15 minutes.
Vous pouvez accorder les autorisations requises dans l’interface utilisateur du portail Azure en procédant comme suit.
Accédez à la page vue d’ensemble du projet Azure AI Foundry dans le portail Azure.
Sélectionnez Contrôle d’accès, et sélectionnez Ajouter une attribution de rôle.
Sélectionnez Lecteur de secrets de connexion de l’espace de travail Azure Machine Learning, puis Suivant.
Remarque
Le rôle lecteur de secrets de connexion de l’espace de travail Azure Machine Learning est un rôle intégré qui est autorisé à obtenir des connexions hub.
Si vous souhaitez utiliser un rôle personnalisé, vérifiez qu’il dispose de l’autorisation
Microsoft.MachineLearningServices/workspaces/connections/listsecrets/action
. Découvrez la création de rôles personnalisés.Sélectionnez Identité managée, puis les membres.
Pour identité affectée par le système, sélectionnez Point de terminaison en ligne Machine Learning sous Identité managée affectée par le système, puis recherchez par nom de point de terminaison.
Pour Identité affectée par l’utilisateur, sélectionnez Identité managée affectée par l’utilisateur, puis recherchez par nom d’identité.
Pour l'identité attribuée par l'utilisateur, vous devez également accorder des autorisations au registre de conteneurs hub et au compte de stockage. Vous pouvez trouver le registre de conteneurs et le compte de stockage sur la page de présentation du hub dans le Portail Microsoft Azure.
Accédez à la page de présentation du registre de conteneurs hub, sélectionnez Contrôle d'accès, puis Ajouter une attribution de rôle, puis attribuez l'image du conteneur ACR pull | Pull à l'identité du point de terminaison.
Accédez à la page vue d’ensemble du stockage par défaut du hub, sélectionnez contrôle d’accès, puis sélectionnez Ajouter une attribution de rôle, puis attribuez lecteur de données blob de stockage à l’identité du point de terminaison.
(facultatif) Pour l'identité attribuée par l'utilisateur, si vous souhaitez surveiller les métriques liées au point de terminaison telles que l'utilisation du CPU/GPU/disque/mémoire, vous devez également accorder à l'identité le rôle de rédacteur de métriques Workspace.
Vérifiez l’état du point de terminaison
Des notifications seront envoyées une fois que vous aurez terminé l’Assistant de déploiement. Une fois le point de terminaison et le déploiement correctement créés, vous pouvez sélectionner Voir les détails dans la page de détails de la notification relative au déploiement.
Vous pouvez également accéder directement à la page Déploiements à partir du volet de navigation gauche, sélectionner le déploiement, puis vérifier son état.
Tester le point de terminaison
Dans la page des détails du déploiement, passez à l’onglet Test.
Pour les points de terminaison déployés à partir d’un flux standard, vous pouvez entrer des valeurs dans l’éditeur de formulaires ou l’éditeur JSON afin de tester le point de terminaison.
Tester le point de terminaison déployé à partir d’un flux de conversation
Pour les points de terminaison déployés à partir d’un flux de conversation, vous pouvez le tester dans une fenêtre de conversation immersive.
chat_input
a été défini pendant le développement du flux de conversation. Vous pouvez saisir le message chat_input
dans la zone de saisie. Si votre flux comporte plusieurs entrées, le panneau Entrées situé sur le côté droit vous permet de spécifier les valeurs des autres entrées en plus de chat_input
.
Consommer le point de terminaison
Dans la page des détails du déploiement, passez à l’onglet Consommer. Vous pouvez trouver le point de terminaison REST ainsi que la clé/le jeton pour consommer votre point de terminaison. Il existe également un exemple de code qui vous permet de consommer le point de terminaison dans différents langages.
Vous devez entrer des valeurs pour RequestBody
ou data
et api_key
. Par exemple, si votre flux a 2 entrées, location
et url
, vous devez spécifier les données comme suit.
{
"location": "LA",
"url": "<the_url_to_be_classified>"
}
Nettoyer les ressources
Si vous ne comptez pas utiliser le point de terminaison à l’issue de ce tutoriel, il est préférable de le supprimer.
Remarque
La suppression complète peut prendre environ 20 minutes.
Étapes suivantes
- En savoir plus sur ce que vous pouvez faire dans Azure AI Foundry
- Obtenez des réponses aux questions fréquentes dans l’article sur le FAQ Azure AI
- [Activez la traçabilité et collectez des informations pour votre déploiement] (./develop/trace-production-sdk.md)