Principes de conception des charges de travail des applications intelligentes

Article
01/15/2025

Les conseils sur la planification, le développement et la maintenance des charges de travail des applications intelligentes sont basés sur Power Platform Well-Architected et ses cinq piliers d’excellence architecturale.

Pilier Well-Architected	Synthèse
Fiabilité	La charge de travail d’une application intelligente nécessite une résilience au niveau de la couche d’architecture pour garantir que les modèles et les workflows d’IA sont hautement disponibles et peuvent récupérer rapidement après une défaillance. Mettez en œuvre des mécanismes robustes de gestion des erreurs. Une architecture résiliente préserve également l’intégrité des données utilisées par les modèles d’IA, garantissant des résultats cohérents et précis.
Sécurité	La charge de travail d’une application intelligente traite souvent des données sensibles. Protégez les données sensibles utilisées et générées par les modèles d’IA. Mettez en œuvre le chiffrement, les contrôles d’accès et des audits de sécurité réguliers. Assurez-vous que la charge de travail est conforme aux normes réglementaires pertinentes, telles que RGPD (Règlement général sur la protection des données) et HIPAA (Health Insurance Portability and Accountability Act), afin de protéger la vie privée et les données des utilisateurs.
Efficacité des performances	La charge de travail d’une application intelligente doit être conçue pour évoluer de manière transparente avec l’augmentation des volumes de données et des demandes des utilisateurs. Identifiez les indicateurs de performance clés et mettez en œuvre une surveillance pour suivre les progrès vers la réalisation des objectifs de performance de la charge de travail. Dans le contexte des charges de travail d’applications intelligentes, la performance prend également en compte le nombre de demandes et d’interactions qui peuvent être effectuées via le libre-service, ce qui nécessiterait autrement une intervention humaine.
Excellence opérationnelle	La charge de travail d’une application intelligente nécessite une surveillance et une journalisation complètes pour suivre les performances et l’intégrité des modèles, des workflows et des conversations d’IA. La surveillance permet d’identifier et de résoudre rapidement les problèmes. Le pilier Excellence opérationnelle recommande d’utiliser l’automatisation pour rationaliser les opérations, réduire les interventions manuelles et minimiser le risque d’erreur humaine.
Optimisation de l’expérience	Une charge de travail d’application intelligente doit donner la priorité à la conception des conversations pour garantir une expérience conviviale qui permet aux utilisateurs d’atteindre leurs objectifs avec un minimum d’effort. La conception doit prendre en compte les sujets que l’IA générative ne peut pas gérer et intégrer des mécanismes de secours. Mettez également en œuvre des mécanismes pour recueillir les commentaires des utilisateurs et affiner en permanence les modèles d’IA et la charge de travail en fonction de ces commentaires.

Fiabilité

Lorsque vous concevez la charge de travail d’une application intelligente avec Power Platform, concentrez-vous sur la résilience et la disponibilité.

La résilience est la capacité d’un système à récupérer suite à des défaillances et à continuer à fonctionner.
La disponibilité garantit une disponibilité ininterrompue. La haute disponibilité minimise les temps d’arrêt des applications et améliore la récupération en cas d’incident.

La fiabilité est importante dans le développement de toute charge de travail, et l’IA générative ne fait pas exception. En fait, il existe des facteurs uniques à prendre en compte lors de la conception de charges de travail d’IA générative. Reconnaître et mettre l’accent sur la résilience est essentiel pour les charges de travail d’IA générative afin de garantir la disponibilité organisationnelle et de maintenir la continuité des activités.

Des défaillances peuvent se produire dans le cloud. Au lieu d’essayer d’éviter complètement les défaillances, votre objectif devrait être de minimiser les effets d’un seul composant défaillant. Utilisez les informations suivantes pour minimiser les temps d’arrêt et vous assurer que les pratiques recommandées en matière de haute disponibilité sont intégrées à la charge de travail de votre application intelligente :

Assurez-vous que la charge de travail peut gérer les défaillances et continuer à fonctionner, même si les fonctionnalités sont réduites. Identifiez les défaillances potentielles et rendez le système résilient, afin de tolérer ces défaillances et de s’en remettre.
Rendez la charge de travail observable afin que les équipes de développement apprennent des échecs. Identifiez et résolvez rapidement les problèmes en mettant en œuvre des mécanismes de surveillance, de journalisation et d’alerte.
Assurez-vous que la charge de travail peut évoluer pour gérer des charges variables, ce qui est particulièrement important pour les charges de travail d’IA qui peuvent avoir des demandes fluctuantes.
Mettez en œuvre des mécanismes robustes de gestion des erreurs et de récupération. Configurez des alertes automatisées en cas de défaillance du système et disposez d’un plan clair pour une récupération rapide.
Validez l’architecture cible et la mise à l’échelle en comprenant les volumes cibles de messages de conversation instantanée ou de conversation. Les volumes cibles aident également à valider les aspects de licence de l’application intelligente et l’effet potentiel sur le stockage Dataverse pour les transcriptions de conversation.

Pour les applications intelligentes qui utilisent des fonctionnalités d’IA générative, tenez compte non seulement de la résilience et de la disponibilité, mais également de la fiabilité et de la précision des réponses fournies par la charge de travail intelligente. Tenez compte des recommandations suivantes pour chaque considération de conception :

Optimiser pour la génération augmentée par récupération (RAG) : assurez-vous que vos données sont propres et bien structurées, créez des incorporations et des index efficaces pour une récupération rapide et mettez en œuvre des mécanismes de surveillance et de commentaire robustes pour améliorer en permanence les performances de la charge de travail.
Invites efficaces : concevez des invitations précises et contextuellement pertinentes pour aider l’IA à produire des réponses précises.
Évaluation régulière : mettez en œuvre une surveillance et des tests continus des résultats de l’IA pour évaluer l’exactitude, la pertinence et le respect éthique.
Boucles de commentaires : établissez des mécanismes de commentaires où les utilisateurs peuvent signaler les inexactitudes, qui peuvent ensuite être utilisées pour affiner et améliorer les modèles. Microsoft Copilot Studio fournit des analyses de satisfaction client, qui fournissent des informations exploitables sur les facteurs de satisfaction ou d’insatisfaction des réponses de votre agent.
Formation spécifique à un domaine : affinez les modèles sur des données spécifiques à un domaine afin d’améliorer la précision dans des contextes spécifiques.
Mises à jour régulières : mettez régulièrement à jour les modèles avec de nouvelles données afin de maintenir leur pertinence et leur précision.
Intentions non reconnues : gérez les intentions non reconnues en utilisant les Réponses génératives pour trouver des réponses à partir des sources de données disponibles et en utilisant la Rubrique de secours pour l’intégration à d’autres systèmes.

Sécurité

Dans un modèle de responsabilité partagé :

Les organisations sont principalement responsables de la gestion et de l’exploitation des charges de travail.
Microsoft gère la sécurité de l’infrastructure sous-jacente, y compris les centres de données, la sécurité du réseau et les mesures de sécurité physique, ainsi que les fonctions de sécurité intégrées telles que le chiffrement, la gestion des identités et la conformité aux normes de l’industrie. Pour en savoir plus, consultez Sécurité dans Microsoft Power Platform et Sécurité et gouvernance de Copilot Studio.

Nous vous recommandons d’évaluer régulièrement les services et les technologies pour vous assurer que votre posture de sécurité s’adapte à l’évolution du paysage des menaces. Il est essentiel d’établir une compréhension claire du modèle de responsabilité partagée avec les fournisseurs lorsque l’on collabore à la mise en œuvre de mesures de sécurité.

Vous pouvez employer plusieurs méthodes pour sécuriser les charges de travail de vos applications intelligentes :

Authentification des utilisateurs et contrôle d’accès : mettez en œuvre des mesures d’authentification et de contrôle d’accès robustes pour garantir que seuls les utilisateurs autorisés peuvent accéder à la charge de travail de l’application intelligente. L’accès non autorisé à la charge de travail de l’application intelligente peut entraîner des violations de données, une mauvaise utilisation des ressources et l’exposition potentielle d’informations sensibles. Des mécanismes d’authentification faibles ou inefficaces peuvent également compromettre les comptes d’utilisateurs.
Conformité : assurez-vous que les données sont protégées et gérées conformément aux exigences réglementaires. Comprenez les réglementations locales, restez informé des lois locales sur la protection des données et assurez-vous que votre stratégie de résidence des données est conforme à ces réglementations.
Intégration : sécurisez toutes les intégrations avec les principaux de service. Surveillez et protégez l’intégrité réseau des points de terminaison internes et externes grâce à des fonctionnalités et des appliances de sécurité, telles que des pare-feu ou des pare-feu d’applications web.
Surveillance et audit continus : surveillez et auditez en permanence les activités des charges de travail afin de détecter et de répondre de manière proactive.
Outils de sécurité Azure : utilisez les outils de sécurité intégrés d’Azure, tels que Microsoft Defender pour le cloud et Azure Policy, pour surveiller et appliquer les stratégies de sécurité.
Formation des employés : formez les employés sur les meilleures pratiques en matière de protection des données et sur l’importance de respecter les exigences en matière de résidence des données.

Efficacité en termes de performance

L’efficacité des performances est la capacité de votre charge de travail à évoluer efficacement pour répondre aux exigences des utilisateurs.

Augmentez l’efficacité des performances en procédant comme suit :

Comprenez les volumes cibles pour valider l’architecture et l’échelle cibles. Les volumes cibles aident également à valider les aspects de licence de l’IA générative (agent) et l’effet potentiel sur le stockage Dataverse pour les transcriptions de conversation.
Comprenez les limites de la plateforme. Lorsque vous intégrez la charge de travail de votre application intelligente à des systèmes externes, par exemple par le biais de Power Automate ou de requêtes HTTP, il est important de valider que chaque composant peut gérer la charge.
Surveillez en permanence les performances et détectez les anomalies à l’aide d’outils tels qu’Azure Monitor, Log Analytics, Application Insights et les alertes.
Comprendre les temps de réponse attendus pour :
- Premier chargement de la conversation instantanée et première réponse au message
- Latence maximale pour permettre à l’agent de répondre aux requêtes des utilisateurs
- Approche de gestion des actions de longue durée (par exemple, attendre qu’un système externe renvoie des données)
Optimiser le taux de déviation, c’est-à-dire la vitesse à laquelle les demandes sont traitées en libre-service grâce à l’automatisation (réduction du nombre de demandes nécessitant une assistance humaine). Pour en savoir plus, consultez Optimisation des performances pour les charges de travail des applications intelligentes.

La prise en compte de chacun de ces aspects vous aide à créer une charge de travail d’application intelligente avec une expérience utilisateur cohérente et homogène.

Excellence opérationnelle

L’excellence opérationnelle implique le développement de processus efficaces pour prendre en charge la charge de travail de votre application intelligente.

Les défaillances opérationnelles peuvent affecter d’autres domaines de conception ainsi que le succès global de la charge de travail de l’application intelligente. Il est important d’adapter vos processus opérationnels pour prendre en charge la charge de travail d’une application intelligente en production. Les recommandations suivantes favorisent l’excellence opérationnelle :

Automatisez les processus de création et de publication. Les processus de génération et de publication entièrement automatisés réduisent les frictions et augmentent la vitesse de déploiement des mises à jour, apportant répétabilité et cohérence dans tous les environnements. L’automatisation raccourcit la boucle de rétroaction, des développeurs poussant les modifications à l’obtention d’informations sur la qualité du code, la couverture des tests, la résilience, la sécurité et les performances, autant d’éléments qui contribuent à la productivité des développeurs.
Maintenez la gouvernance et la conformité.
Analysez les performances et l’intégrité de votre environnement en production.
Tenez à jour la documentation qui saisit :
- Résolution des problèmes liés aux procédures
- Plans de récupération d’urgence
Fournissez des conseils de correction sur la façon d’accélérer le processus de résolution des problèmes.
Adoptez l’amélioration opérationnelle continue. Donnez la priorité à l’amélioration régulière du système et de l’expérience utilisateur. Utilisez un modèle d’intégrité pour comprendre et mesurer l’efficacité opérationnelle, ainsi que des mécanismes de rétroaction pour permettre aux équipes d’application de comprendre et de combler les lacunes de manière itérative.

Ces recommandations peuvent aider votre équipe à collaborer de manière efficace et transparente.

Optimisation de l’expérience

Une charge de travail d’application intelligente doit donner la priorité à la conception des conversations pour garantir une expérience conviviale qui permet aux utilisateurs d’atteindre leurs objectifs avec un minimum d’effort. La conception doit aborder des sujets que l’IA générative ne peut pas gérer et inclure des mécanismes de secours. Mettez également en œuvre des mécanismes pour recueillir les commentaires des utilisateurs et affiner en permanence les modèles d’IA et la charge de travail en fonction de ces commentaires.

L’optimisation de l’expérience utilisateur pour la charge de travail d’une application intelligente implique plusieurs considérations clés :

Conception des conversations : concevez des conversations intuitives et faciles à parcourir. Utilisez un langage clair et concis, et assurez-vous que l’IA peut gérer efficacement les requêtes courantes des utilisateurs. Concentrez-vous sur le fait d’aider les utilisateurs à atteindre leurs objectifs avec un minimum d’effort. Comprenez les intentions des utilisateurs et fournissez rapidement des réponses pertinentes pour garantir une expérience utilisateur transparente et efficace.
Limitations de la gestion : mettez en œuvre des mécanismes de secours pour les rubriques que l’IA générative ne peut pas traiter, comme rediriger les utilisateurs vers les conseillers du service clientèle ou fournir des ressources alternatives. Concevez des processus robustes de gestion des erreurs pour gérer les entrées inattendues de manière appropriée. Informez les utilisateurs lorsque l’IA n’est pas en mesure de traiter leur demande et proposez des alternatives.
Commentaires des utilisateurs : Intégrez des mécanismes pour recueillir les commentaires des utilisateurs en continu. Microsoft Copilot Studio fournit des analyses de satisfaction client, qui fournissent des informations exploitables sur les facteurs de satisfaction ou d’insatisfaction des réponses de votre agent. Utilisez les commentaires recueillis pour affiner et améliorer les modèles d’IA et la charge de travail globale. Des mises à jour régulières basées sur les entrées de l’utilisateur peuvent améliorer considérablement l’expérience utilisateur.
Personnalisation : personnalisez les invites et les instructions en fonction de vos cas d’utilisation spécifiques et des besoins des utilisateurs, afin de garantir des réponses plus précises et pertinentes. Utilisez le chaînage dynamique pour automatiser les déclencheurs et gérer efficacement les flux de rubriques afin de réduire le besoin de rubriques prédéfinies manuellement et d’améliorer la capacité de l’IA à reconnaître l’intention de l’utilisateur. Pour en savoir plus, consultez Optimiser les invites et la configuration des rubriques.

Étapes suivantes

Les principes de conception Well-Architected Framework sont incorporés dans les domaines de conception de la charge de travail des applications intelligentes. Chaque zone de conception fournit des conseils ciblés pour vous aider à accéder rapidement aux informations dont vous avez besoin pour améliorer efficacement votre productivité.

Commencez par passer en revue les considérations de conception nécessaires pour prendre en charge une charge de travail :

Partager via