Prêt pour l’IA : Recommandations pour les organisations construisant des charges de travail d’IA dans Azure
Cet article décrit le processus organisationnel pour créer des charges de travail d’IA dans Azure. L’article fournit des recommandations pour prendre des décisions clés en matière de conception et de processus pour adopter les charges de travail d’IA à grande échelle. Il se concentre sur des conseils spécifiques à l’IA pour le choix des régions, l’organisation des ressources et la mise en réseau.
Établir la fiabilité de l’IA
La fiabilité de l’IA implique de sélectionner les régions appropriées pour héberger les modèles d’IA afin de garantir des performances, une conformité et une disponibilité constantes. Les organisations doivent prendre en compte la redondance, le basculement et l’optimisation des performances pour maintenir des services d’IA fiables.
Utilisez plusieurs régions pour héberger les points de terminaison des modèles d’IA. Pour les charges de travail en production, hébergez les points de terminaison d’IA dans au moins deux régions pour assurer la redondance et garantir une haute disponibilité. Bien que les modèles d’IA générative soient sans état, les héberger dans plusieurs régions permet un basculement et une récupération plus rapides en cas de panne régionale. Pour les modèles du service Azure OpenAI, vous pouvez utiliser des déploiements globaux. Ces déploiements multi-régionaux peuvent automatiquement et de manière transparente acheminer les demandes vers une région disposant de suffisamment de capacité. Si vous optez pour un déploiement non global, également appelé déploiement régional, utilisez Azure API Management pour équilibrer les charges des demandes API vers les points de terminaison d’IA.
Confirmez la disponibilité du service. Avant le déploiement, assurez-vous qu’il y a disponibilité dans la région pour les ressources d’IA dont vous avez besoin. Certaines régions pourraient ne pas offrir de services d’IA spécifiques ou avoir des fonctionnalités limitées, ce qui peut affecter la fonctionnalité de votre solution. Cette limitation peut également influencer l’évolutivité de votre déploiement. Par exemple, la disponibilité du service Azure OpenAI peut varier en fonction de votre modèle de déploiement. Ces modèles de déploiement incluent le standard global, l’approvisionnement global, le standard régional et l’approvisionnement régional. Vérifiez le service d’IA pour vous assurer que vous avez accès aux ressources nécessaires.
Évaluez les quotas et la capacité régionaux. Prenez en compte les quotas ou les limites d’abonnement dans la région choisie à mesure que vos charges de travail d’IA se développent. Les services Azure ont des limites d’abonnement régionales. Ces limites peuvent affecter les déploiements de modèles d’IA à grande échelle, tels que les charges de travail d’inférence massives. Pour éviter les perturbations, contactez le support Azure à l’avance si vous prévoyez un besoin accru de capacité.
Évaluez les performances. Lorsque vous créez des applications qui doivent récupérer des données, comme les applications de génération augmentée par récupération (RAG), il est important de considérer les emplacements de stockage des données pour optimiser les performances. Il n’est pas nécessaire de co-localiser les données avec les modèles dans les applications RAG, mais cela peut améliorer les performances en réduisant la latence et en assurant une récupération efficace des données.
Préparez-vous à assurer la continuité des opérations. Pour garantir la continuité des activités et la récupération d’urgence, répliquez les actifs critiques tels que les modèles affinés, les données RAG, les modèles entraînés et les jeux de données d’entraînement dans une région secondaire. Cette redondance permet une récupération plus rapide en cas de panne et assure la disponibilité continue du service.
Établir une gouvernance de l’IA
La gouvernance de l’IA englobe l’organisation des ressources et l’application de politiques pour gérer les charges de travail d’IA et les coûts. Elle consiste à structurer les groupes d’administration et les abonnements pour assurer la conformité et la sécurité sur différentes charges de travail. Une gouvernance adéquate de l’IA empêche l’accès non autorisé, gère les risques et garantit que les ressources d’IA fonctionnent efficacement au sein de l’organisation.
Séparez les charges de travail d’IA exposées à Internet et internes. Au minimum, utilisez des groupes d’administration pour séparer les charges de travail d’IA en deux catégories : exposées à Internet (« en ligne ») et uniquement internes (« entreprise »). Cette distinction fournit une frontière importante en matière de gouvernance des données. Elle vous aide à garder les données internes séparées des données publiques. Vous ne voulez pas que des utilisateurs externes accèdent à des informations sensibles nécessaires pour le travail interne. Cette séparation entre les charges de travail exposées à Internet et internes est alignée sur les groupes d’administration de la zone d’atterrissage Azure.
Appliquez les politiques d’IA à chaque groupe d’administration. Commencez avec les politiques de base pour chaque type de charge de travail, telles que celles utilisées dans les zones d’atterrissage Azure. Ajoutez d’autres définitions de politiques Azure à votre base pour uniformiser la gouvernance des services Azure AI, Azure AI Search, Azure Machine Learning et Azure Virtual Machines.
Déployez les ressources d’IA dans des abonnements de charge de travail. Les ressources d’IA doivent hériter des politiques de gouvernance des charges de travail du groupe d’administration (interne ou exposé à Internet). Gardez-les séparées des ressources de la plateforme. Les ressources d’IA contrôlées par les équipes de la plateforme ont tendance à créer des goulets d’étranglement dans le développement. Dans le contexte de la zone d’atterrissage Azure, déployez les charges de travail d’IA dans des abonnements dédiés aux zones d’atterrissage d’applications.
Établir la mise en réseau de l’IA
La mise en réseau de l’IA fait référence à la conception et à la mise en œuvre de l’infrastructure réseau pour les charges de travail d’IA, y compris la sécurité et la connectivité. Elle implique l’utilisation de topologies telles que le hub-and-spoke, l’application de mesures de sécurité telles que la protection DDoS, et la garantie d’un transfert de données efficace. Une mise en réseau efficace de l’IA est cruciale pour une communication sécurisée et fiable, empêchant les perturbations liées au réseau et maintenant les performances.
Activez la protection DDoS d’Azure pour les charges de travail d’IA exposées à Internet. Azure DDoS Protection protège vos services d’IA contre les perturbations potentielles et les temps d’arrêt causés par des attaques par déni de service distribué. Activez la protection DDoS d’Azure au niveau du réseau virtuel pour défendre contre les inondations de trafic ciblant les applications exposées à Internet.
Connectez-vous aux données sur site. Pour les organisations qui transfèrent de grandes quantités de données depuis des sources sur site vers des environnements cloud, utilisez une connexion à bande passante élevée.
Envisagez Azure ExpressRoute. Azure ExpressRoute est idéal pour les volumes de données élevés, le traitement en temps réel ou les charges de travail nécessitant des performances constantes. Il dispose d’une fonctionnalité FastPath qui améliore les performances du chemin des données.
Envisagez Azure VPN Gateway. Utilisez Azure VPN Gateway pour des volumes de données modérés, des transferts de données peu fréquents ou lorsque l’accès public à Internet est requis. Il est plus simple à configurer et plus économique pour les petits ensembles de données qu’ExpressRoute. Utilisez la bonne topologie et conception pour vos charges de travail d’IA. Utilisez un VPN site à site pour la connectivité intersites et hybride. Utilisez un VPN point à site pour la connectivité sécurisée des appareils. Pour plus d’informations, consultez Connecter un réseau local à Azure.
Préparez les services de résolution de noms de domaine. Lorsque vous utilisez des points de terminaison privés, intégrez les points de terminaison privés avec DNS pour une résolution DNS correcte et le bon fonctionnement des points de terminaison privés. Déployez l’infrastructure DNS Azure dans le cadre de votre zone d’atterrissage Azure et configurez des résolveurs conditionnels à partir des services DNS existants pour les zones appropriées. Pour plus d’informations, consultez Private Link et l’intégration DNS à grande échelle pour les zones d’atterrissage Azure.
Configurez les contrôles d’accès au réseau. Utilisez des groupes de sécurité réseau (NSG) pour définir et appliquer des politiques d’accès régissant le trafic entrant et sortant vers et depuis les charges de travail d’IA. Ces contrôles peuvent être utilisés pour mettre en œuvre le principe du moindre privilège, garantissant que seule la communication essentielle est permise.
Utilisez les services de surveillance du réseau. Utilisez des services tels qu’Azure Monitor Network Insights et Azure Network Watcher pour obtenir une visibilité sur les performances et l’état du réseau. De plus, utilisez Microsoft Sentinel pour une détection et une réponse avancées aux menaces dans votre réseau Azure.
Déployez le pare-feu Azure pour inspecter et sécuriser le trafic sortant des charges de travail Azure. Azure Firewall applique des politiques de sécurité pour le trafic sortant avant qu’il n’atteigne Internet. Utilisez-le pour contrôler et surveiller le trafic sortant et activer la SNAT pour dissimuler les adresses IP internes en les traduisant en adresses IP publiques du pare-feu. Cela garantit un trafic sortant sécurisé et identifiable pour une meilleure surveillance et sécurité.
Utilisez le pare-feu d’application Web Azure (WAF) pour les charges de travail exposées à Internet. Azure WAF aide à protéger vos charges de travail d’IA contre les vulnérabilités Web courantes, y compris les injections SQL et les attaques de scripts intersites. Configurez le WAF d’Azure sur Application Gateway pour les charges de travail nécessitant une sécurité renforcée contre le trafic Web malveillant.
Établir une fondation pour l’IA
Une fondation pour l’IA fournit l’infrastructure de base et la hiérarchie des ressources qui soutiennent les charges de travail d’IA dans Azure. Elle comprend la mise en place d’environnements évolutifs et sécurisés qui s’alignent sur les besoins en gouvernance et en exploitation. Une fondation solide pour l’IA permet un déploiement et une gestion efficaces des charges de travail d’IA. Elle assure également la sécurité et la flexibilité pour la croissance future.
Utilisez une zone d’atterrissage Azure
Une zone d’atterrissage Azure est le point de départ recommandé qui prépare votre environnement Azure. Elle fournit une configuration prédéfinie pour les ressources de la plateforme et des applications. Une fois la plateforme en place, vous pouvez déployer des charges de travail d’IA dans des zones d’atterrissage d’applications dédiées. La figure 2 ci-dessous illustre comment les charges de travail d’IA s’intègrent dans une zone d’atterrissage Azure.
Figure 2. Charge de travail d’IA dans une zone d’atterrissage Azure.
Construisez un environnement d’IA
Si vous n’utilisez pas de zone d’atterrissage Azure, suivez les recommandations de cet article pour créer votre environnement d’IA. Le schéma suivant montre une hiérarchie de ressources de base. Il segmente les charges de travail d’IA internes et exposées à Internet, comme décrit dans établir la gouvernance de l’IA. Les charges de travail internes utilisent des politiques pour refuser l’accès en ligne des clients. Cette séparation protège les données internes contre l’exposition aux utilisateurs externes. Le développement d’IA utilise une jumpbox pour gérer les ressources et les données d’IA.
Figure 3. Hiérarchie des ressources de base pour les charges de travail d’IA.
Étapes suivantes
L’étape suivante consiste à construire et déployer les charges de travail d’IA dans votre environnement d’IA. Utilisez les liens suivants pour trouver les conseils architecturaux qui répondent à vos besoins. Commencez par les architectures de plateforme en tant que service (PaaS). PaaS est l’approche recommandée par Microsoft pour adopter l’IA.