Recommandations de gouvernance pour les charges de travail d’IA sur l’infrastructure Azure (IaaS)
Cet article fournit des recommandations de gouvernance pour les organisations exécutant des charges de travail d’IA sur l’infrastructure Azure (IaaS). Ces recommandations aident les organisations à établir un cadre structuré pour la gestion des ressources, le contrôle des coûts, la sécurité et l’efficacité opérationnelle. En suivant ces pratiques, vous pouvez faire évoluer vos charges de travail d’IA de manière responsable tout en respectant les objectifs de conformité, de sécurité et de budget.
Gouvernance des ressources
La gouvernance des ressources établit des règles et des normes pour gérer les ressources Azure. En appliquant des politiques de gouvernance, les organisations peuvent garantir la conformité, standardiser l’utilisation des ressources et contrôler les coûts, soutenant ainsi la mise à l’échelle responsable des opérations d’IA.
Appliquez l’utilisation de balises. Utilisez Azure Policy pour appliquer des règles telles que la localisation des ressources, les SKUs autorisés et les balises obligatoires. Par exemple, créez des politiques pour restreindre le déploiement de certaines VM coûteuses, aidant ainsi à gérer les budgets efficacement.
Appliquez des politiques de gouvernance pour assurer la conformité et la standardisation. Utilisez Azure Policy pour appliquer des règles telles que la localisation des ressources, les SKUs autorisés et les balises obligatoires. Par exemple, créez des politiques pour restreindre le déploiement de certaines VM coûteuses afin de contrôler le budget.
Utilisez des groupes de ressources pour la gestion du cycle de vie. Déployez les ressources d’IA au sein de groupes de ressources partageant un cycle de vie commun. Les groupes de ressources permettent de déployer, configurer et supprimer des ressources collectivement. Ils offrent également des limites supplémentaires de gouvernance (politiques), de sécurité (RBAC) et de coût (budget).
Standardisez les conventions de nommage. Implémentez une convention de nommage standardisée pour les ressources d’IA. Cette pratique améliore le suivi et la gestion. Utilisez les règles et restrictions de nommage pour chaque ressource Azure et suivez les abréviations recommandées, car de nombreuses ressources ont des restrictions de longueur de nom.
Gérez l’infrastructure en tant que code (IaC). Utilisez Microsoft Defender pour le Cloud pour surveiller et appliquer la sécurité IaC. Cet outil aide à détecter les erreurs de configuration de l’IaC et à assurer des déploiements sécurisés.
Gestion des coûts
La gestion des coûts surveille et contrôle les dépenses liées aux charges de travail d’IA sur Azure. Une gestion efficace des coûts permet aux organisations de fixer des budgets, de suivre les dépenses et de maintenir la durabilité financière pour les projets d’IA.
Utilisez des balises pour l’allocation des coûts. Configurez une définition de politique Azure pour imposer l’utilisation de balises sur les ressources. Utilisez des balises pour catégoriser les ressources par projet, centre de coûts, environnement et propriétaire pour une meilleure gestion et facturation.
Utilisez l’héritage des balises. Utilisez l’héritage des balises dans la gestion des coûts pour appliquer les balises de facturation, de groupe de ressources et d’abonnement aux enregistrements d’utilisation des ressources enfant.
Gérez les comptes de facturation. Utilisez Microsoft Billing pour superviser les comptes de facturation et gérer les factures. Assignez un compte de facturation à chaque projet ou équipe d’IA pour faciliter le suivi précis des dépenses.
Surveillez les coûts. Utilisez Microsoft Cost Management pour définir des alertes budgétaires, des alertes d’anomalies de coûts et des alertes programmées. Ce suivi des coûts aide les organisations à maintenir une discipline financière.
Consultez les modèles de dépenses. Utilisez l’outil Analyse des coûts d’Azure pour examiner régulièrement les modèles de dépenses. Ce processus identifie les tendances et révèle des possibilités d’économies, en particulier dans l’utilisation des VM.
Autorisez des SKUs spécifiques de machines virtuelles. Utilisez la politique Azure pour n’autoriser que les SKUs de machines virtuelles qui correspondent à votre budget IA. La définition de politique intégrée SKUs de machines virtuelles autorisés peut imposer ce contrôle.
Envisagez l’autoscaling. Utilisez un ensemble de machines virtuelles avec mise à l’échelle automatique pour ajuster dynamiquement le nombre de VM en fonction de la demande, optimisant ainsi les coûts.
Configurez l’extinction automatique des VM. Utilisez la fonction d’extinction automatique pour programmer l’extinction des VM en dehors des heures d’activité, réduisant ainsi les coûts inutiles.
Gouvernance de la sécurité
La gouvernance de la sécurité répond au besoin de mesures de protection robustes pour les charges de travail d’IA. En implémentant des politiques de sécurité et des contrôles d’accès, les organisations peuvent protéger les données et les ressources sensibles. Cela réduit les risques et soutient un environnement d’IA sécurisé sur Azure.
Intégrez avec Microsoft Entra ID. Utilisez Microsoft Entra ID pour une gestion d’identité centralisée et des capacités de connexion unique (SSO) pour les charges de travail d’IA.
Mettez en œuvre des contrôles d’accès distincts pour chaque environnement. Limitez l’identité de chaque pipeline de déploiement à son environnement désigné, réduisant ainsi le risque de déploiements accidentels.
Activez Azure Defender. Activez Azure Defender pour une protection avancée contre les menaces. Azure Defender renforce la sécurité des charges de travail, y compris les machines virtuelles, les comptes de stockage et les bases de données, favorisant une posture de sécurité robuste pour les charges de travail d’IA.
Gouvernance opérationnelle
La gouvernance opérationnelle assure une surveillance et une gestion cohérentes des charges de travail d’IA. En utilisant des outils de surveillance, d’alerte et de déploiements automatisés, les organisations peuvent maintenir la santé du système, détecter les problèmes tôt et améliorer l’efficacité opérationnelle, contribuant ainsi à des opérations d’IA fiables et stables.
Déployez des agents de surveillance. Assurez-vous que les agents Azure Monitor sont déployés par défaut pour les machines virtuelles, les Virtual Machine Scale Sets et les serveurs connectés Azure Arc. Connectez-les à un espace de travail Log Analytics central au sein de l’abonnement de gestion.
Configurer des alertes. Activez les règles d’alerte recommandées pour recevoir des notifications en cas de déviations de métriques.
Utilisez un pipeline CI/CD. Implémentez l’intégration et livraison continues (CI/CD) pour automatiser les tests de code et le déploiement dans différents environnements.