Partager via


Meilleures pratiques relatives aux opérations MLOps (opérations d’apprentissage automatique) dans AKS (Azure Kubernetes Service)

Cet article décrit les meilleures pratiques et les considérations à garder à l’esprit quand vous utilisez des MLOps dans AKS. Pour plus d’informations sur les MLOps, consultez Opérations d’apprentissage automatique (MLOps) pour des flux de travail IA et d’apprentissage automatique.

Infrastructure en tant que code (IaC)

IaC permet un approvisionnement et une gestion de l’infrastructure cohérents et reproductibles pour divers types d’applications. Avec les déploiements d’applications intelligentes, votre implémentation d’IaC peut changer tout au long du pipeline IA, car la puissance de calcul et les ressources nécessaires à l’inférence, à la mise en service, à la formation et au fine-tuning des modèles peuvent varier. La définition et le contrôle de version des modèles IaC pour vos équipes de développeurs IA peuvent contribuer à garantir la cohérence et la rentabilité entre les types de travaux tout en démystifiant la configuration matérielle requise individuellement, et en accélérant le processus de déploiement.

Mise en conteneur

La gestion des pondérations, des métadonnées et des configurations des modèles dans les images conteneur permet d’optimiser la portabilité, de simplifier le contrôle de version et de réduire les coûts de stockage au fil du temps. Avec la conteneurisation, vous pouvez :

  • Tirer profit des images conteneur existantes, en particulier pour les LLM (grands modèles de langage) ayant des millions voire des milliards de paramètres ainsi que pour les modèles Stable Diffusion, stockés dans des registres de conteneurs sécurisés.
  • Éviter les points de défaillance uniques (SPOF) dans votre pipeline grâce à l’utilisation de plusieurs conteneurs légers contenant les dépendances uniques de chaque tâche au lieu de gérer une seule image volumineuse.
  • Stocker les jeux de données de texte/d’image volumineux en dehors de votre image conteneur de base, et les référencer quand cela est nécessaire au moment de l’exécution.

Démarrez avec le gestionnaire de chaîne d’outils IA Kubernetes pour déployer un LLM haute performance sur AKS en quelques minutes.

Gestion des modèles et contrôle de version

La gestion des modèles et le contrôle de version sont essentiels au suivi des modifications apportées à vos modèles au fil du temps. À travers le contrôle de version de vos modèles, vous pouvez :

  • Maintenir une cohérence entre vos conteneurs de modèles pour faciliter leur déploiement dans des environnements distincts.
  • Employer des méthodes de fine-tuning efficace des paramètres (PEFT) pour itérer plus rapidement sur un sous-ensemble de pondérations de modèle, et gérer les nouvelles versions dans des conteneurs légers.

Automation

L’automatisation est essentielle pour réduire les erreurs manuelles, augmenter l’efficacité et garantir la cohérence tout au long du cycle de vie ML. En automatisant les tâches, vous pouvez :

  • Intégrer des outils d’alerte pour déclencher automatiquement un flux d’ingestion vectorielle quand de nouvelles données entrent dans votre application.
  • Définir des seuils de performances de modèle pour suivre les dégradations, et déclencher des pipelines de reformation.

Scalabilité et gestion des ressources

La scalabilité et la gestion des ressources sont des éléments critiques pour garantir la capacité de votre pipeline IA à gérer les demandes de votre application. En optimisant l’utilisation des ressources, vous pouvez :

  • Intégrer des outils qui utilisent efficacement les ressources de processeur, de GPU et de mémoire qui vous sont allouées via les traitements distribués et plusieurs niveaux de parallélisme (par exemple le parallélisme des données, des modèles et des pipelines).
  • Activer la mise à l’échelle automatique de vos ressources de calcul pour prendre en charge les volumes élevés de requêtes adressées aux modèles aux heures de pointe, et effectuer un scale-down durant les heures creuses.
  • Comme pour vos applications classiques, planifiez la récupération d’urgence en suivant les meilleures pratiques de résilience et de fiabilité pour AKS.

Sécurité et conformité

La sécurité et la conformité sont des éléments critiques pour protéger vos données, et garantir la conformité de votre pipeline IA aux exigences réglementaires. En implémentant les meilleures pratiques de sécurité et de conformité, vous pouvez :

  • Intégrer l’analyse des vulnérabilités et risques courants (CVE) pour détecter les vulnérabilités courantes dans les images conteneur de modèles open source.
  • Conserver et gérer une piste d’audit des données ingérées, des changements apportés aux modèles et des métriques pour rester en conformité avec vos directives organisationnelles.

Étapes suivantes

Découvrez les meilleures pratiques dans d’autres domaines du déploiement d’applications et des opérations sur AKS :