Delen via


Best practices voor machine learning-bewerkingen (MLOps) in Azure Kubernetes Service (AKS)

In dit artikel worden aanbevolen procedures en overwegingen beschreven waarmee u rekening moet houden bij het gebruik van MLOps in AKS. Zie Machine Learning-bewerkingen (MLOps) voor AI- en machine learning-werkstromen voor meer informatie over MLOps.

Infrastructuur als code (IaC)

IaC maakt consistente en reproduceerbare infrastructuurinrichting en -beheer mogelijk voor een reeks toepassingstypen. Met intelligente toepassingsimplementaties kan uw IaC-implementatie in de AI-pijplijn veranderen, omdat de rekenkracht en resources die nodig zijn voor deductie, het leveren, trainen en verfijnen van modellen kunnen variëren. Het definiëren en versiebeheer van IaC-sjablonen voor uw AI-ontwikkelaarsteams kan helpen bij het garanderen van consistentie en kosteneffectiviteit voor verschillende taaktypen, terwijl de afzonderlijke hardwarevereisten worden gedemystificeren en het implementatieproces wordt versneld.

Containervorming

Door uw modelgewichten, metagegevens en configuraties in containerinstallatiekopieën te beheren, zijn draagbaarheid, vereenvoudigde versiebeheer en lagere opslagkosten in de loop van de tijd mogelijk. Met containerisatie kunt u het volgende doen:

  • Maak gebruik van bestaande containerinstallatiekopieën, met name voor grote taalmodellen (LLM's), variërend van miljoenen tot miljarden parameters in grootte en stabiele diffusiemodellen, opgeslagen in beveiligde containerregisters.
  • Vermijd single point of failure (SPOF) in uw pijplijn met behulp van meerdere lichtgewicht containers die de unieke afhankelijkheden voor elke taak bevatten in plaats van één grote installatiekopie te onderhouden.
  • Sla grote tekst-/afbeeldingsgegevenssets buiten uw basiscontainerinstallatiekopieën op en verwijs ze wanneer dat nodig is tijdens runtime.

Ga in een paar minuten aan de slag met de Kubernetes AI Toolchain Operator om een LLM met hoge prestaties op AKS te implementeren.

Modelbeheer en versiebeheer

Modelbeheer en versiebeheer zijn essentieel voor het bijhouden van wijzigingen in uw modellen in de loop van de tijd. Door uw modellen te versieren, kunt u het volgende doen:

  • Behoud consistentie in uw modelcontainers voor een eenvoudige implementatie in verschillende omgevingen.
  • Gebruik parameter-efficiënte fine-tuning (PEFT) methoden om sneller te herhalen op een subset van modelgewichten en nieuwe versies in lichtgewicht containers te onderhouden.

Automation

Automatisering is essentieel voor het verminderen van handmatige fouten, het verhogen van de efficiëntie en het garanderen van consistentie in de ML-levenscyclus. Door taken te automatiseren, kunt u het volgende doen:

  • Integreer waarschuwingshulpprogramma's om automatisch een vectoropnamestroom te activeren als nieuwe gegevensstromen in uw toepassing.
  • Stel modelprestatiedrempels in om degradaties bij te houden en hertrainingspijplijnen te activeren.

Schaalbaarheid en resourcebeheer

Schaalbaarheid en resourcebeheer zijn essentieel om ervoor te zorgen dat uw AI-pijplijn de vereisten van uw toepassing kan afhandelen. Door uw resourcegebruik te optimaliseren, kunt u het volgende doen:

  • Integreer hulpprogramma's die efficiënt gebruikmaken van uw toegewezen CPU-, GPU- en geheugenresources via gedistribueerde computing en meerdere niveaus van parallelle uitvoering (bijvoorbeeld gegevens, model en pijplijnparallellisme).
  • Schakel automatisch schalen in op uw rekenresources om hoge modelaanvraagvolumes te ondersteunen op piekmomenten en omlaag te schalen in daluren.
  • Net als bij uw traditionele toepassingen moet u plannen voor herstel na noodgevallen door de best practices voor AKS-tolerantie en betrouwbaarheid te volgen.

Beveiliging en naleving

Beveiliging en naleving zijn essentieel voor het beveiligen van uw gegevens en ervoor zorgen dat uw AI-pijplijn voldoet aan wettelijke vereisten. Door best practices voor beveiliging en naleving te implementeren, kunt u het volgende doen:

  • Integreer veelvoorkomende beveiligings- en blootstellingsscans (CVE) om veelvoorkomende beveiligingsproblemen op opensource-modelcontainerinstallatiekopieën te detecteren.
  • Behoud een audittrail van de opgenomen gegevens, modelwijzigingen en metrische gegevens om te voldoen aan uw organisatiebeleid.

Volgende stappen

Meer informatie over best practices voor andere gebieden van uw toepassingsimplementatie en -bewerkingen op AKS: