Freigeben über


Best Practices für Machine Learning Operations (MLOps) in Azure Kubernetes Service (AKS)

In diesem Artikel werden Best Practices und Überlegungen beschrieben, die Sie bei der Verwendung von MLOps in AKS berücksichtigen sollten. Weitere Informationen zu MLOps finden Sie unter Machine Learning Operations (MLOps) für KI- und Machine Learning-Workflows.

Infrastructure-as-Code (IaC)

IaC ermöglicht eine konsistente und reproduzierbare Infrastrukturbereitstellung und -verwaltung für eine Reihe von Anwendungstypen. Bei intelligenten Anwendungsbereitstellungen kann sich Ihre IaC-Implementierung in der gesamten KI-Pipeline ändern, da die für Rückschlüsse, Bereitstellung, Training und Optimierung erforderliche Rechenleistung und Ressourcen variieren können. Die Definition und Versionsverwaltung von IaC-Vorlagen für Ihre KI-Entwicklerteams kann dazu beitragen, Konsistenz und Kosteneffizienz für alle Auftragstypen sicherzustellen und gleichzeitig ihre individuellen Hardwareanforderungen zu verringern und den Bereitstellungsprozess zu beschleunigen.

Containerisierung

Das Verwalten von Modellgewichtungen, Metadaten und Konfigurationen in Containerimages ermöglicht Portabilität, vereinfachte Versionsverwaltung und verringerte Speicherkosten im Laufe der Zeit. Vorteile der Containerisierung:

  • Nutzen Sie vorhandene Containerimages, insbesondere für große Sprachmodelle (LLMs) von Millionen bis Milliarden von Parametern und stabilen Diffusionsmodellen, die in sicheren Containerregistrierungen gespeichert sind.
  • Vermeiden Sie Single Points of Failure (SPOF) in Ihrer Pipeline durch die Verwendung mehrerer schlanker Container, die die eindeutigen Abhängigkeiten für jede Aufgabe enthalten, anstatt ein großes Image zu verwalten.
  • Speichern Sie große Text-/Imagedatasets außerhalb Ihres Basiscontainerimages, und verweisen Sie bei Bedarf zur Laufzeit auf sie.

Erste Schritte mit dem Kubernetes KI-Toolchain-Betreiber zur Bereitstellung eines leistungsfähigen LLM in AKS in wenigen Minuten.

Modellverwaltung und Versionsverwaltung

Modellverwaltung und Versionsverwaltung sind für das Nachverfolgen von Änderungen an Ihren Modellen im Laufe der Zeit unerlässlich. Vorteile der Versionsverwaltung für Ihre Modelle:

  • Sorgen Sie für eine einfache Bereitstellung in unterschiedlichen Umgebungen durch Konsistenz in Ihren Modellcontainern.
  • Verwenden Sie PEFT-Methoden (Parameter-Efficient Fine-Tuning), um einen Teil der Modellgewichtungen schneller zu durchlaufen und neue Versionen in schlanken Containern zu verwalten.

Automation

Die Automatisierung ist der Schlüssel zur Reduzierung manueller Fehler, zur Steigerung der Effizienz und zur Sicherstellung der Konsistenz im gesamten ML-Lebenszyklus. Vorteile der Aufgabenautomatisierung:

  • Integrieren Sie Warnungstools, um einen Vektorerfassungsflow automatisch auszulösen, wenn neue Daten in Ihrer Anwendung eingehen.
  • Legen Sie Modellleistungsschwellenwerte fest, um Beeinträchtigungen nachzuverfolgen und Pipelines für erneutes Training auszulösen.

Skalierbarkeit und Ressourcenmanagement

Skalierbarkeit und Ressourcenmanagement sind wichtig, um sicherzustellen, dass Ihre KI-Pipeline die Anforderungen Ihrer Anwendung verarbeiten kann. Vorteile der Optimierung des Ressourceneinsatzes:

  • Integrieren Sie Tools, die Ihre zugeordneten CPU-, GPU- und Speicherressourcen effizient über verteilte Verarbeitung und mehrere Parallelitätsebenen verwenden (z. B. Daten-, Modell- und Pipelineparallelität).
  • Aktivieren Sie die automatische Skalierung Ihrer Computeressourcen, um große Modellanforderungsvolumen zu Spitzenzeiten zu unterstützen und außerhalb von Spitzenzeiten nach herunterzuskalieren.
  • Ähnlich wie bei herkömmlichen Anwendungen planen Sie die Notfallwiederherstellung, indem Sie die Best Practices für Resilienz und Zuverlässigkeit in AKS befolgen.

Sicherheit und Compliance

Sicherheit und Compliance sind für den Schutz Ihrer Daten von entscheidender Bedeutung und stellen sicher, dass Ihre KI-Pipeline gesetzliche Vorschriften erfüllt. Vorteile der Implementierung von Best Practices für Sicherheit und Compliance:

  • Integrieren Sie CVE-Scans (Common Vulnerabilities and Exposures), um allgemeine Sicherheitsrisiken für Open-Source-Containerimages zu erkennen.
  • Pflegen Sie einen Überwachungspfad der erfassten Daten, Modelländerungen und Metriken, um mit Ihren Organisationsrichtlinien konform zu bleiben.

Nächste Schritte

Erfahren Sie mehr über Best Practices in anderen Bereichen Ihrer Anwendungsbereitstellung und -vorgänge in AKS: