Verwaltungsempfehlungen für KI-Workloads in Azure
Dieser Artikel enthält Verwaltungsempfehlungen für Organisationen, die KI-Workloads (künstliche Intelligenz) in Azure ausführen. Im Vordergrund stehen Azure KI-Platform-as-a-Service (PaaS)-Lösungen, einschließlich Azure KI Studio, Azure OpenAI, Azure Machine Learning und Azure KI Services. Behandelt werden sowohl generative als auch nicht generative KI-Workloads.
Die effektive Verwaltung von KI-Workloads in Azure umfasst die Überwachung der Bereitstellung, der Modellleistung, von Vorgängen und Daten sowie der Notfallwiederherstellung zur Unterstützung Ihrer KI-Workloads. Eine korrekte Verwaltung stellt sicher, dass KI-Workloads während ihres gesamten Lebenszyklus zuverlässig, vertrauenswürdig und sicher sind.
Verwalten von KI-Bereitstellungen
Die Verwaltung von KI-Bereitstellungen hilft Workloadteams mit konsistenten Konfigurationen, die die Sicherheit und Compliance in allen Teams verbessern, bei der Umstellung von Proof of Concept-Phasen auf Produktionsumgebungen. Azure bietet Tools wie Hubs und Projekte in Azure KI Studio, um die Governance und Sicherheit zu erzwingen. Azure Machine Learning bietet mit den Hubarbeitsbereichen ähnliche Funktionen. Weitere Informationen finden Sie unter Verwalten von KI-Bereitstellungen.
KI-Modelle verwalten
Das Verwalten von KI-Modellen umfasst die Überwachung ihrer Ausgaben, Leistung und Übereinstimmung mit den Prinzipien verantwortungsvoller KI. Sich ändernde Daten, Benutzerverhalten oder andere externe Faktoren können im Laufe der Zeit zu einem Drift bei KI-Modellen führen. Diese Änderungen können zu ungenauen Ergebnissen oder ethischen Bedenken führen, wenn sie nicht beachtet werden.
Überwachen Sie die Modellausgaben. Implementieren Sie einen Überwachungs- und Testprozess, um sicherzustellen, dass diese Workloads stets mit Ihren Zielen für verantwortungsvolle KI im Einklang sind.
Überwachen Sie generative KI. Verwenden Sie für generative KI-Workloads die integrierten Funktionen für die Auswertung und manuelle Überwachung von Azure KI Studio. Falls Sie prompt flow verwenden, überwachen Sie prompt flow-Bereitstellungen. Erwägen Sie auch die Verwendung von Tools für verantwortungsvolle KI zur Ergänzung der Modellüberwachung.
Überwachen Sie nicht generative KI. Überwachen Sie bei nicht generativen KI-Workloads die Datenverarbeitungsphasen und Modellleistungsmetriken, um sicherzustellen, dass die Vorhersagen genau und zuverlässig bleiben. Aktivieren Sie die Modellüberwachung in Azure Machine Learning. Aktivieren Sie für Azure KI Services die Überwachung für jeden von Ihnen verwendeten KI-Dienst.
Überwachen Sie die Modellleistung. Wenn Sie einen Rückgang der Leistung oder Genauigkeit feststellen, hilft Ihnen die Überwachung, die Ursache des Problems zu ermitteln. Wie bei allen Workloads sollten Sie Azure Monitor und Application Insights verwenden, um die Leistung von KI-Workloads zu überwachen.
Überwachen Sie die Leistung von generativer KI. Überwachen Sie bei generativer KI die Latenz der Antwortzeiten oder die Genauigkeit von Vektorsuchergebnissen, um das Benutzererlebnis zu verbessern. Aktivieren Sie die Ablaufverfolgung in Azure KI Studio, um Ablaufverfolgungsdaten für jede Anforderung, aggregierte Metriken und Benutzerfeedback zu sammeln.
Überwachen Sie die Leistung von nicht generativer KI. Erfassen Sie Leistungsmetriken von Modellen, die in Azure Machine Learning bereitgestellt wurden. Aktivieren Sie für Azure KI Services die Diagnoseprotokollierung für jeden Azure KI-Dienst.
Ziehen Sie für die Überwachung die Verwendung eines Gateways für generative KI in Betracht. Ein Reverseproxy wie Azure API Management ermöglicht es Ihnen, Protokollierungs- und Überwachungsfunktionen zu implementieren, die keine nativen Funktionen der Plattform sind. Mit API Management können Sie Quell-IP-Adressen, Eingabetext und Ausgabetext erfassen. Weitere Informationen finden Sie unter Implementieren einer Protokollierung und Überwachung für Azure OpenAI-Sprachmodelle.
Verwalten von KI-Vorgängen
Die Verwaltung von KI-Vorgängen umfasst die Standardisierung von Computeressourcen und die Überwachung von Plattformressourcen für Azure KI-Workloads. Sie gewährleistet, dass Teams die richtigen Computeressourcen effizient verwenden und Metriken sowie Protokolle von Plattformressourcen erfassen.
Überwachen Sie Plattformressourcen. Verwenden Sie Diagnoseeinstellungen, um Protokolle und Metriken für alle wichtigen Dienste wie Azure KI Studio, Azure Machine Learning und Azure KI Services zu erfassen. Bestimmte Dienste sollten Überwachungsprotokolle und relevante dienstspezifische Protokolle erfassen. Implementieren Sie basierend auf den spezifischen Anforderungen Ihrer Architektur benutzerdefinierte Überwachungswarnungen. Beispiele sind Warnungen für Containerregistrierungen, Machine Learning-Dienste und Azure OpenAI Service-Vorgänge.
Standardisieren Sie die Computeverwaltung. Sie benötigen Computeressourcen für bestimmte Aktionen wie Prompt Flows und das Trainieren von Modellen. Ein Dienst wie Machine Learning verfügt über verschiedene Computeoptionen, z. B. Compute-Instanzen, Cluster und serverlose Optionen. Standardisieren Sie den Computetyp, Runtimes und Zeiträume für das Herunterfahren. Dienstspezifische Computeoptionen finden Sie unter Azure KI Studio und Machine Learning.
Verwalten von KI-Daten
Hochwertige Daten sind die Grundlage für präzise KI-Modelle. Das Nachverfolgen von Modelldrifts (Abweichungen) trägt dazu bei, die Relevanz von KI-Vorhersagen im Laufe der Zeit aufrechtzuerhalten, und ermöglicht es Organisationen, Modelle bei Bedarf an aktuelle Bedingungen anzupassen.
Überwachen Sie den Datendrift. Verfolgen Sie die Genauigkeit und den Datendrift von generativer und nicht generativer KI kontinuierlich nach, um die Relevanz von Modellen aufrechtzuerhalten. Die Überwachung kann Sie benachrichtigen, wenn Modellvorhersagen oder Large Language Model (LLM)-Antworten vom erwarteten Verhalten abweichen. Diese Abweichung weist darauf hin, dass ein erneutes Training oder eine Anpassung erforderlich ist. Richten Sie benutzerdefinierte Warnungen zum Erkennen von Leistungsschwellenwerten ein. Dieser Ansatz ermöglicht ein frühzeitiges Eingreifen, wenn Probleme auftreten. Verwenden Sie Auswertungen in Azure KI Studio und in Machine Learning unterstützte Metriken.
Stellen Sie die Qualität der Datenverarbeitung sicher. Für das maschinelle Lernen müssen Trainingsdaten formatiert, bereinigt und für die Nutzung durch ein Modell vorbereitet werden. Für generative KI müssen Groundingdaten im richtigen Format vorliegen und wahrscheinlich für die Nutzung durch ein KI-Modell segmentiert, angereichert und eingebettet werden. Weitere Informationen finden Sie im Leitfaden zum Entwerfen und Entwickeln einer RAG-Lösung.
Verwalten der Geschäftskontinuität
Implementieren Sie Bereitstellungen in mehreren Regionen, um sowohl für generative als auch nicht generative KI-Systeme Hochverfügbarkeit und Resilienz sicherzustellen. Weitere Informationen finden Sie im Abschnitt zur Bereitstellung in mehreren Regionen in Azure KI Studio, Azure Machine Learning und Azure OpenAI.