KI verwalten – Empfehlungen für die Verwaltung von KI
In diesem Artikel wird der Organisationsprozess zum Verwalten von KI-Workloads beschrieben. Er enthält Empfehlungen für die Verwaltung von KI-Workloads aus Entwicklung, Bereitstellung und Betrieb. Effektive KI-Verwaltung erfordert einen strukturierten Ansatz von der Entwicklung über die Bereitstellung und bis hin zu laufenden Vorgängen. Unternehmen benötigen standardisierte Praktiken und regelmäßige Überwachung, um Probleme wie Daten- und Modelldrift zu verhindern und dadurch sicherzustellen, dass KI im Laufe der Zeit präzise und zuverlässig bleibt.
Verwalten von KI-Vorgängen
Die Verwaltung von KI-Vorgängen sorgt für Sichtbarkeit und Konsistenz während des gesamten KI-Lebenszyklus. Durch die Einführung von Betriebsframeworks wie MLOps, die Erstellung von Sandboxumgebungen und die Einrichtung von CI/CD-Pipelines können Sie Entwicklung, Tests und Bereitstellung überwachen.
Einführen eines KI-Betriebsframeworks. Implementieren Sie MLOps-Frameworks (Machine Learning Operations) für herkömmliche Machine Learning-Workflows und GenAIOps für generative KI-Workloads. Diese Betriebsframeworks organisieren den End-to-End-Zyklus für die KI-Entwicklung.
Standardisieren von KI-Entwicklungstools. Definieren und standardisieren Sie die Verwendung von SDKs und APIs für Konsistenz in Entwicklungsteams. Tools wie Azure SDK für KI-Workloads stellen Bibliotheken und APIs bereit, die für die Skalierung von KI-Modellen optimiert sind und in Anwendungen integriert werden. Standardisieren Sie für generative KI Ihre KI-Plattform und -Orchestratoren, z. B. semantischer Kernel, LangChain und prompt flow.
Verwenden einer Sandboxumgebung für KI-Experimente. Verwenden Sie eine Sandboxumgebung für KI-Modellexperimente. Sie möchten Konsistenz in Entwicklungs-, Test- und Produktionsumgebungen sicherstellen. Daher sollte sich die Sandboxumgebung von Entwicklungs-, Test- und Produktionsumgebungen im KI-Entwicklungslebenszyklus unterscheiden. Wenn Sie Bereitstellungs- und Governancemodelle zwischen Entwicklungs-, Test- und Produktionsumgebungen ändern, kann dies zu Breaking Changes führen.
Einrichten von CI/CD-Pipelines (Continuous Integration und Continuous Delivery) für die Bereitstellung. Stellen Sie sicher, dass Ihre Datenpipelines Codequalitätsprüfungen abdecken, einschließlich Linting und statischer Analyse. Datenpipelines sollten außerdem Komponenten- und Integrationstests sowie Experiment- und Auswertungsflows enthalten. Integrieren Sie schließlich Schritte zur Produktionsbereitstellung, z. B. Höherstufen von Releases für Test- und Produktionsumgebungen nach manuellen Genehmigungen. Sorgen Sie für die Trennung zwischen Modellen, Prompt Flows und Clientbenutzeroberfläche, um sicherzustellen, dass Aktualisierungen an einer Komponente keine Auswirkungen auf andere haben. Jeder Flow sollte über einen eigenen Lebenszyklus für die unabhängige Höherstufung verfügen.
Verwalten der KI-Bereitstellung
Bei der KI-Bereitstellungsverwaltung geht es darum, zu definieren, wer KI-Ressourcen bereitstellen kann und wer diese Endpunkte steuert. Ein von einem KI-Kompetenzzentrum (KI Center of Excellence, KI-CoE) geleiteter strukturierter Ansatz unterstützt Unternehmen bei der Entscheidung, ob Workloadteams oder ein zentrales Team Ressourcen verwalten sollen bzw. soll, wobei die Entwicklungsgeschwindigkeit mit den Governanceanforderungen in Einklang gebracht wird. Der beste Ansatz sollte vom KI-CoE ermittelt werden.
Verwenden der Workloadteamverwaltung von KI-Ressourcen für eine schnellere Entwicklung. Wenn Workloadteams KI-Ressourcen verwalten, haben sie die Autonomie, KI-Ressourcen innerhalb der Grenzen Ihrer Governancerichtlinien bereitzustellen und zu verwalten. Verwenden Sie Azure Policy, um Governance konsistent in allen Workloadumgebungen zu erzwingen. Erstellen und kommunizieren Sie KI-Richtlinien, die die Workloadteams einhalten müssen, um alle Governancelücken zu schließen. Erstellen Sie beispielsweise Richtlinien für generative KI, um Inhaltsfiltereinstellungen zu erzwingen und die Nutzung unzulässiger Modelle zu verhindern. Informieren Sie Workloadteams über diese Richtlinien, und überwachen Sie sie regelmäßig.
Verwenden der gemeinsamen Verwaltung von KI-Ressourcen für eine verbesserte KI-Governance. Bei einem Ansatz zur gemeinsamen KI-Verwaltung verwaltet ein zentrales Team KI-Ressourcen für alle KI-Workloads. Dieses Team stellt zentrale KI-Ressourcen bereit und konfiguriert Sicherheit und Governance, die von allen Workloadteams verwendet werden. Verwenden Sie diesen Ansatz, wenn Sie möchten, dass ein einzelnes Team KI-Bereitstellungen und -Governance in Ihren Workloads steuert.
Verwalten der KI-Endpunktfreigabe
Die Freigabe von KI-Endpunkten über Workloads hinweg kann die Verwaltung optimieren, erfordert jedoch eine sorgfältige Prüfung der Governance- und Modellanforderungen. Unternehmen sollten Endpunkte nur innerhalb einer einzigen Workload mit konsistenten Anforderungen freigeben, da eine gemeinsame Nutzung bei unterschiedlichen Anforderungen die Governance verkomplizieren und die Kosten erhöhen kann.
Vermeiden der Freigabe von KI-Endpunkten, wenn Governance- und Modellanforderungen variieren. Bei Workloads, die unterschiedliche Inhaltsfiltereinstellungen erfordern (z. B. Governance für Eingabe und Ausgabe), sollte der Endpunkt nicht freigegeben werden. Geben Sie auch keinen einzelnen KI-Endpunkt frei, wenn ein anderes KI-Modell eine kostengünstigere Möglichkeit zur Erfüllung der Workloadanforderungen bietet.
Freigeben von KI-Endpunkten nur innerhalb einer einzelnen Workload. Die Freigabe eines KI-Endpunkts funktioniert am besten, wenn ein Workloadteam mehrere Anwendungen im Rahmen derselben Workload hat. Die Freigabe von KI-Endpunkten ermöglicht den geringsten Verwaltungsaufwand und vereinfacht die Bereitstellung. Diese Anwendungen müssen dieselben Governance- und KI-Modellanforderungen aufweisen. Die Freigabe von Endpunkten kann dazu führen, dass Sie Ratenbegrenzung und Kontingentgrenzen erreichen. Für die meisten Azure-Dienste gelten bestimmte Grenzwerte pro Abonnement. Innerhalb eines Abonnements gelten für jede Region Kontingentgrenzen.
KI-Modelle verwalten
Die KI-Modellverwaltung umfasst das Festlegen von Governancestrukturen, kontinuierliche Überwachung und erneutes Trainieren, um die Leistung im Laufe der Zeit aufrechtzuerhalten. Dieser Prozess hilft Unternehmen dabei, Modelle an ethischen Standards auszurichten, die Modellleistung nachzuverfolgen und sicherzustellen, dass KI-Systeme effektiv und auf die Geschäftsziele abgestimmt bleiben.
Einrichten einer Governancestruktur für die KI-Aufsicht. Erstellen Sie ein KI-Kompetenzzentrum (Center of Excellence, CoE), oder ernennen Sie einen KI-Lead. Dadurch soll sichergestellt werden, dass verantwortungsvolle KI-Standards eingehalten werden. Das CoE oder der KI-Lead muss Entscheidungen dahingehend treffen, ob Systeme auf der Grundlage dieser Berichte angepasst werden müssen. Verwenden Sie das Dashboard für verantwortungsvolle KI, um Berichte zu Modellausgaben zu generieren.
Definieren einer Baseline für die KI-Messung. Richten Sie eine Baseline für die Messung ein, um sicherzustellen, dass KI-Modelle Geschäftszielen und ethischen Standards entsprechen. Verwenden Sie KPIs, die mit Prinzipien verantwortungsvoller KI wie Fairness, Transparenz und Genauigkeit zusammenhängen. Ordnen Sie diese KPIs KI-Workloads zu. Messen Sie z. B. in einem Kundendienst-Chatbot die Fairness, indem Sie bewerten, wie gut das Modell in verschiedenen demografischen Gruppen funktioniert. Beginnen Sie mit den Tools auf dem Dashboard für verantwortungsvolle KI, um diese Messungen zu durchführen.
Implementieren kontinuierlicher Überwachung. KI-Workloads können sich im Laufe der Zeit aufgrund von sich entwickelnden Daten, Modellaktualisierungen oder Änderungen im Benutzerverhalten ändern. Überwachen Sie KI-Modelle, KI-Ressourcen und KI-Daten, um sicherzustellen, dass diese Workloads weiterhin an KPIs ausgerichtet bleiben. Führen Sie Audits durch, um KI-Systeme anhand der definierten Prinzipien und Metriken für verantwortungsvolle KI zu bewerten.
Ermitteln der Grundursachen von Leistungsproblemen. Ermitteln Sie die Ursache des Problems, wenn beim Überwachen der KI ein Rückgang der Leistung oder Genauigkeit festgestellt wird. Stellen Sie sicher, dass Sie einen Einblick in jede Phase der Interaktion haben, um das Problem isolieren und Korrekturmaßnahmen schneller implementieren zu können. Wenn beispielsweise ein Kundendienst-Chatbot ungenaue Antworten generiert, sollten Sie mithilfe der Überwachung bestimmen können, ob der Fehler in der Prompt-Erstellung oder im Verstehen des Kontexts durch das Modell liegt. Verwenden Sie integrierte Tools wie Azure Monitor und Application Insights, um Leistungsengpässe und Anomalien proaktiv zu identifizieren.
Nachverfolgen der Modelleinstellung. Verfolgen Sie die Einstellung für vortrainierte Modelle nach, um Leistungsprobleme zu verhindern, wenn der Anbietersupport endet. Beispielsweise ist ein generatives KI-Modell u. U. veraltet, daher müssen Sie es aktualisieren, um die Funktionalität aufrechtzuerhalten. Studio zeigt das Modelleinstellungsdatum für alle Bereitstellungen an.
Erneutes Trainieren von KI-Modellen nach Bedarf. Berücksichtigen Sie Modelle, die sich im Laufe der Zeit aufgrund von Datenänderungen verschlechtern. Planen Sie regelmäßige erneute Trainings basierend auf Modellleistung oder Geschäftsanforderungen, um sicherzustellen, dass das KI-System relevant bleibt. Das erneute Training kann teuer sein. Werten Sie daher die anfänglichen Trainingskosten aus, und schätzen Sie anhand dieser Kosten ab, wie häufig Sie KI-Modelle neu trainieren sollten. Verwalten Sie die Versionskontrolle für Modelle, und stellen Sie einen Rollbackmechanismus für Versionen mit schlechter Leistung sicher.
Einrichten eines Prozesses für die Modellhöherstufung. Verwenden Sie Qualitätsgates, um trainierte, optimierte und neu trainierte Modelle basierend auf Leistungskriterien auf höhere Umgebungen hochzustufen. Die Leistungskriterien sind für jede Anwendung einzigartig.
Verwalten von KI-Kosten
Die Verwaltung von KI-Kosten erfordert ein klares Verständnis von Ausgaben im Zusammenhang mit Ressourcen wie Compute, Speicher und Tokenverarbeitung. Sie sollten bewährte Methoden für die Kostenverwaltung implementieren, die Nutzung überwachen und automatisierte Warnungen einrichten, um unerwartete Ausgaben zu vermeiden und die Ressourceneffizienz zu optimieren.
Einhalten bewährter Methoden für die Kostenverwaltung für jeden Dienst. Jeder Azure-Dienst verfügt über spezifische Features und bewährte Methoden, die die Kostenoptimierung maximieren. Machen Sie sich mit den folgenden Anleitungen für die Planung und Verwaltung von Kosten in Azure KI Studio, Azure OpenAI Service und Azure Machine Learning vertraut.
Überwachen und Maximieren der Abrechnungseffizienz. Machen Sie sich mit Kostenhaltepunkten vertraut, um unnötige Gebühren zu vermeiden. Beispiele hierfür sind die vollständige Nutzung von Festpreisschwellenwerten für die Bildgenerierung oder stündliche Optimierung. Verfolgen Sie Ihre Verwendungsmuster nach, einschließlich Token pro Minute (TPM) und Anforderungen pro Minute (RPM), und passen Sie Modelle und die Architektur entsprechend an. Ziehen Sie ein verpflichtungsbasiertes Abrechnungsmodell für konsistente Verwendungsmuster in Betracht.
Einrichten automatisierter Kostenwarnungen. Verwenden Sie Budgetwarnungen, damit Sie über unerwartete Gebühren informiert werden, und richten Sie Budgetierungsstrategien ein, um Ihre KI-Ausgaben zu steuern und vorherzusagen.
Informationen zu Anwendungen mit generativer KI unter Verwendung von Azure OpenAI finden Sie in diesen Empfehlungen zur Kostenoptimierung.
Verwalten von KI-Daten
Effektive KI-Datenverwaltung konzentriert sich auf die Aufrechterhaltung von Datengenauigkeit, -integrität und -vertraulichkeit während des gesamten KI-Lebenszyklus. Wenn Sie qualitativ hochwertige Datasets zusammenstellen und Datenpipelines schützen, kann Ihre Organisation sicherstellen, dass Daten zuverlässig und mit den sich ändernden gesetzlichen Anforderungen konform bleiben.
Beibehalten der Datengenauigkeit und Zusammenstellen goldener Datasets. Entwickeln Sie einen autoritativen Satz von Daten, die für regelmäßige Tests und Validierungen für beide KI-Typen verwendet werden. Kuratieren Sie dieses Dataset kontinuierlich, um sicherzustellen, dass es aktuelle, genaue Informationen widerspiegelt.
Sicherstellen der Datenpipelineintegrität. Entwickeln und verwalten Sie benutzerdefinierte Datenpipelines, um die Datenintegrität von der Datensammlung bis zur Vorverarbeitung und Speicherung sicherzustellen. Jeder Schritt der Pipeline muss sicher sein, um Leistung und Zuverlässigkeit in beiden Arten von KI-Anwendungen aufrechtzuerhalten.
Verwalten von Änderungen an der Datenvertraulichkeit. Sie müssen wissen, dass sich die Vertraulichkeitsklassifizierung von Daten im Laufe der Zeit ändern kann. Möglicherweise möchten Sie Daten mit geringer Vertraulichkeit aufgrund von geschäftlichen oder behördlichen Änderungen als hochgradig vertraulich klassifizieren. Entwickeln Sie Prozesse zum Entfernen oder Ersetzen vertraulicher Daten in nachgeschalteten Systemen. Microsoft Defender for Cloud und Microsoft Purview können Sie beim Bezeichnen und Verwalten vertraulicher Daten unterstützen. Dieser Prozess beginnt mit einem guten Datenkatalog vor der KI-Erfassung. Bei Änderungen identifizieren Sie alle Modelle oder Systeme, die die vertraulichen Daten verwenden. Trainieren Sie KI-Modelle nach Möglichkeit mithilfe von Datasets, die die neu klassifizierten vertraulichen Daten nicht enthalten.
Verwalten der Geschäftskontinuität mit KI
Geschäftskontinuität und Notfallwiederherstellung für KI umfassen das Erstellen von Bereitstellungen in mehreren Regionen und regelmäßige Tests von Wiederherstellungsplänen. Diese Strategien tragen dazu bei, dass KI-Systeme während Unterbrechungen betriebsbereit bleiben, und minimieren das Risiko längerer Ausfälle oder von Datenverlusten.
Verwenden von Bereitstellungen in mehreren Regionen für KI. Implementieren Sie Bereitstellungen in mehreren Regionen, um Hochverfügbarkeit und Resilienz sowohl für generative als auch für nicht generative KI-Systeme sicherzustellen. Diese Strategien minimieren Ausfallzeiten und stellen sicher, dass kritische KI-Anwendungen bei regionalen Ausfällen oder Infrastrukturfehlern betriebsbereit bleiben. Achten Sie darauf, die notwendige Redundanz für trainierte und optimierte Modelle zu implementieren, um zu vermeiden, dass während eines Ausfalls ein erneutes Training erforderlich ist.
Regelmäßiges Testen und Überprüfen von Notfallwiederherstellungsplänen. Führen Sie regelmäßige Tests für Notfallwiederherstellungspläne durch, um zu überprüfen, ob Sie generative und nicht generative KI-Systeme effektiv wiederherstellen können. Schließen Sie Tests von Datenwiederherstellungsprozessen und Validierungsverfahren ein, um sicherzustellen, dass alle KI-Komponenten nach der Wiederherstellung ordnungsgemäß funktionieren. Durch die regelmäßige Überprüfung wird sichergestellt, dass die Organisation auf reale Vorfälle vorbereitet ist und das Risiko von Fehlern während der Wiederherstellung minimiert wird.
Verwalten und Nachverfolgen von Änderungen an KI-Systemen. Stellen Sie sicher, dass alle Änderungen an Modellen, Daten und Konfigurationen über Versionskontrollsysteme wie Git verwaltet werden. Dies ist wichtig, um Änderungen nachzuverfolgen und sicherzustellen, dass frühere Versionen bei der Wiederherstellung wiederhergestellt werden können. Für generative und nicht generative KI sollte eine automatisierte Überwachung von Modell- und Systemänderungen eingerichtet sein, damit Sie ungeplante Änderungen schnell identifizieren und rückgängig machen können.