Freigeben über


Behandeln von Problemen mit Azure Chaos Studio

Während Sie Azure Chaos Studio verwenden, können Sie gelegentlich auf Probleme treffen. Dieser Artikel erläutert häufige Probleme sowie die Schritte zur Problembehandlung.

Allgemeine Tipps für die Problembehandlung

Die folgenden Quellen sind nützlich, wenn Sie Probleme mit Chaos Studio behandeln:

  • Aktivitätsprotokoll: Das Azure-Aktivitätsprotokoll enthält eine Aufzeichnung aller Erstellungs-, Aktualisierungs- und Löschvorgänge in einem Abonnement. Zu diesen Aufzeichnungen gehören Chaos Studio-Vorgänge wie das Aktivieren eines Ziels oder von Funktionen, das Installieren des Agents und das Erstellen oder Ausführen eines Experiments. Fehler im Aktivitätsprotokoll deuten darauf hin, dass eine Benutzeraktion, die für die Verwendung von Chaos Studio wichtig ist, möglicherweise nicht abgeschlossen wurde. Die meisten dienstspezifischen Fehler injizieren auch Fehler durch die Ausführung eines Azure Resource Manager-Vorgangs, sodass das Aktivitätsprotokoll auch die Aufzeichnung von Fehlern enthält, die während eines Experiments für einige dienstspezifische Fehler injiziert wurden.
  • Experimentdetails: Details zur Experimentausführung zeigen den Status und die Fehler einer einzelnen Experimentausführung an. Das Öffnen eines bestimmten Fehlers in den Experimentdetails zeigt die fehlerhaften Ressourcen und die Fehlermeldungen für einen Fehler an. Erfahren Sie mehr über den Zugriff auf Experimentdetails.
  • Agent-Protokolle: Wenn Sie einen Agent-basierenden Fehler verwenden, müssen Sie möglicherweise RDP oder SSH auf dem virtuellen Computer (der VM) verwenden, um zu verstehen, warum der Agent einen Fehler nicht ausgeführt hat. Die Anweisungen für den Zugriff auf Agent-Protokolle hängen vom Betriebssystem ab:
    • Chaos-Agent für Windows: Agent-Protokolle befinden sich im Windows-Ereignisprotokoll in der Kategorie „Anwendung“ mit der Quelle AzureChaosAgent. Der Agent fügt diesem Protokoll Fehleraktivitäten und regelmäßige Integritätsüberprüfungen (Fähigkeit zur Authentifizierung bei und Kommunikation mit dem Chaos Studio-Agent-Dienst) hinzu.
    • Chaos Linux-Agent: Der Linux-Agent verwendet systemd, um den Agent-Prozess als Linux-Dienst zu verwalten. Führen Sie den Befehl journalctl -u azure-chaos-agent aus, um das systemd-Journal für den Agent (die vom Agent-Dienst protokollierten Ereignisse) anzuzeigen.
  • VM-Erweiterungsstatus: Wenn Sie einen Agent-basierenden Fehler verwenden, überprüfen Sie, dass die VM-Erweiterung installiert und fehlerfrei ist. Wechseln Sie im Azure-Portal zu Ihrer VM, und wechseln Sie zu Erweiterungen oder Erweiterungen + Anwendungen. Wählen Sie die ChaosAgent-Erweiterung aus, und suchen Sie nach den folgenden Feldern:
    • Status sollte als Bereitstellung erfolgreich angezeigt werden. Jeder andere Status gibt an, dass der Agent nicht installiert werden konnte. Stellen Sie sicher, dass Sie alle Systemanforderungen erfüllen. Versuchen Sie, den Agent neu zu installieren.
    • Handlerstatus sollte Bereit anzeigen. Jeder andere Status gibt an, dass der Agent installiert wurde, aber keine Verbindung mit Chaos Studio herstellen kann. Überprüfen Sie, dass Sie alle Netzwerkanforderungen erfüllen und dass die benutzerseitig zugewiesene verwaltete Identität der VM hinzugefügt wurde. Versuchen Sie, einen Neustart durchzuführen.

Probleme beim Hinzufügen einer Ressource

Beim Hinzufügen einer Ressource treten möglicherweise die folgenden Probleme auf.

Ressourcen werden nicht in der Liste der Ziele im Azure-Portal angezeigt

Wenn die Ressourcen, die Sie in der Zielliste von Chaos Studio aktivieren möchten, nicht angezeigt werden, liegt dies möglicherweise an einem der folgenden Probleme:

Die Ziel- oder Funktionsaktivierung schlägt fehl oder wird nicht ordnungsgemäß in der Zielliste angezeigt

Wenn beim Aktivieren von Zielen oder Funktionen ein Fehler auftritt, versuchen Sie die folgenden Schritte:

  1. Vergewissern Sie sich, dass Sie über die entsprechenden Berechtigungen für die Ressourcen verfügen, die Sie hinzufügen. Zum Aktivieren eines Ziels oder von Funktionen ist die Microsoft.Chaos/*-Berechtigung im Bereich der Ressource erforderlich. Integrierte Rollen wie „Mitwirkender“ verfügen über Lese- und Schreibberechtigungen mit Platzhaltern, die Berechtigungen für alle Microsoft.Chaos-Vorgänge beinhalten.
  2. Warten Sie einige Minuten, bis die Ziel- und Funktionsliste aktualisiert wurde. Das Azure-Portal verwendet Azure Resource Graph, um Informationen zum Hinzufügen von Zielen und Funktionen zu sammeln. Es kann bis zu fünf Minuten dauern, bis das Update verteilt ist.
  3. Wenn die Ressource weiterhin Nicht aktiviert anzeigt, versuchen Sie die folgenden Schritte:
    1. Versuchen Sie erneut, die Ressource zu aktivieren.
    2. Wenn die Ressourcenaktivierung weiterhin fehlschlägt, wechseln Sie zum Aktivitätsprotokoll, und suchen Sie den fehlgeschlagenen Vorgang zur Zielerstellung, um ausführliche Fehlerinformationen anzuzeigen.
  4. Wenn die Ressource Aktiviert anzeigt, das Hinzufügen von Funktionen aber fehlgeschlagen ist, versuchen Sie die folgenden Schritte:
    1. Wählen Sie Aktionen verwalten für die Ressource in der Liste der Ziele aus. Überprüfen Sie alle Funktionen, die nicht aktiviert wurden, und wählen Sie Speichern aus.
    2. Wenn die Funktionsaktivierung weiterhin fehlschlägt, wechseln Sie zum Aktivitätsprotokoll, und suchen Sie den fehlgeschlagenen Vorgang zur Zielerstellung, um ausführliche Fehlerinformationen anzuzeigen.

Probleme mit Voraussetzungen

Einige Probleme werden durch fehlende Voraussetzungen verursacht.

Agent-basierte Fehler auf einer VM

Agent-basierende Fehler können aus verschiedenen Gründen fehlschlagen, die mit fehlenden Voraussetzungen zusammenhängen:

  • Auf Linux-VMs muss für die Fehler CPU-Druck, Physischer Speicherdruck, Datenträger-E/A-Druck und Willkürlicher Stress-ng-Stress das Stress-ng-Hilfsprogramm auf Ihrer VM installiert sein. Weitere Informationen zum Installieren von stress-ng finden Sie in den Abschnitten zu den Fehlervoraussetzungen.
  • Auf Linux- wie auch auf Windows-VMs muss die benutzerseitig zugewiesene verwaltete Identität, die während der Agent-basierenden Zielaktivierung bereitgestellt wird, auch der VM hinzugefügt werden.
  • Auf Linux- wie auch auf Windows-VMs muss die systemseitig zugewiesene verwaltete Identität für das Experiment die Rolle „Leser“ auf der VM gewährt werden. (Scheinbar erhöhte Rollen wie der „VM-Mitwirkender“ enthalten nicht den */Read-Vorgang, der für den Chaos Studio-Agent erforderlich ist, um die Microsoft-Agent-Zielproxyressource auf der VM zu lesen.)

Chaos-Agent kann auf VM-Skalierungsgruppen nicht installiert werden

Das Installieren des Chaos-Agents auf VM-Skalierungsgruppen schlägt möglicherweise fehl, ohne dass ein Fehler angezeigt wird, wenn die Upgraderichtlinie für die VM-Skalierungsgruppe auf Manuell festgelegt ist. So überprüfen Sie die Upgraderichtlinie für VM-Skalierungsgruppen:

  1. Melden Sie sich beim Azure-Portal an.
  2. Wählen Sie VM-Skalierungsgruppe aus.
  3. Wählen Sie im linken Bereich Upgraderichtlinie aus.
  4. Überprüfen Sie den Upgrademodus, um festzustellen, ob er auf Manuell – Für vorhandene Instanzen muss ein manuelles Upgrade durchgeführt werden festgelegt ist.

Wenn die Upgraderichtlinie auf Manuell festgelegt ist, müssen Sie Ihre Azure Virtual Machine Scale Sets-Instanzen upgraden, damit die Installation des Chaos-Agents abgeschlossen werden kann.

Upgrade von Instanzen aus dem Azure-Portal

Sie können Ihre Virtual Machine Scale Sets-Instanzen aus dem Azure-Portal upgraden:

  1. Melden Sie sich beim Azure-Portal an.
  2. Wählen Sie VM-Skalierungsgruppe aus.
  3. Wählen Sie im linken Bereich Instanzen aus.
  4. Wählen Sie alle Instanzen aus, und wählen Sie Upgrade aus.

Upgraden von Instanzen mit der Azure CLI

Sie können Ihre Virtual Machine Scale Sets-Instanzen mit der Azure CLI upgraden:

  • Verwenden Sie in der Azure CLI az vmss update-instances, um für Ihre Instanzen ein manuelles Upgrade durchzuführen:

    az vmss update-instances --resource-group myResourceGroup --name myScaleSet --instance-ids {instanceIds}
    

Weitere Informationen finden Sie unter VMs mit dem neuesten Skalierungsgruppenmodell auf den neuesten Stand bringen.

Fehler bei AKS Chaos Mesh

Azure Kubernetes Service (AKS) Chaos Mesh-Fehler können aus verschiedenen Gründen fehlschlagen, die mit fehlenden Voraussetzungen zusammenhängen:

  • Chaos Mesh muss zuerst im AKS-Cluster installiert werden, bevor Sie AKS Chaos Mesh-Fehler verwenden. Anweisungen finden Sie im AKS-Tutorial zu Chaos Mesh-Fehlern.
  • Chaos Mesh muss Version 2.0.4 oder höher aufweisen. Sie können die Chaos Mesh-Version abrufen, indem Sie eine Verbindung mit Ihrem AKS-Cluster herstellen und helm version chaos-mesh ausführen.
  • Chaos Mesh muss mit dem Namespace chaos-testing installiert werden. Andere Namespacenamen für Chaos Mesh werden nicht unterstützt.
  • Die Rolle „AKS--Clusteradministrator“ muss der systemseitig zugewiesenen verwalteten Identität für das Chaos-Experiment zugewiesen werden.

Probleme beim Erstellen oder Entwerfen eines Experiments

Beim Erstellen oder Entwerfen eines Experiments treten möglicherweise Probleme auf.

Wenn ich einen Fehler hinzufüge, wird meine Ressource nicht in der Liste „Zielressourcen“ angezeigt

Wenn Sie beim Hinzufügen eines Fehlers die Ressource, auf die Sie mit einem Fehler abzielen wollen, nicht in der Liste Zielressourcen sehen, kann dies an einem der folgenden Probleme liegen:

  • Der Filter Subscription (Abonnement) ist so festgelegt, dass das Abonnement ausgeschlossen wird, in dem Ihr Ziel bereitgestellt wird. Wählen Sie den Abonnementfilter aus, und ändern Sie die ausgewählten Abonnements.
  • Die Ressource wurde noch nicht hinzugefügt. Wechseln Sie zur Ansicht Ziele, und aktivieren Sie das Ziel. Schließen Sie dann den Bereich Fehler hinzufügen, und öffnen Sie ihn erneut, um eine aktualisierte Zielliste anzuzeigen.
  • Die Ressource wurde noch nicht für den Zieltyp dieses Fehlers aktiviert. Sehen Sie sich die Fehlerbibliothek an, um zu sehen, welcher Zieltyp für den Fehler verwendet wird. Wechseln Sie dann zur Ansicht Ziele, und aktivieren Sie diesen Zieltyp. Der Typ ist entweder Agent-basierend für Microsoft-Agent-Fehler oder dienstspezifisch für alle anderen Zieltypen. Schließen Sie dann den Bereich Fehler hinzufügen, und öffnen Sie ihn erneut, um eine aktualisierte Zielliste anzuzeigen.
  • Für die Ressource ist die Funktion für diesen Fehler noch nicht aktiviert. Sehen Sie sich die Fehlerbibliothek an, um den Funktionsnamen für den Fehler anzuzeigen. Wechseln Sie dann zur Ansicht Ziele, und wählen Sie Aktionen verwalten für die Zielressource aus. Aktivieren Sie das Kontrollkästchen für die Funktion, die dem Fehler entspricht, den Sie ausführen möchten, und wählen Sie Speichern aus. Schließen Sie dann den Bereich Fehler hinzufügen, und öffnen Sie ihn erneut, um eine aktualisierte Zielliste anzuzeigen.
  • Die Ressource wurde kürzlich hinzugefügt und wurde in Resource Graph noch nicht angezeigt. Die Liste Zielressourcen wird aus Resource Graph abgefragt. Nachdem ein neues Ziel aktiviert wurde, kann es bis zu fünf Minuten dauern, bis das Update an Resource Graph verteilt ist. Warten Sie einige Minuten, und öffnen Sie dann den Bereich Fehler hinzufügen erneut.

Beim Erstellen eines Experiments erhalte ich die Fehlermeldung „Der microsoft:agent-Anbieter erfordert eine verwaltete Identität“

Dieser Fehler tritt auf, wenn der Agent auf Ihrer VM nicht bereitgestellt wurde. Installationsanweisungen finden Sie unter Erstellen und Ausführen eines Experiments, das Agent-basierte Fehler verwendet.

Beim Erstellen eines Experiments erhalte ich die Fehlermeldung „Der Inhaltsmedientyp NULL wird nicht unterstützt. Es wird nur „application/json“ unterstützt“

Dieser Fehler kann auftreten, wenn Sie Ihr Experiment mithilfe einer Azure Resource Manager-Vorlage oder der Chaos Studio-REST-API erstellen. Der Fehler weist darauf hin, dass in Ihrer Experimentdefinition falsch formatierter JSON-Code vorhanden ist. Überprüfen Sie den Code auf Syntaxfehler, z. B. nicht übereinstimmende geschweifte oder eckige Klammern ({} und []). Verwenden Sie zum Überprüfen einen JSON-Linter wie z. B. Visual Studio Code.

Probleme beim Ausführen eines Experiments

Beim Ausführen eines Experiments treten möglicherweise Probleme auf.

Der Ausführungsstatus meines Experiments lautet nach dem Start „Failed“ (Fehler)

Wählen Sie in der Liste Experimente im Azure-Portal den Experimentnamen aus, um die Experimentübersicht anzuzeigen. Wählen Sie im Abschnitt Verlauf neben der fehlgeschlagenen Experimentausführung die Option Details aus, um detaillierte Fehlerinformationen anzuzeigen.

Screenshot, der den Experimentverlauf zeigt.

Verwenden Sie alternativ die REST-API, um die Ausführungsdetails des Experiments abzurufen. Weitere Informationen finden Sie im Artikel mit REST-API-Beispielen.

az rest --method post --url "https://management.azure.com/{experimentId}/executions/{executionDetailsId}/getExecutionDetails?api-version={apiVersion}" 

Mein Agent-basierender Fehler schlug mit dem Fehler „Vergewissern Sie sich, dass das Ziel ordnungsgemäß hinzugefügt wurde und dem Experiment-MSI die korrekte Leseberechtigungen erteilt wurde“ fehl

Dieser Fehler kann auftreten, wenn Sie den Agent mithilfe des Azure-Portals hinzugefügt haben, das ein bekanntes Problem aufweist. Durch Aktivieren eines Agent-basierenden Ziels wird der VM oder VM-Skalierungsgruppe keine benutzerseitig zugewiesene verwaltete Identität zugewiesen.

Um dieses Problem zu beheben, wechseln Sie zur VM oder zur VM-Skalierungsgruppe im Azure-Portal, und wechseln Sie zu Identität. Öffnen Sie die Registerkarte Benutzerseitig zugewiesen, und fügen Sie der VM Ihre benutzerseitig zugewiesene Identität hinzu. Nachdem Sie fertig sind, müssen Sie möglicherweise die VM neu starten, damit der Agent eine Verbindung herstellen kann.

Mein agentenbasierter Fehler schlug mit der Fehlermeldung „Der Agent führt bereits eine andere Aufgabe aus“ fehl

Dieser Fehler tritt auf, wenn Sie versuchen, mehrere Agentfehler gleichzeitig auszuführen. Heute unterstützt der Agent nur das gleichzeitige Ausführen eines einzelnen Agent-Fehlers und schlägt fehl, wenn Sie ein Experiment definieren, das mehrere Agentfehler gleichzeitig ausführt.

Das Experiment konnte nicht gestartet werden oder ist sofort fehlgeschlagen.

Nach dem Starten eines Experiments wird möglicherweise eine Fehlermeldung wie The long-running operation has failed. InternalServerError. The target resource(s) could not be resolved. Error Code: OperationFailedException angezeigt. In der Regel weist dies darauf hin, dass die Identität des Experiments nicht über die erforderlichen Berechtigungen verfügt.

Um diesen Fehler zu beheben, stellen Sie sicher, dass die systemseitig oder benutzerseitig zugewiesene verwaltete Identität über die Berechtigung für alle Ressourcen im Experiment verfügt. Weitere Informationen zu Berechtigungen finden Sie hier: Berechtigungen und Sicherheit in Azure Chaos Studio. Wenn das Experiment beispielsweise auf eine VM ausgerichtet ist, navigieren Sie zur Identitätsseite der VM, und weisen Sie der verwalteten Identität des Experiments die Rolle „Mitwirkender für VM“ zu.

Mein AKS Chaos Mesh-Experiment ist fehlgeschlagen

Es gibt einige häufige Fehler, die bei Verwendung von AKS Chaos Mesh-Fehlern auftreten können.

Fehlermeldung Vorgeschlagene Maßnahme
Das Abrufen statischer Anmeldeinformationen ist nicht zulässig, da dieser Cluster so festgelegt ist, dass lokale Konten deaktiviert werden. Die AKS Chaos Mesh-Fehler können entweder lokale Kubernetes-Konten oder die Microsoft Entra-Authentifizierung ab Version 2.2 verwenden. Erfahren Sie hier, wie Sie Ihre Experimente migrieren: Verwenden der Microsoft Entra-Authentifizierung mit Chaos Studio AKS-Fehlern.
Das Chaos Mesh-Experiment konnte nicht gestartet werden, da die bereitgestellte Konfiguration ungültig war Stellen Sie sicher, dass jsonSpec alle erforderlichen Felder enthält.
Die Chaos Mesh-Version „x.x.x“ wird derzeit von Chaos Studio nicht unterstützt Überprüfen Sie die installierte Version auf der Seite Azure Chaos Studio-Versionskompatibilität, und übermitteln Sie eine Featureanforderung, wenn die gewünschte Version nicht aufgeführt ist.
Der Objektverweis wurde nicht auf eine Objektinstanz festgelegt. Dies ist ein bekannter Fehler in der Fehlerversion 2.2. Es wird erwartet, dass ein Fix bis Anfang Januar 2025 bereitgestellt sein wird. Dies geschieht, wenn die neue AKS Chaos Mesh-Fehlerversion (2.2) auf einem Cluster verwendet wird, auf dem lokale Konten aktiviert sind. Die Problemumgehung besteht darin, die V2.1-Fehler zu verwenden, die in der Benutzeroberfläche als „(veraltet)“ gekennzeichnet sind, oder einen AKS-Cluster mit aktivierter Entra-Authentifizierung zu verwenden.

Probleme beim Einrichten einer verwalteten Identität

Wenn ich versuche, eine systemseitig/benutzerseitig zugewiesene verwaltete Identität zu meinem vorhandenen Experiment hinzuzufügen, kann sie nicht gespeichert werden.

Wenn Sie versuchen, eine benutzerseitig oder systemseitig zugewiesene verwaltete Identität zu einem Experiment hinzuzufügen, dem eine verwaltete Identität bereits zugewiesen ist, schlägt die Bereitstellung des Experiments fehl. Sie müssen die vorhandene benutzerseitig oder systemseitig zugewiesene verwaltete Identität im gewünschten Experiment zuerst löschen, bevor Sie Ihre gewünschte verwaltete Identität hinzufügen.

Wenn ich ein Experiment ausführe, das zum automatischen Erstellen und Zuweisen einer benutzerdefinierten Rolle konfiguriert ist, erhalte ich den Fehler „Die Zielressource(n) konnte(n) nicht aufgelöst werden. ErrorCode: AccessDenied. Zielressource(n):“

Wenn das Kontrollkästchen „Benutzerdefinierte Rollenberechtigungen“ für ein Experiment aktiviert ist, erstellt Chaos Studio eine benutzerdefinierte Rolle und weist diese mit den erforderlichen Berechtigungen der Identität des Experiments zu. Dies unterliegt jedoch den folgenden Grenzwerten für Rollenzuweisungen und Rollendefinitionen:

  • Jedes Azure-Abonnement hat eine Beschränkung von 4000 Rollenzuweisungen.
  • Jeder Microsoft Entra-Mandant hat einen Grenzwert von 5000 Rollendefinitionen (oder 2000 Rollendefinitionen für Azure in China).

Wenn eine dieser Grenzwerte erreicht wurde, tritt dieser Fehler auf. Um dies zu umgehen, erteilen Sie stattdessen manuell Berechtigungen für die Identität des Experiments.