Dela via


Felsöka problem med Azure Chaos Studio

När du använder Azure Chaos Studio kan du ibland stöta på vissa problem. I den här artikeln beskrivs vanliga problem och felsökningssteg.

Allmänna tips om felsökning

Följande källor är användbara när du felsöker problem med Chaos Studio:

  • Aktivitetslogg: Azure-aktivitetsloggen har en post med alla åtgärder för att skapa, uppdatera och ta bort i en prenumeration. Dessa poster omfattar Chaos Studio-åtgärder som att aktivera ett mål eller funktioner, installera agenten och skapa eller köra ett experiment. Fel i aktivitetsloggen indikerar att en användaråtgärd som är nödvändig för att använda Chaos Studio kanske inte kunde slutföras. De flesta tjänstdirigeringsfel matar också in fel genom att köra en Azure Resource Manager-åtgärd, så aktivitetsloggen har också en post med fel som har matats in under ett experiment för vissa tjänstdirigeringsfel.
  • Experimentinformation: Information om experimentkörning visar status och fel för en enskild experimentkörning. Om du öppnar ett specifikt fel i experimentinformationen visas de resurser som misslyckades och felmeddelandena för ett fel. Läs mer om hur du kommer åt experimentinformation.
  • Agentloggar: Om du använder ett agentbaserat fel kan du behöva RDP eller SSH på den virtuella datorn (VM) för att förstå varför agenten inte kunde köra ett fel. Anvisningarna för att komma åt agentloggar beror på operativsystemet:
    • Chaos Windows-agent: Agentloggar finns i Windows-händelseloggen i programkategorin med källan AzureChaosAgent. Agenten lägger till felaktivitet och regelbunden hälsokontroll (möjlighet att autentisera till och kommunicera med Chaos Studio-agenttjänsten) händelser i den här loggen.
    • Chaos Linux-agent: Linux-agenten använder systemd för att hantera agentprocessen som en Linux-tjänst. Om du vill visa systemjournalen för agenten (händelserna som loggas av agenttjänsten) kör du kommandot journalctl -u azure-chaos-agent.
  • Status för VM-tillägg: Om du använder ett agentbaserat fel kontrollerar du att VM-tillägget är installerat och felfritt. I Azure Portal går du till den virtuella datorn och går till Tillägg eller Tillägg + program. ChaosAgent Välj tillägget och leta efter följande fält:
    • Status bör visa att etableringen lyckades. Annan status anger att agenten inte kunde installera. Kontrollera att du uppfyller alla systemkrav. Försök att installera om agenten.
    • Hanterarens status bör visa Klar. Annan status anger att agenten har installerats men inte kan ansluta till Chaos Studio. Kontrollera att du uppfyller alla nätverkskrav och att den användartilldelade hanterade identiteten har lagts till i den virtuella datorn. Försök starta om.

Problem när du lägger till en resurs

Du kan stöta på följande problem när du lägger till en resurs.

Resurser visas inte i mållistan i Azure Portal

Om du inte ser resurserna som du vill aktivera i listan Chaos Studio-mål kan det bero på något av följande problem:

  • Resurserna finns inte i en region som stöds för Chaos Studio.
  • Resurserna är inte av en resurstyp som stöds i Chaos Studio.
  • Resurserna finns i en prenumeration eller resursgrupp som filtreras bort i filtren för mållistan. Ändra filter för prenumerationer och resursgrupper för att se dina resurser.

Mål- eller funktionsaktivering misslyckas eller visas inte korrekt i mållistan

Om du ser ett fel när du aktiverar mål eller kapaciteter kan du prova följande steg:

  1. Kontrollera att du har rätt behörigheter för de resurser som du lägger till. För att aktivera ett mål eller funktioner krävs Microsoft.Chaos/*-behörighet i resursens omfång. Inbyggda roller som Deltagare har läs- och skrivbehörighet med jokertecken, vilket omfattar behörighet till alla Microsoft.Chaos-åtgärder.
  2. Vänta några minuter tills mål- och kapacitetslistan uppdateras. Azure-portalen använder Azure Resource Graph för att samla in information om hur du lägger till mål och kapaciteter. Det kan ta upp till fem minuter för uppdateringen att spridas.
  3. Om resursen fortfarande visar Inte aktiverad kan du prova följande steg:
    1. Försök att aktivera resursen igen.
    2. Om resursaktiveringen fortfarande misslyckas går du till aktivitetsloggen och hittar den misslyckade målskapandeåtgärden för att se detaljerad felinformation.
  4. Om resursen visar Aktiverad men det gick inte att lägga till funktioner kan du prova följande steg:
    1. Välj Hantera åtgärder på resursen i mållistan. Kontrollera alla funktioner som inte har markerats och välj Spara.
    2. Om kapacitetsaktiveringen fortfarande misslyckas går du till aktivitetsloggen och hittar den misslyckade målskapandeåtgärden för att se detaljerad felinformation.

Kravproblem

Vissa problem orsakas av krav som saknas.

Agentbaserade fel misslyckas på en virtuell dator

Agentbaserade fel kan misslyckas av olika orsaker som rör saknade förutsättningar:

  • På virtuella Linux-datorer kräver processortryck, fysiskt minnestryck, disk-I/O-tryck och godtycklig stressbelastning alla att stress-ng-verktyget är installerat på den virtuella datorn. Mer information om hur du installerar stress-ng finns i avsnittet om krav på fel.
  • På antingen virtuella Linux- eller Windows-datorer måste den användartilldelade hanterade identiteten som tillhandahålls under agentbaserad målaktivering också läggas till i den virtuella datorn.
  • På virtuella Linux- eller Windows-datorer måste den systemtilldelade hanterade identiteten för experimentet beviljas rollen Läsare på den virtuella datorn. (Till synes upphöjda roller som Virtual Machine-deltagare inkluderar inte den */Read-åtgärd som krävs för att Chaos Studio-agenten ska kunna läsa proxyresursen microsoft-agent mål på den virtuella datorn.)

Chaos-agenten installeras inte på VM-skalningsuppsättningar

Installationen av Chaos-agenten på VM-skalningsuppsättningar kan misslyckas utan att ett fel visas om uppgraderingsprincipen för vm-skalningsuppsättningen har angetts till Manuell. Så kontrollerar du uppgraderingsprincipen för VM-skalningsuppsättningen:

  1. Logga in på Azure-portalen.
  2. Välj VM-skalningsuppsättning.
  3. I den vänstra rutan väljer du Uppgraderingsprincip.
  4. Kontrollera uppgraderingsläget för att se om det är inställt på Manuell – Befintliga instanser måste uppgraderas manuellt.

Om uppgraderingsprincipen är inställd på Manuell måste du uppgradera dina Azure Virtual Machine Scale Sets-instanser så att Chaos-agentinstallationen kan slutföras.

Uppgradera instanser från Azure Portal

Du kan uppgradera instanserna av vm-skalningsuppsättningar från Azure Portal:

  1. Logga in på Azure-portalen.
  2. Välj VM-skalningsuppsättning.
  3. I den vänstra rutan väljer du Instanser.
  4. Markera alla instanser och välj Uppgradera.

Uppgradera instanser med Azure CLI

Du kan uppgradera instanserna av vm-skalningsuppsättningar med Azure CLI:

  • Från Azure CLI kan du använda az vmss update-instances för att manuellt uppgradera dina instanser:

    az vmss update-instances --resource-group myResourceGroup --name myScaleSet --instance-ids {instanceIds}
    

Mer information finns i Anpassa virtuella datorer med den senaste skalningsuppsättningsmodellen.

FEL i AKS Chaos Mesh misslyckas

Azure Kubernetes Service(AKS) Chaos Mesh-fel kan misslyckas av olika orsaker som rör saknade förutsättningar:

  • Chaos Mesh måste först installeras på AKS-klustret innan du använder AKS Chaos Mesh-felen. Instruktioner finns i självstudiekursen Chaos Mesh-fel i AKS.
  • Chaos Mesh måste vara version 2.0.4 eller senare. Du kan hämta Chaos Mesh-versionen genom att ansluta till ditt AKS-kluster och köra helm version chaos-mesh.
  • Chaos Mesh måste installeras med namnområdet chaos-testing. Andra namnområdesnamn för Chaos Mesh stöds inte.
  • Rollen AKS-klusteradministratör måste tilldelas till den systemtilldelade hanterade identiteten för kaosexperimentet.

Problem när du skapar eller utformar ett experiment

Du kan stöta på problem när du skapar eller utformar ett experiment.

När jag lägger till ett fel visas inte min resurs i listan Målresurser

Om du inte ser den resurs som du vill rikta in dig på med ett fel i listan Målresurser kan det bero på något av följande problem när du lägger till ett fel:

  • Filtret Prenumeration är inställt på att exkludera prenumerationen där målet distribueras. Välj prenumerationsfiltret och ändra de valda prenumerationerna.
  • Resursen har inte lagts till än. Gå till vyn Mål och aktivera målet. Stäng sedan rutan Lägg till fel och öppna den igen för att se en uppdaterad mållista.
  • Resursen har ännu inte aktiverats för måltypen för det felet. Se felbiblioteket för att se vilken måltyp som används för felet. Gå sedan till vyn Mål och aktivera den måltypen. Typen är antingen agentbaserad för Microsoft-agentfel eller tjänstdirigering för alla andra måltyper. Stäng sedan rutan Lägg till fel och öppna den igen för att se en uppdaterad mållista.
  • Resursen har inte kapacitet för felet aktiverat ännu. Se felbiblioteket för att se funktionsnamnet för felet. Gå sedan till vyn Mål och välj Hantera åtgärder på målresursen. Markera kryssrutan för den kapacitet som motsvarar det fel som du försöker köra och välj Spara. Stäng sedan rutan Lägg till fel och öppna den igen för att se en uppdaterad mållista.
  • Resursen har nyligen lagts till och har inte dykt upp i Resource Graph ännu. Listan Målresurser efterfrågas från Resource Graph. När ett nytt mål har aktiverats kan det ta upp till fem minuter innan uppdateringen sprids till Resource Graph. Vänta några minuter och öppna sedan fönstret Lägg till fel igen.

När jag skapar ett experiment får jag felet "Microsoft:Agent-providern kräver en hanterad identitet"

Det här felet inträffar när agenten inte har distribuerats till den virtuella datorn. Installationsinstruktioner finns i Skapa och köra ett experiment som använder agentbaserade fel.

När jag skapar ett experiment får jag felet "Innehållsmedietypen "null" stöds inte. Endast "application/json" stöds"

Du kan stöta på det här felet om du skapar experimentet med hjälp av en Azure Resource Manager-mall eller Chaos Studio REST API. Felet anger att det finns en felaktig JSON i experimentdefinitionen. Kontrollera om du har några syntaxfel, till exempel felmatchade klammerparenteser eller hakparenteser ({} och []). Kontrollera genom att använda en JSON-linter som Visual Studio Code.

Problem när du kör ett experiment

Du kan stöta på problem när du kör ett experiment.

Körningsstatusen för mitt experiment efter starten är "Misslyckades"

I listan Experiment i Azure Portal väljer du experimentnamnet för att se experimentöversikten. I avsnittet Historik väljer du Information bredvid den misslyckade experimentkörningen för att se detaljerad felinformation.

Skärmbild som visar experimenthistorik.

Du kan också använda REST-API:et för att hämta experimentets körningsinformation. Läs mer i rest-API-exempelartikeln.

az rest --method post --url "https://management.azure.com/{experimentId}/executions/{executionDetailsId}/getExecutionDetails?api-version={apiVersion}" 

Mitt agentbaserade fel misslyckades med felet "Kontrollera att målet har lagts till korrekt och rätt läsbehörighet har angetts för experimentets msi"

Det här felet kan inträffa om du har lagt till agenten med hjälp av Azure Portal, som har ett känt problem. Om du aktiverar ett agentbaserat mål tilldelas inte den användartilldelade hanterade identiteten till den virtuella datorn eller vm-skalningsuppsättningen.

Lös problemet genom att gå till vm- eller vm-skalningsuppsättningen i Azure Portal och gå till Identitet. Öppna fliken Användartilldelad och lägg till din användartilldelade identitet till den virtuella datorn. När du är klar kan du behöva starta om den virtuella datorn för att agenten ska kunna ansluta.

Mitt agentbaserade fel misslyckades med felet "Agenten utför redan en annan uppgift"

Det här felet inträffar om du försöker köra flera agentfel samtidigt. I dag stöder agenten bara att köra ett enda agentfel i taget och misslyckas om du definierar ett experiment som kör flera agentfel samtidigt.

Experimentet startade eller misslyckades inte omedelbart

När du har startat ett experiment kan ett felmeddelande visas som: The long-running operation has failed. InternalServerError. The target resource(s) could not be resolved. Error Code: OperationFailedException. Detta indikerar vanligtvis att experimentets identitet inte har de behörigheter som krävs.

Lös det här felet genom att kontrollera att experimentets systemtilldelade eller användartilldelade hanterade identitet har behörighet till alla resurser i experimentet. Läs mer om behörigheter här: Behörigheter och säkerhet i Azure Chaos Studio. Om experimentet till exempel riktar sig mot en virtuell dator navigerar du till den virtuella datorns identitetssida och tilldelar rollen "Virtuell datordeltagare" till experimentets hanterade identitet.

Mitt AKS Chaos Mesh-experiment misslyckades

Det finns flera vanliga fel som kan uppstå när du använder AKS Chaos Mesh-fel.

Felmeddelande Föreslagna åtgärder
Det går inte att hämta statiska autentiseringsuppgifter eftersom det här klustret är inställt på att inaktivera lokala konton. AKS Chaos Mesh-fel kan använda antingen Kubernetes lokala konton eller Microsoft Entra-autentisering från och med version 2.2. Lär dig hur du migrerar dina experiment här: Använda Microsoft Entra-autentisering med Chaos Studio AKS-fel.
Chaos Mesh-experimentet kunde inte startas eftersom den angivna konfigurationen var ogiltig Kontrollera att jsonSpec innehåller alla obligatoriska fält.
Chaos Mesh-versionen "x.x.x" stöds för närvarande inte av Chaos Studio Kontrollera den installerade versionen mot kompatibilitetssidan för Azure Chaos Studio-versionen och skicka en funktionsbegäran om den önskade versionen inte visas.
Objektreferensen är inte inställd på en instans av ett objekt. Det här är en känd bugg med version 2.2-felen. En korrigering förväntas slutföra distributionen i början av januari 2025. Detta inträffar när du använder den nya FELversionen av AKS Chaos Mesh (2.2) i ett kluster med lokala konton aktiverade. Lösningen är att använda v2.1-felen, som är märkta "(inaktuella)" i användargränssnittet, eller använda ett AKS-kluster med Entra-autentisering aktiverat.

Problem när du konfigurerar en hanterad identitet

När jag försöker lägga till en systemtilldelad/användartilldelad hanterad identitet i mitt befintliga experiment kan det inte sparas.

Om du försöker lägga till en användartilldelad eller systemtilldelad hanterad identitet till ett experiment som redan har en tilldelad hanterad identitet kan experimentet inte distribueras. Du måste ta bort den befintliga användartilldelade eller systemtilldelade hanterade identiteten i det önskade experimentet först innan du lägger till önskad hanterad identitet.

När jag kör ett experiment som konfigurerats för att automatiskt skapa och tilldela en anpassad roll får jag felet "Det gick inte att lösa målresurserna. ErrorCode: AccessDenied. Målresurser:"

När kryssrutan "Anpassade rollbehörigheter" är markerad för ett experiment skapar och tilldelar Chaos Studio en anpassad roll med nödvändiga behörigheter till experimentets identitet. Detta omfattas dock av följande begränsningar för rolltilldelning och rolldefinition:

  • Varje Azure-prenumeration har en gräns på 4 000 rolltilldelningar.
  • Varje Microsoft Entra-klientorganisation har en gräns på 5 000 rolldefinitioner (eller 2 000 rolldefinitioner för Azure i Kina).

När en av dessa gränser har nåtts uppstår det här felet. Lös problemet genom att bevilja behörigheter till experimentidentiteten manuellt i stället.