Řešení potíží se sadou Azure Chaos Studio
Při používání nástroje Azure Chaos Studio můžete občas narazit na některé problémy. Tento článek vysvětluje běžné problémy a postup řešení potíží.
Obecné tipy k řešení potíží
Při řešení problémů s nástrojem Chaos Studio jsou užitečné následující zdroje:
- Protokol aktivit: Protokol aktivit Azure obsahuje záznam všech operací vytvoření, aktualizace a odstranění v předplatném. Mezi tyto záznamy patří operace nástroje Chaos Studio, jako je povolení cíle nebo schopností, instalace agenta a vytvoření nebo spuštění experimentu. Selhání v protokolu aktivit značí, že se nepodařilo dokončit akci uživatele, která je nezbytná pro používání aplikace Chaos Studio. Většina chyb přímých služeb také vloží chyby spuštěním operace Azure Resource Manageru, takže protokol aktivit obsahuje také záznamy o chybách, které byly vloženy během experimentu pro některé chyby přímé služby.
- Podrobnosti o experimentu: Podrobnosti o spuštění experimentu zobrazují stav a chyby jednotlivých spuštění experimentů. Otevření konkrétní chyby v podrobnostech experimentu ukazuje prostředky, které selhaly, a chybové zprávy pro selhání. Přečtěte si další informace o tom, jak získat přístup k podrobnostem experimentu.
- Protokoly agenta: Pokud používáte chybu založenou na agentech, možná budete muset k virtuálnímu počítači použít protokol RDP nebo SSH, abyste pochopili, proč se agentovi nepodařilo spustit chybu. Pokyny pro přístup k protokolům agenta závisí na operačním systému:
- Chaos Windows agent: Protokoly agenta jsou v protokolu událostí systému Windows v kategorii aplikace se zdrojem
AzureChaosAgent
. Agent do tohoto protokolu přidává aktivitu selhání a pravidelnou kontrolu stavu (schopnost ověřovat a komunikovat se službou agenta Chaos Studio). - Agent Chaos Linux: Agent Linuxu používá systémový systém ke správě procesu agenta jako služby Linuxu. Chcete-li zobrazit systémový deník agenta (události protokolované službou agenta), spusťte příkaz
journalctl -u azure-chaos-agent
.
- Chaos Windows agent: Protokoly agenta jsou v protokolu událostí systému Windows v kategorii aplikace se zdrojem
- Stav rozšíření virtuálního počítače: Pokud používáte chybu založenou na agentech, ověřte, že je rozšíření virtuálního počítače nainstalované a v pořádku. Na webu Azure Portal přejděte na virtuální počítač a přejděte na Rozšíření nebo Rozšíření a aplikace.
ChaosAgent
Vyberte rozšíření a vyhledejte následující pole:- Stav by měl zobrazovat úspěšné zřizování. Jakýkoli jiný stav značí, že se agent nepodařilo nainstalovat. Ověřte, že splňujete všechny požadavky na systém. Zkuste agenta přeinstalovat.
- Stav obslužné rutiny by měl zobrazit připraveno. Jakýkoli jiný stav znamená, že se agent nainstaloval, ale nemůže se připojit ke službě Chaos Studio. Ověřte, že splňujete všechny požadavky na síť a že se do virtuálního počítače přidala spravovaná identita přiřazená uživatelem. Pokuste se restartovat.
Problémy při přidávání prostředku
Při přidávání prostředku se můžou vyskytnout následující problémy.
Prostředky se nezobrazují v seznamu cílů na webu Azure Portal
Pokud nevidíte prostředky, které chcete povolit v seznamu cílů aplikace Chaos Studio, může to být způsobeno některým z následujících problémů:
- Prostředky nejsou v podporované oblasti pro Chaos Studio.
- Prostředky nejsou podporovaného typu prostředku v Chaos Studiu.
- Prostředky jsou v předplatném nebo skupině prostředků, které jsou filtrované ve filtrech pro cílový seznam. Změňte filtry předplatného a skupiny prostředků, aby se zobrazily vaše prostředky.
Povolení cíle nebo schopností selže nebo se v cílovém seznamu nezobrazuje správně
Pokud se při povolení cílů nebo schopností zobrazí chyba, vyzkoušejte následující kroky:
- Ověřte, že máte odpovídající oprávnění ke zdrojům, které přidáváte. Povolení cíle nebo schopností vyžaduje oprávnění Microsoft.Chaos/* v rozsahu zdroje. Předdefinované role, jako je přispěvatel, mají oprávnění ke čtení a zápisu se zástupným znakem, což zahrnuje oprávnění ke všem operacím Microsoft.Chaos.
- Počkejte několik minut, než se seznam cílů a schopností aktualizuje. Azure Portal používá Azure Resource Graph ke shromažďování informací o přidávání cílů a schopností. Aktualizace se může projevit až za pět minut.
- Pokud se prostředek stále zobrazuje Jako nepovoleno, zkuste následující kroky:
- Zkuste prostředek znovu povolit.
- Pokud se povolení prostředků stále nedaří, přejděte do protokolu aktivit a vyhledejte operaci vytvoření neúspěšného cíle, abyste zobrazili podrobné informace o chybě.
- Pokud se u prostředku zobrazuje povoleno , ale přidávání funkcí se nezdařilo, zkuste následující kroky:
- V seznamu cílů vyberte Spravovat akce u prostředku. Zkontrolujte všechny možnosti, které nebyly zaškrtnuté, a vyberte Uložit.
- Pokud povolení schopností stále selže, přejděte do protokolu aktivit a vyhledejte operaci vytvoření neúspěšného cíle, kde najdete podrobné informace o chybě.
Problémy s požadavky
Některé problémy jsou způsobené chybějícími požadavky.
Selhání založená na agentech na virtuálním počítači selžou
Chyby založené na agentech můžou selhat z různých důvodů souvisejících s chybějícími požadavky:
- Na virtuálních počítačích s Linuxem vyžadují všechny chyby zatížení procesoru, zatížení fyzické paměti, vstupně-výstupní tlak disku a libovolná zátěžová zátěž, která vyžaduje, aby byl na vašem virtuálním počítači nainstalovaný nástroj stress-ng. Další informace o tom, jak nainstalovat stres-ng, najdete v částech s požadavky na chybu.
- Na virtuálních počítačích s Linuxem nebo Windows musí být do virtuálního počítače přidána také spravovaná identita přiřazená uživatelem poskytovaná během povolení cíle na základě agenta.
- Na virtuálních počítačích s Linuxem nebo Windows musí být spravované identitě přiřazené systémem pro experiment udělena role Čtenář na virtuálním počítači. (Zdánlivě zvýšené role, jako je přispěvatel virtuálních počítačů, nezahrnují operaci */Čtení, která je nezbytná pro agenta Chaos Studio ke čtení cílového prostředku proxy serveru microsoft-agent na virtuálním počítači.)
Agent chaosu se nenainstaluje do škálovacích sad virtuálních počítačů
Instalace agenta Chaos na škálovací sady virtuálních počítačů může selhat, aniž by se zobrazila chyba, pokud je zásada upgradu škálovací sady virtuálních počítačů nastavená na Ruční. Jak zkontrolovat zásady upgradu škálovací sady virtuálních počítačů:
- Přihlaste se k portálu Azure.
- Vyberte Škálovací sada virtuálních počítačů.
- V levém podokně vyberte Zásady upgradu.
- V režimu upgradu zkontrolujte, jestli je nastavená na Ruční – Existující instance se musí upgradovat ručně.
Pokud je zásada upgradu nastavená na Ruční, musíte upgradovat instance služby Azure Virtual Machine Scale Sets, aby se instalace agenta Chaosu dokončila.
Upgrade instancí z webu Azure Portal
Instance škálovacích sad virtuálních počítačů můžete upgradovat z webu Azure Portal:
- Přihlaste se k portálu Azure.
- Vyberte Škálovací sada virtuálních počítačů.
- V levém podokně vyberte Instance.
- Vyberte všechny instance a vyberte Upgradovat.
Upgrade instancí pomocí Azure CLI
Instance služby Virtual Machine Scale Sets můžete upgradovat pomocí Azure CLI:
Z Azure CLI můžete instance
az vmss update-instances
upgradovat ručně:az vmss update-instances --resource-group myResourceGroup --name myScaleSet --instance-ids {instanceIds}
Další informace najdete v tématu Aktualizace virtuálních počítačů pomocí nejnovějšího modelu škálovací sady.
Selhání chyb AKS Chaos Mesh
Chyby služby Azure Kubernetes Service (AKS) Chaos Mesh můžou selhat z různých důvodů souvisejících s chybějícími požadavky:
- Chaos Mesh musí být nejprve nainstalován v clusteru AKS před použitím chyb AKS Chaos Mesh. Pokyny najdete v kurzu k chybám služby Chaos Mesh v AKS.
- Chaos Mesh musí mít verzi 2.0.4 nebo vyšší. Verzi Chaos Mesh můžete získat připojením ke clusteru AKS a spuštěním
helm version chaos-mesh
. - Chaos Mesh musí být nainstalován s oborem názvů
chaos-testing
. Jiné názvy oborů názvů pro Chaos Mesh nejsou podporované. - Roli správce clusteru AKS musí být přiřazena spravovaná identita přiřazená systémem pro experiment chaosu.
Problémy při vytváření nebo návrhu experimentu
Při vytváření nebo návrhu experimentu může docházet k problémům.
Když přidám chybu, můj prostředek se nezobrazí v seznamu cílových prostředků.
Když přidáte chybu, pokud se v seznamu cílových prostředků nezobrazí prostředek, na který chcete cílit, může to být způsobeno některým z následujících problémů:
- Filtr Předplatného je nastavený tak, aby vyloučil předplatné, ve kterém je váš cíl nasazený. Vyberte filtr předplatného a upravte vybraná předplatná.
- Prostředek ještě nebyl přidán. Přejděte do zobrazení Cíle a cíl povolte. Potom zavřete podokno Přidat vadu a znovu ho otevřete, aby se zobrazil aktualizovaný cílový seznam.
- U cílového typu této vady ještě není povolený prostředek. V knihovně vad zjistíte, jaký cílový typ se pro vadu používá. Pak přejděte do zobrazení Cíle a povolte tento typ cíle. Typ je buď založený na agentech pro vady microsoft-agent, nebo přímo pro všechny ostatní cílové typy. Potom zavřete podokno Přidat vadu a znovu ho otevřete, aby se zobrazil aktualizovaný cílový seznam.
- Prostředek zatím nemá možnost pro tuto vadu povolenou. Prohlédni si knihovnu chyb a podívejte se na název funkce chyby. Pak přejděte do zobrazení Cíle a vyberte Spravovat akce u cílového prostředku. Zaškrtněte políčko pro funkci, která odpovídá vadě, kterou se pokoušíte spustit, a vyberte Uložit. Potom zavřete podokno Přidat vadu a znovu ho otevřete, aby se zobrazil aktualizovaný cílový seznam.
- Prostředek byl přidán nedávno a ještě se v Resource Graphu nezobrazuje. Seznam cílových prostředků se dotazuje z Resource Graphu. Po povolení nového cíle může aktualizace do Resource Graphu trvat až pět minut. Počkejte několik minut a pak znovu otevřete podokno Přidat chybu .
Při vytváření experimentu se zobrazí chyba "Zprostředkovatel microsoft:agent vyžaduje spravovanou identitu".
K této chybě dochází v případě, že se agent nenasadil na váš virtuální počítač. Pokyny k instalaci najdete v tématu Vytvoření a spuštění experimentu, který používá chyby založené na agentech.
Při vytváření experimentu se zobrazí chyba Typu média obsahu null není podporována. Podporuje se jenom application/json.
K této chybě může dojít v případě, že experiment vytváříte pomocí šablony Azure Resource Manageru nebo rozhraní REST API služby Chaos Studio. Tato chyba značí, že v definici experimentu je poškozený formát JSON. Zkontrolujte, jestli nemáte nějaké chyby syntaxe, kam patří neshodné složené závorky nebo hranaté závorky ({} a []). Ke kontrole použijte linter JSON, například Visual Studio Code.
Problémy při spuštění experimentu
Při spuštění experimentu může dojít k problémům.
Stav spuštění experimentu po spuštění je neúspěšný.
V seznamu Experimenty na webu Azure Portal vyberte název experimentu a zobrazte přehled experimentu. V části Historie vyberte podrobnosti vedle neúspěšného experimentu a zobrazte podrobné informace o chybě.
Případně můžete pomocí rozhraní REST API získat podrobnosti o spuštění experimentu. Další informace najdete v ukázkovém článku o rozhraní REST API.
az rest --method post --url "https://management.azure.com/{experimentId}/executions/{executionDetailsId}/getExecutionDetails?api-version={apiVersion}"
Chyba založená na agentech selhala s chybou "Ověřte, že je cíl správně přidaný a že jsou pro msi experimentu zadána správná oprávnění ke čtení".
K této chybě může dojít v případě, že jste agenta přidali pomocí webu Azure Portal, který obsahuje známý problém. Povolení cíle na základě agenta nepřiřazuje spravovanou identitu přiřazenou uživatelem k virtuálnímu počítači nebo škálovací sadě virtuálních počítačů.
Pokud chcete tento problém vyřešit, přejděte na virtuální počítač nebo škálovací sadu virtuálních počítačů na webu Azure Portal a přejděte do části Identita. Otevřete kartu Přiřazené uživatelem a přidejte do virtuálního počítače identitu přiřazenou uživatelem. Po dokončení možná budete muset restartovat virtuální počítač, aby se agent mohl připojit.
Chyba založená na agentech selhala s chybou Agent už provádí jinou úlohu.
K této chybě dojde, pokud se pokusíte spustit více chyb agenta najednou. V současné době agent podporuje pouze spuštění jedné chyby agenta a selže, pokud definujete experiment, ve kterém současně běží více chyb agentů.
Experiment se nespustí nebo se okamžitě nepovedl.
Po spuštění experimentu se může zobrazit chybová zpráva, například: The long-running operation has failed. InternalServerError. The target resource(s) could not be resolved. Error Code: OperationFailedException
. Obvykle to značí, že identita experimentu nemá potřebná oprávnění.
Pokud chcete tuto chybu vyřešit, ujistěte se, že spravovaná identita přiřazená systémem nebo přiřazená uživatelem má oprávnění ke všem prostředkům v experimentu. Další informace o oprávněních najdete tady: Oprávnění a zabezpečení v nástroji Azure Chaos Studio. Pokud například experiment cílí na virtuální počítač, přejděte na stránku identity virtuálního počítače a přiřaďte roli Přispěvatel virtuálních počítačů spravované identitě experimentu.
Experiment AKS Chaos Mesh selhal
Při použití chyb AKS Chaos Mesh může dojít k několika běžným chybám.
Chybová zpráva | Navrhovaná akce |
---|---|
Získání statických přihlašovacích údajů není povoleno, protože tento cluster je nastavený tak, aby zakázal místní účty. | Chyby AKS Chaos Mesh můžou používat buď místní účty Kubernetes, nebo ověřování Microsoft Entra od verze 2.2. Tady se dozvíte, jak migrovat experimenty: Použití ověřování Microsoft Entra s chybami Chaos Studio AKS. |
Experiment Chaos Mesh nelze spustit, protože zadanou konfiguraci je neplatná. | Ujistěte se, že jsonSpec obsahuje všechna požadovaná pole. |
Chaos Mesh verze x.x.x není v současné době podporována aplikací Chaos Studio. | Ověřte nainstalovanou verzi na stránce kompatibility verzí nástroje Azure Chaos Studio a odešlete žádost o funkci, pokud není uvedená požadovaná verze. |
Odkaz na objekt není nastaven na instanci objektu. | Jedná se o známou chybu s chybami verze 2.2. Očekává se, že oprava dokončí nasazení na začátku ledna 2025. K tomu dochází při použití nové verze chyby AKS Chaos Mesh (2.2) v clusteru s povolenými místními účty. Alternativním řešením je použít chyby v2.1, které jsou v uživatelském rozhraní označené jako "(zastaralé)", nebo použít cluster AKS s povoleným ověřováním Entra. |
Problémy při nastavování spravované identity
Když se pokusím do existujícího experimentu přidat spravovanou identitu přiřazenou systémem nebo přiřazenou uživatelem, neuloží se.
Pokud se pokoušíte přidat spravovanou identitu přiřazenou uživatelem nebo systémem do experimentu, který už má přiřazenou spravovanou identitu, experiment se nepodaří nasadit. Před přidáním požadované spravované identity musíte nejprve odstranit existující spravovanou identitu přiřazenou uživatelem nebo systémem.
Když spustím experiment nakonfigurovaný tak, aby automaticky vytvořil a přiřadil vlastní roli, zobrazí se chyba "Cílové prostředky se nepodařilo vyřešit. Kód chyby: AccessDenied. Cílové prostředky:"
Když je pro experiment zaškrtnuté políčko Vlastní oprávnění role, Chaos Studio vytvoří a přiřadí vlastní roli s potřebnými oprávněními k identitě experimentu. Toto je však předmětem následujících omezení přiřazení rolí a definic rolí:
- Každé předplatné Azure má limit 4 000 přiřazení rolí.
- Každý tenant Microsoft Entra má limit 5 000 definic rolí (nebo 2000 definic rolí pro Azure v Číně).
Po dosažení některého z těchto limitů dojde k této chybě. Pokud chcete tento problém obejít, udělte oprávnění identitě experimentu ručně.