Řešení potíží se sítí s využitím metrik a protokolů služby Network Watcher

9 min

Pokud chcete rychle diagnostikovat problém, musíte porozumět informacím dostupným v protokolech služby Azure Network Watcher.

Ve vaší technické společnosti chcete minimalizovat dobu potřebnou k diagnostice a řešení potíží s konfigurací sítě. Chcete zajistit, aby věděli, které informace jsou k dispozici v protokolech.

V tomto modulu se zaměříte na protokoly toků, diagnostické protokoly a analýzy provozu. Dozvíte se, jak vám tyto nástroje můžou pomoct při řešení potíží se sítí Azure.

Využití a kvóty

Každý prostředek Microsoft Azure můžete použít až do své kvóty. Každé předplatné má samostatné kvóty a využití se sleduje pro každé předplatné. Pro každé předplatné pro každou oblast se vyžaduje jenom jedna instance služby Network Watcher. Tato instance vám poskytne přehled o využití a kvótách, abyste zjistili, jestli riskujete dosažení kvóty.

Pokud chcete zobrazit informace o využití a kvótách, přejděte na Všechny služby>sítě>network watchera pak vyberte Využití a kvóty. Zobrazí se podrobná data na základě využití a umístění prostředků. Zaznamenávají se data pro následující metriky:

Síťová rozhraní
Skupiny zabezpečení sítě (NSG)
Virtuální sítě
Veřejné IP adresy

Tady je příklad znázorňující využití a kvóty na portálu:

Záznamy

Diagnostické protokoly sítě poskytují podrobná data. Tato data použijete k lepšímu pochopení problémů s připojením a výkonem. Network Watcher obsahuje tři nástroje pro zobrazení protokolů:

Protokoly toku NSG
Diagnostické protokoly
Analýza provozu

Pojďme se podívat na každý z těchto nástrojů.

Protokoly toku NSG

V protokolech toku NSG můžete zobrazit informace o příchozím a výchozím IP provozu ve síťových skupinách zabezpečení. Protokoly toku zobrazují odchozí a příchozí toky podle pravidel na základě síťového adaptéru, na který se tok vztahuje. Protokoly toku NSG ukazují, jestli byl provoz povolen nebo odepřen na základě zachycených informací z pětice: zdrojová IP adresa, cílová IP adresa, zdrojový port, cílový port a protokol. Mezi tyto informace patří:

Zdrojová IP adresa
Zdrojový port
Cílová IP adresa
Cílový port
Protokol

Tento diagram znázorňuje pracovní postup, který následuje skupina zabezpečení sítě.

Snímek obrazovky znázorňující postup, který skupina zabezpečení sítě sleduje od příchozího provozu až po pravidla odpovídající povolení nebo zamítnutí paketu.

Protokoly toku ukládají data do souboru JSON. Získání přehledů o těchto datech může být obtížné ručním prohledáváním souborů protokolu, zejména pokud máte velké nasazení infrastruktury v Azure. Pokud chcete tento problém vyřešit, použijte Power BI.

V Power BI můžete vizualizovat protokoly toku NSG mnoha způsoby. Například:

Hlavní komunikátory (IP adresa)
Toky podle směru (příchozí a odchozí)
Toky podle rozhodnutí (povolené a odepřené)
Toky podle cílového portu

K analýze protokolů, jako je Elastic Stack, Grafana a Graylog, můžete použít také opensourcové nástroje.

Poznámka

Protokoly toku NSG nepodporují účty úložiště na portálu Azure Classic.

Diagnostické protokoly

Diagnostické protokoly jsou v Network Watcheru centrálním místem pro povolení a zakázání protokolů pro síťové prostředky Azure. Mezi tyto prostředky patří skupiny zabezpečení sítě, veřejné IP adresy, vyrovnávače zátěže a brány aplikací. Po povolení protokolů, které vás zajímají, můžete pomocí nástrojů dotazovat a zobrazit položky protokolu.

Diagnostické protokoly můžete importovat do Power BI a další nástroje, které je analyzují.

Analýza provozu

Pokud chcete prozkoumat aktivity uživatelů a aplikací v cloudových sítích, použijte analýzu provozu.

Nástroj poskytuje přehled o síťové aktivitě napříč předplatnými. Můžete diagnostikovat bezpečnostní hrozby, jako jsou otevřené porty, virtuální počítače komunikující se známými špatnými sítěmi a vzory toku provozu. Analýza provozu analyzuje protokoly toku NSG napříč oblastmi a předplatnými Azure. Data můžete použít k optimalizaci výkonu sítě.

Tento nástroj vyžaduje Log Analytics. Pracovní prostor služby Log Analytics musí existovat v podporované oblasti.

Scénáře použití

Teď se podíváme na některé scénáře použití, ve kterých můžou být užitečné metriky a protokoly služby Azure Network Watcher.

Hlášení zákazníků o pomalém výkonu

Pokud chcete vyřešit nízký výkon, musíte určit původní příčinu problému:

Dochází k tomu, že příliš velký provoz omezuje výkon serveru?
Je velikost virtuálního počítače vhodná pro úlohu?
Jsou prahové hodnoty škálovatelnosti správně nastavené?
Dochází k nějakým útokům se zlými úmysly?
Je správná konfigurace úložiště virtuálního počítače?

Nejprve zkontrolujte, jestli je velikost virtuálního počítače vhodná pro danou úlohu. Dále na virtuálním počítači povolte diagnostiku Azure, abyste získali podrobnější data pro konkrétní metriky, jako je využití procesoru a využití paměti. Pokud chcete povolit diagnostiku virtuálních počítačů prostřednictvím portálu, přejděte na virtuálního počítače, vyberte Nastavení diagnostikya zapněte diagnostiku.

Předpokládejme, že máte virtuální počítač, který je v pořádku. Výkon virtuálního počítače se ale nedávno degradoval. Abyste zjistili, zda máte nějaké přetížení zdrojů, musíte zkontrolovat zachycená data.

Začněte s časovým rozsahem zachycených dat před, během a po nahlášený problém, abyste získali přesný přehled o výkonu. Tyto grafy mohou být také užitečné pro porovnávání různých chování prostředků ve stejném období. Zkontrolujete:

Úzká místa procesoru
Úzká místa v paměti
Úzká hrdla disku

Úzká místa procesoru

Při pohledu na problémy s výkonem můžete prozkoumat trendy, abyste pochopili, jestli ovlivňují váš server. Pokud chcete odhalit trendy, použijte na portálu grafy monitorování. V grafech monitorování se můžou zobrazit různé typy vzorů:

izolované špičky. Špička může souviset s naplánovanou úlohou nebo očekávanou událostí. Pokud víte, co je tato úloha, běží na požadované úrovni výkonu? Pokud je výkon v pořádku, možná nebudete muset zvýšit kapacitu.
vzestupy a konstantní. Tento trend může způsobit nová pracovní zátěž. Povolením monitorování na virtuálním počítači zjistíte, jaké procesy způsobují zatížení. Vyšší spotřeba může být způsobená neefektivním kódem nebo může být normální spotřeba nové úlohy. Pokud je spotřeba normální, funguje proces na požadované úrovni výkonu?
konstantní. Byl váš virtuální počítač vždycky takový? Pokud ano, měli byste identifikovat procesy, které spotřebovávají většinu prostředků, a zvážit přidání kapacity.
stále rostoucí. Vidíte konstantní nárůst spotřeby? Pokud ano, může tento trend znamenat neefektivní kód nebo proces, který přebírá více uživatelských úloh.

Pokud zaznamenáte vysoké využití procesoru, můžete:

Zvětšete velikost virtuálního počítače, abyste mohli škálovat s více jádry.
Prozkoumejte problém podrobněji. Vyhledejte aplikaci a proces a odpovídajícím způsobem vyřešte potíže.

Pokud vertikálně navýšíte kapacitu virtuálního počítače a procesor stále běží nad 95 procent, je výkon aplikace lepší nebo je propustnost aplikace vyšší na přijatelnou úroveň? Pokud ne, vyřešte potíže s danou jednotlivými aplikacemi.

Problémy s výkonem paměti

Můžete zobrazit velikost paměti, kterou virtuální počítač používá. Protokoly vám pomohou porozumět trendu a zjistit, jestli odpovídá době, kdy se objevují problémy. Neměli byste mít kdykoli k dispozici méně než 100 MB dostupné paměti. Dávejte pozor na následující trendy:

Nárůst a konstantní spotřeba. Vysoké využití paměti nemusí být příčinou špatného výkonu. Některé aplikace, například relační databázové stroje, jsou záměrně náročné na paměť. Pokud ale existuje více aplikací náročných na paměť, může dojít ke špatnému výkonu, protože soutěžení o paměť způsobuje uvolňování paměti a stránkování na disk. Tyto procesy způsobí negativní dopad na výkon.
stále rostoucí spotřeba. Tento trend může být aplikace zahřívání. Běžně se to stává při spuštění databázových strojů. Může to ale být také známkou úniku paměti v aplikaci.
Využití stránkovacího nebo odkládacího souboru. Zkontrolujte, jestli intenzivně používáte stránkovací soubor ve Windows nebo Linuxový swapový soubor umístěný v /dev/sdb.

Pokud chcete vyřešit vysoké využití paměti, zvažte tato řešení:

Pokud chcete okamžitě ulevit nebo použít stránkovací soubor, zvětšete velikost virtuálního počítače, aby se přidala paměť, a pak monitorujte.
Prozkoumejte problém podrobněji. Vyhledejte aplikaci nebo proces, který způsobuje úzké hrdlo, a odstraňte potíže. Pokud aplikaci znáte, podívejte se, jestli můžete limitovat přidělení paměti.

Úzká místa disku

Výkon sítě může souviset také s subsystémem úložiště virtuálního počítače. Účet úložiště pro virtuální počítač můžete prozkoumat na portálu. Pokud chcete identifikovat problémy s úložištěm, podívejte se na metriky výkonu z diagnostiky účtu úložiště a diagnostiky virtuálního počítače. Hledejte klíčové trendy, když k problémům dochází v určitém časovém rozsahu.

Pokud chcete zjistit časový limit služby Azure Storage, použijte metriky ClientTimeOutError, ServerTimeOutError, AverageE2ELatency, AverageServerLatencya TotalRequests. Pokud se v metrikách TimeOutError zobrazí hodnoty, znamená to, že operace vstupně-výstupní trvala příliš dlouho a vypršel její časový limit. Pokud se současně s TimeOutErrorszvýší i průměrná latence serveru, může to znamenat problém s platformou. Vytvořte případ s technickou podporou Microsoftu.
Pokud chcete zkontrolovat, zda nedochází k omezování služby Azure Storage, použijte metriku účtu úložiště ChybaOmezování. Pokud se zobrazí omezování, dosáhnete limitu IOPS účtu. Tento problém můžete zkontrolovat prozkoumáním metriky totalrequests.

Náprava problémů s vysokým využitím disku a latencí:

Optimalizujte vstupně-výstupní operace virtuálního počítače, aby bylo možné překonat limity virtuálních pevných disků (VHD).
Zvyšte propustnost a snižte latenci. Pokud zjistíte, že máte aplikaci citlivou na latenci a potřebujete vysokou propustnost, migrujte virtuální pevné disky do služby Azure Premium Storage.

Pravidla firewallu pro virtuální počítače, která blokují provoz

K řešení potíží s tokem NSG použijte nástroj pro ověření toku protokolu IP služby Network Watcher a protokolování toku NSG a zjistěte, jestli skupina zabezpečení sítě nebo trasy definované uživatelem koližuje s tokem provozu.

Spusťte ověření toku protokolu IP a zadejte místní virtuální počítač a vzdálený virtuální počítač. Jakmile vyberete Zkontrolovat, Azure spustí logický test pravidel. Pokud je výsledkem povolení přístupu, použijte protokoly toku NSG.

Na portálu přejděte do NSG. V nastavení tokového protokolu vyberte Zapnuto. Teď se zkuste znovu připojit k virtuálnímu počítači. K vizualizaci dat použijte analýzu provozu služby Network Watcher. Pokud je výsledkem povolení přístupu, neexistuje žádné pravidlo NSG, které by tomu bránilo.

Pokud jste se k tomuto bodu dostali a stále jste problém nediagnostikovali, může se na vzdáleném virtuálním počítači něco pokazit. Vypněte bránu firewall na vzdáleném virtuálním počítači, a poté znovu otestujte připojení. Pokud se můžete připojit ke vzdálenému virtuálnímu počítači, když je brána firewall zakázána, ověřte nastavení vzdálené brány firewall. Znovu povolte bránu firewall.

Nemožnost komunikace front-endových a back-endových podsítí

Ve výchozím nastavení můžou všechny podsítě komunikovat v Azure. Pokud dva virtuální počítače ve dvou podsítích nemůžou komunikovat, musí existovat konfigurace, která blokuje komunikaci. Než zkontrolujete protokoly toku, spusťte nástroj IP Flow Verify z virtuálního počítače frontendu do backendu. Tento nástroj spustí logický test pravidel v síti.

Pokud je výsledkem NSG na back-endové podsíti blokující veškerou komunikaci, překonfigurujte toto NSG. Pro účely zabezpečení je nutné zablokovat komunikaci s front-endem, protože front-end je přístupný veřejnému internetu.

Blokováním komunikace s back-endem omezíte množství expozice v případě malwaru nebo útoku na zabezpečení. Pokud ale skupina zabezpečení sítě blokuje všechno, je nesprávně nakonfigurovaná. Povolte požadované konkrétní protokoly a porty.