Operace úloh při správě cloudu

Článek
07/11/2023

Některé úlohy jsou pro úspěch firmy zásadní. Pro tyto úlohy není směrný plán správy dostatečný ke splnění požadovaných obchodních závazků ke správě cloudu. Provoz platformy nemusí být ani dostatečný ke splnění obchodních závazků. Tato velmi důležitá podmnožina úloh vyžaduje specializované zaměření na to, jak úloha funguje a jak se podporuje.

Na oplátku může investice do provozu úloh vést k lepšímu výkonu, snížení rizika přerušení firmy a rychlejšímu obnovení v případě selhání systému. Tento článek popisuje přístup, jak investovat do nepřetržitého provozu těchto úloh s vysokou prioritou, aby se řídily lepší obchodní závazky.

Kdy investovat do provozu úloh

Paretův princip (známý také jako pravidlo 80/20) uvádí, že 80 procent účinků pochází z 20 procent příčin. Když je možné, aby se portfolia IT v průběhu času ekologicky rozrůstaly, je toto pravidlo často ilustrováno v přehledu portfolia IT. V závislosti na efektu, který vyžaduje investici, se může příčina lišit, ale platí obecný princip:

80 procent systémových selhání bývá výsledkem 20 procent běžných chyb nebo chyb.
80 % obchodní hodnoty obvykle pochází z 20 % úloh v portfoliu.
80 % úsilí o migraci do cloudu pochází z 20 % přesouvané úlohy.
80 procent úsilí o správu cloudu bude podporovat 20 procent servisních incidentů nebo lístků problémů.
80 % obchodního dopadu výpadku bude pocházet z 20 % systémů ovlivněných výpadkem.

Operace úloh by se měly používat pouze v případě, že jsou dobře srozumitelné strategie přechodu na cloud, obchodní výsledky a provozní metriky. Jedná se o posun paradigmatu od klasického pohledu IT. IT tradičně předpokládalo, že všechny úlohy mají stejný stupeň podpory a vyžadují podobnou úroveň priority.

Než it i firma investují do provozu s hlubokými úlohami, měli by rozumět obchodním odůvodněním a očekáváním vyšších investic do správy cloudu.

Začínáme s daty

Operace úloh začínají hlubokým pochopením požadavků na výkon a podporu úloh. Než tým začne investovat do provozu úloh, musí mít k dispozici hojná data o závislostech úloh, výkonu aplikací, diagnostice databáze, telemetrii virtuálních počítačů a historii incidentů.

Tato data zasadí přehledy, které řídí rozhodování o provozu úloh.

Další pozorování

Počáteční data a průběžná telemetrie můžou pomoct formulovat a otestovat teorie o výkonu úlohy. Průběžné operace úloh jsou ale založeny na pokračujícím a rozšířeném sledování výkonu úloh s velkým důrazem na výkon aplikací a dat.

Testování automatizace

Na úrovni aplikace je prvním požadavkem provozu úloh investice do hloubkového testování. Pro každou aplikaci, která je podporována provozem úloh, by se měl vytvořit a pravidelně provádět testovací plán, který zajistí funkční a škálovací testování napříč aplikacemi.

Pravidelná testovací telemetrie může poskytnout okamžité ověření různých hypotéz o provozu úlohy. Je možné provádět a testovat vylepšení provozních a architektonických vzorů. Výsledné rozdíly poskytují jasnou analýzu dopadu, která se bude řídit pokračujícími investicemi.

Vysvětlení verzí

Jasnou znalost cyklů verzí a kanálů verzí je důležitým prvkem operací úloh.

Znalost cyklů se může připravit na potenciální přerušení a umožnit týmu aktivně řešit všechny vydané verze, které by mohly mít nepříznivý vliv na provoz. Díky tomuto porozumění může tým pro správu cloudu spolupracovat s týmy přechodu na průběžné zlepšování kvality produktu a řešení chyb, které by mohly mít vliv na stabilitu.

Ještě důležitější je, že znalost kanálů verze může výrazně zlepšit cíl bodu obnovení (RPO) úlohy. V mnoha scénářích je nejrychlejší a nejpřesnější cestou k obnovení aplikace kanál verze. U aplikačních vrstev, které se mění jenom v případě, že dojde k nové verzi, může být moudré investovat více do optimalizace kanálu než do obnovení aplikace z tradičních procesů zálohování.

I když kanál nasazení může být nejrychlejší cestou k obnovení, může to být také nejrychlejší cesta k nápravě. Pokud má aplikace rychlý, efektivní a spolehlivý kanál verze, má tým pro správu cloudu možnost automatizovat nasazení do nového hostitele jako formu automatizované nápravy.

Existuje mnoho dalších rychlejších a efektivnějších mechanismů pro nápravu a obnovení. Pokud ale použití existujícího kanálu může splnit obchodní závazky a využít stávající investice do DevOps, může být stávající kanál životaschopnou alternativou.

Jasné informování o změnách v úloze

Změna libovolné úlohy patří k největším rizikům pro provoz úloh. U všech úloh na provozní úrovni správy cloudu by měl tým pro správu cloudu úzce spolupracovat s týmy přechodu na cloud, aby porozuměl změnám, které přicházejí v jednotlivých verzích. Tato investice do proaktivního porozumění bude mít přímý a pozitivní dopad na provozní stabilitu.

Zlepšení výsledků

Investice do dat a komunikace do úlohy budou posílat návrhy na vylepšení probíhajících operací v jedné ze tří oblastí:

Technické řešení dluhu
Automatizovaná náprava
Vylepšený návrh systému

Technické řešení dluhu

Nejlepší provozní plány úloh stále vyžadují nápravu. S tím, jak se váš tým pro správu cloudu snaží zůstat ve spojení, aby porozuměl úsilí o přechod a vydané verze, měl by také pravidelně sdílet požadavky na nápravu, aby zajistil, že technický dluh a chyby budou pro vaše vývojové týmy i nadále prioritou.

Automatizovaná náprava

Použitím Paretova principu můžeme říci, že 80 % negativního obchodního dopadu pravděpodobně pochází z 20 % servisních incidentů. Pokud tyto incidenty není možné řešit v běžných vývojových cyklech, investice do automatizace nápravy mohou výrazně snížit přerušení podnikání.

Vylepšený návrh systému

V případech technického řešení dluhu a automatizované nápravy jsou častou příčinou většiny výpadků systému systémové chyby. Největší dopad na celkový provoz úloh můžete mít tím, že budete dodržovat několik principů návrhu:

Škálovatelnost: Schopnost systému zvládnout zvýšenou zátěž.
Dostupnost: Procento doby, po kterou je systém funkční a funkční.
Odolnost: Schopnost systému zotavit se z chyb a pokračovat v fungování.
Správa: Provozní procesy, které udržují systém spuštěný v produkčním prostředí.
Zabezpečení: Ochrana aplikací a dat před hrozbami

Microsoft Azure Well-Architected Framework nabízí přístup k vyhodnocení konkrétních úloh z důvodu dodržování těchto pilířů, aby se zlepšil celkový provoz. Využijte pilíře pro provoz platformy i provoz úloh.

Další kroky

Díky tomu, že plně rozumíte metodologii správy v rámci Cloud Adoption Framework, jste teď připraveni implementovat principy správy cloudu. Zjistěte, jak zajistit, aby tato metodologie byla použitelná ve vašem provozním prostředí.

Použití této metodologie

Sdílet prostřednictvím