Delen via


Reliability tradeoffs

Een betrouwbare workload voldoet consistent aan de gedefinieerde betrouwbaarheidsdoelstellingen. Het moet vastgestelde tolerantiedoelen bereiken, in het ideale geval door gebeurtenissen te omzeilen die van invloed zijn op de betrouwbaarheid. Realistisch gezien moet een workload echter de impact van dergelijke gebeurtenissen tolereren en beheren en bewerkingen op een vooraf bepaald niveau onderhouden tijdens een actieve storing. Zelfs tijdens een noodgeval moet een betrouwbare workload binnen een bepaalde periode herstellen naar een specifieke status, die beide zijn overeengekomen tussen de belanghebbenden. Een plan voor incidentrespons waarmee u snelle detectie en herstel kunt realiseren, is essentieel.

Tijdens de ontwerpfase van een workload moet u overwegen hoe beslissingen op basis van de principes van het ontwerp van betrouwbaarheid en de aanbevelingen in de controlelijst voor ontwerpbeoordeling van betrouwbaarheid de doelstellingen en optimalisaties van andere pijlers kunnen beïnvloeden. Bepaalde beslissingen kunnen enkele pijlers ten goede komen, maar vormen een compromis voor anderen. In dit artikel worden voorbeelden beschreven die een workloadteam kan tegenkomen bij het ontwerpen van workloadarchitectuur en -bewerkingen voor betrouwbaarheid.

Betrouwbaarheid compromissen met beveiliging

Compromis: verhoogd oppervlakteoppervlak voor werkbelastingen. De beveiligingspijler geeft prioriteit aan een beperkt en ingesloten oppervlak om aanvalsvectoren te minimaliseren en het beheer van beveiligingscontroles te verminderen.

  • Betrouwbaarheid wordt vaak verkregen via replicatie. Replicatie kan plaatsvinden op onderdeelniveau, op gegevensniveau of zelfs op geografisch niveau. Replica's vergroten standaard het oppervlak van een workload. Vanuit het oogpunt van beveiliging heeft een beperkt en opgenomen oppervlak de voorkeur om potentiële aanvalsvectoren te minimaliseren en het beheer van beveiligingscontroles te stroomlijnen.

  • Op dezelfde manier verhogen oplossingen voor herstel na noodgevallen, zoals back-ups, het oppervlak van een workload. Ze zijn echter vaak geïsoleerd van de runtime van de workload. Deze oplossingen vereisen de implementatie van aanvullende beveiligingscontroles, die mogelijk specifiek zijn voor de aanpak voor herstel na noodgevallen.

  • In het belang van betrouwbaarheidsdoelen zijn er mogelijk extra onderdelen nodig voor de architectuur, waardoor het oppervlak groter wordt. Een berichtenbus kan bijvoorbeeld worden toegevoegd om aanvragen tolerant te maken via ontkoppeling. Deze verhoogde complexiteit verhoogt het oppervlak van de workload door nieuwe onderdelen toe te voegen die moeten worden beveiligd, mogelijk op manieren die nog niet in het systeem worden gebruikt. Deze onderdelen worden doorgaans vergezeld van extra code en bibliotheken ter ondersteuning van hun gebruiks- of algemene betrouwbaarheidspatronen, waardoor ook het oppervlak van de toepassing toeneemt.

Compromis: Bypass van beveiligingsbeheer. De beveiligingspijler raadt aan dat alle besturingselementen actief blijven in zowel normale als gestreste systemen.

  • Wanneer een workload een betrouwbaarheidsgebeurtenis ondervindt die wordt aangepakt onder actieve incidentrespons, kan de urgentie voor workloadteams druk creëren om beveiligingscontroles te omzeilen die zijn geoptimaliseerd voor routinetoegang.

  • Het oplossen van problemen kan ertoe leiden dat het team beveiligingsprotocollen tijdelijk uitschakelt, waardoor een al gestrest systeem mogelijk wordt blootgesteld aan extra beveiligingsrisico's. Er bestaat ook een risico dat de beveiligingsprotocollen niet onmiddellijk opnieuw worden hersteld.

  • Gedetailleerde implementaties van beveiligingscontroles, zoals aangepaste op rollen gebaseerde toegangsbeheertoewijzingen of smalle firewallregels, introduceren configuratiecomplexiteit en gevoeligheid, waardoor de kans op onjuiste configuratie wordt vergroot. Het beperken van deze mogelijke betrouwbaarheidsimpact door brede regels te gebruiken, worden alle drie de principes van de Zero Trust-architectuur in de weg opgegeven.

Compromis: oude softwareversies. De beveiligingspijler moedigt de benadering 'up-to-date blijven' aan voor beveiligingspatches van leveranciers.

  • Het toepassen van beveiligingspatches of software-updates kan het doelonderdeel verstoren, waardoor de softwarewijziging niet beschikbaar is. Het vertragen of voorkomen van patches kan de potentiële betrouwbaarheidsrisico's voorkomen, maar het systeem blijft onbeveiligd tegen veranderende bedreigingen.

  • De voorgaande overweging is ook van toepassing op de code van de workload. Het is bijvoorbeeld van toepassing op toepassingscode die gebruikmaakt van oude bibliotheken en containers die gebruikmaken van oude basisinstallatiekopieën. Als het bijwerken en implementeren van toepassingscode wordt gezien als een niet-gemitigeerd betrouwbaarheidsrisico, wordt de toepassing in de loop van de tijd blootgesteld aan extra beveiligingsrisico's.

Betrouwbaarheid compromissen met Kostenoptimalisatie

Compromis: verhoogde implementatieredundantie of verspilling. Een workload die is geoptimaliseerd voor kosten minimaliseert onderbenutte resources en vermijdt over-inrichtingsresources.

  • Replicatie is een belangrijke strategie voor betrouwbaarheid. De strategie is om voldoende replicatie te hebben om een bepaald aantal gelijktijdige knooppuntfouten af te handelen. De tolerantie voor meer gelijktijdige knooppuntfouten vereist een hoger aantal replica's, wat leidt tot hogere kosten.

  • Overinrichting is een andere techniek voor het absorberen van onverwachte belasting op een systeem, zoals tijdens een failovergebeurtenis, die anders kan leiden tot een betrouwbaarheidsprobleem. Eventuele overtollige capaciteit die niet wordt gebruikt, wordt beschouwd als verspilling.

  • Als een workload gebruikmaakt van een oplossing voor herstel na noodgevallen die te veel voldoet aan de beoogde herstelpunten en -tijdsdoelstellingen van de workload, leidt het overschot tot hogere kosten vanwege verspilling.

  • Workloadimplementaties zelf zijn een mogelijke bron voor betrouwbaarheidsimpact en die impact wordt vaak beperkt door redundantie tijdens de implementatie via een implementatiestrategie zoals blauw/groen. Deze tijdelijke duplicatie van resources tijdens een veilige implementatie verhoogt doorgaans de totale kosten van de workload gedurende die perioden. Kosten stijgen met de frequentie van implementaties.

Compromis: Toegenomen investeringen in activiteiten die niet zijn afgestemd op functionele vereisten. Een benadering van kostenoptimalisatie is het evalueren van de waarde die wordt geleverd door elke geïmplementeerde oplossing.

  • Om betrouwbaarheid te bereiken, vereist een systeem waarneembaarheid. Bewakingssystemen vereisen waarneembaarheidsgegevensoverdracht en -verzameling. Naarmate de bewakingsmogelijkheden toenemen, neemt de frequentie en het volume van gegevens toe, wat leidt tot extra kosten.

  • Betrouwbaarheidsbetaalingen in workloads vereisen testen en analyseren. Het ontwerpen en uitvoeren van tests kost tijd en mogelijk gespecialiseerde hulpprogramma's, wat kosten met zich meebrengt.

  • Werkbelastingen met hoge betrouwbaarheidsdoelen hebben vaak een snel antwoordproces dat vereist dat technische teamleden deel uitmaken van een formele on-call rotatie. Dit proces veroorzaakt extra personeelskosten en verloren kanskosten vanwege aandacht die elders kan worden omgeleid. Er worden ook potentiële toolingkosten in rekening gebracht voor het beheer van het proces.

  • Ondersteuningscontracten met technologieproviders vormen een belangrijk onderdeel van een betrouwbare workload. Ondersteuningscontracten die niet worden gebruikt omdat het ondersteuningsniveau te veel wordt ingericht, verspilt.

Betrouwbaarheid compromissen met Operational Excellence

Compromis: verhoogde operationele complexiteit. Operational Excellence, zoals betrouwbaarheid zelf, geeft prioriteit aan eenvoud.

  • Betrouwbaarheid verhoogt meestal de complexiteit van een workload. Naarmate de complexiteit van een workload toeneemt, kunnen de operationele elementen van de workload ook toenemen om de toegevoegde onderdelen en processen te ondersteunen in termen van implementatiecoördinatie en configuratieoppervlak.

  • Het hebben van een uitgebreide bewakingsstrategie voor een workload is een belangrijk onderdeel van operationele uitmuntendheid. Introductie van extra onderdelen in een architectuur om ontwerppatronen voor betrouwbaarheid te implementeren, resulteert in meer gegevensbronnen die moeten worden beheerd, waardoor de complexiteit van het implementeren van gedistribueerde tracering en waarneembaarheid toeneemt.

  • Als u meerdere regio's gebruikt om beperkingen voor resourcecapaciteit van één regio te overwinnen en/of een actieve/actieve architectuur te implementeren, neemt de complexiteit van het operationele beheer van de workload toe. Deze complexiteit wordt geïntroduceerd door de noodzaak om meerdere regio's te beheren en de noodzaak om de gegevensreplicatie ertussen te beheren.

Compromis: Verhoogde inspanning om teamkennis en bewustzijn te genereren. De pijler Operational Excellence raadt aan om een documentatieopslagplaats voor procedures en topologieën te bewaren en te onderhouden.

  • Naarmate een workload robuuster wordt door het toevoegen van betrouwbaarheidsonderdelen en -patronen, duurt het langer om operationele procedures en artefactdocumentatie te onderhouden.

  • Training wordt complexer naarmate het aantal onderdelen in de workload toeneemt. Deze complexiteit is van invloed op de tijd die nodig is voor onboarding. De complexiteit verhoogt ook de kennis die nodig is voor het bijhouden van productroadmaps en de nieuwste richtlijnen op serviceniveau.

Betrouwbaarheidsverminderingen met prestatie-efficiëntie

Compromis: verhoogde latentie. Prestatie-efficiëntie vereist een systeem om prestatiedoelen te bereiken voor gebruikers- en gegevensstromen.

  • Betrouwbaarheidspatronen bevatten vaak gegevensreplicatie om replicastoring te overleven. Replicatie introduceert extra latentie voor betrouwbare gegevensschrijfbewerkingen, die een deel van het prestatiebudget voor een specifieke gebruiker of gegevensstroom verbruiken.

  • Betrouwbaarheid maakt soms gebruik van verschillende vormen van resourceverdeling om de belasting te verdelen of opnieuw te distribueren naar gezonde replica's. Een toegewezen onderdeel dat wordt gebruikt voor het verdelen, is meestal van invloed op de prestaties van de aanvraag of het proces dat wordt verdeeld.

  • Het distribueren van onderdelen over geografische grenzen of beschikbaarheidszones om een impact binnen het bereik te overleven introduceert netwerklatentie in de communicatie tussen onderdelen die deze beschikbaarheidsgrenzen omvatten.

  • Uitgebreide processen worden gebruikt om de status van een workload te observeren. Hoewel bewaking essentieel is voor betrouwbaarheid, kan instrumentatie van invloed zijn op de systeemprestaties. Naarmate de waarneembaarheid toeneemt, kunnen de prestaties afnemen.

Compromis: verhoogde overinrichting. De pijler Prestatie-efficiëntie ontmoedigt overinrichting, in plaats daarvan het gebruik van slechts voldoende resources om aan de vraag te voldoen.

  • Automatische schaalbewerkingen zijn niet onmiddellijk en kunnen daarom niet op betrouwbare wijze een plotselinge en dramatische piek in de vraag verwerken die niet kan worden gevormd of afgevlakt. Daarom is overinrichting via grotere exemplaren of meer exemplaren een kritieke betrouwbaarheidstactiek om rekening te houden met de vertraging tussen vraagsignaal en het maken van aanbod om bursts te helpen absorberen. Ongebruikte capaciteit heeft betrekking op de doelstellingen van prestatie-efficiëntie.

  • Soms kan een onderdeel niet worden geschaald in reactie op de vraag en die vraag is niet volledig voorspelbaar. Het gebruik van grote exemplaren om het slechtste geval te behandelen, leidt tot overinrichtingsafval in situaties die buiten dat gebruiksscenario vallen.

Verken de compromissen voor de andere pijlers: