Ontwerp zodat bewerkingen eenvoudig kunnen worden uitgevoerd
Ontwerp een toepassing zodat het operationele team de hulpprogramma's heeft die nodig zijn
De cloud heeft de rol van het operationele team aanzienlijk gewijzigd. Het is niet langer verantwoordelijk voor het beheren van de hardware en de infrastructuur die als host fungeert voor de toepassing. Maar het operationele team is nog steeds heel belangrijk om een cloudtoepassing te laten functioneren. Enkele belangrijke functies van het operationele team zijn:
- Implementatie
- Bewaking
- Escalatie
- Reageren op incidenten
- Beveiligingscontrole
Robuuste logboekregistratie en tracering zijn met name belangrijk in cloudtoepassingen. Betrek het operationele team bij het ontwerp en de planning, om ervoor te zorgen dat de toepassing hen de gegevens en het inzicht biedt die ze nodig hebben om succesvol te zijn.
Aanbevelingen
Maak alles zichtbaar. Zodra een oplossing is geïmplementeerd en wordt uitgevoerd, bieden de logboeken en traceringen het belangrijkste inzicht in het systeem. Met tracering wordt een pad door het systeem vastgelegd. Het is nuttig bij het aanwijzen van knelpunten, prestatieproblemen en fouten. Met logboekregistratie worden afzonderlijke gebeurtenissen vastgelegd, zoals wijzigingen in de toepassingsstatus, fouten en uitzonderingen. Leg de productie vast, anders verliest u het inzicht op momenten wanneer u die het hardst nodig hebt.
Bewakingsinstrument. Bewaking geeft inzicht in hoe goed (of slecht) een toepassing werkt in termen van beschikbaarheid, prestaties en systeemstatus. Bewaking vertelt u bijvoorbeeld of u aan de SLA voldoet. Bewaking wordt uitgevoerd tijdens de normale werking van het systeem. De bewaking moet nagenoeg real-time worden uitgevoerd, zodat het operationele team snel op problemen kan reageren. In het ideale geval kan bewaking problemen voorkomen voordat ze tot een kritieke fout leiden. Zie Controle en diagnostische gegevens voor meer informatie.
Instrument voor hoofdoorzaakanalyse. Hoofdoorzaakanalyse is het proces waarin de onderliggende oorzaak van fouten wordt opgespoord. Het treedt in werking als er een fout is opgetreden.
Gebruik gedistribueerde tracering. Gebruik een gedistribueerd traceringssysteem dat is ontworpen voor gelijktijdigheid, asynchroniciteit en de cloudschaal. Traceringen moeten een correlatie-id bevatten die over de servicegrenzen heen gaat. Bij één bewerking kunnen aanroepen naar meerdere toepassingsservices betrokken zijn. Als een bewerking mislukt, kan met de correlatie-id de oorzaak van de fout worden aangewezen.
Standaardiseer logboeken en metrische gegevens. Het operationele team moet de logboeken van diverse services in uw systeem bundelen. Als elke service op een afzonderlijke manier wordt geregistreerd, wordt het lastig, zo niet onmogelijk, om er waardevolle informatie uit te halen. Definieer een gemeenschappelijk schema met velden als correlatie-id, naam van de gebeurtenis, IP-adres van de afzender, enzovoort. Afzonderlijke services kunnen aangepaste schema's afleiden die het basisschema overnemen en aanvullende velden bevatten.
Automatiseer beheertaken, waaronder inrichting, implementatie en bewaking. Het automatiseren van een taak zorgt ervoor dat deze herhaalbaar wordt en minder gevoelig voor menselijke fouten.
Behandel configuratie als code. Controleer de configuratiebestanden in een systeem voor versiebeheer, zodat u uw wijzigingen kunt bijhouden en er een nieuwe versie voor kunt maken. Eventueel kunt u teruggaan naar een eerdere versie.