Incidentbeheer voor SaaS-workloads in Azure
Onafhankelijke softwareleveranciers (ISV's) voor SaaS-oplossingen (Software as a Service) moeten de oplossing voor hun klanten bedienen. Hiervoor is een organisatie-instelling en cultuur vereist die onverwachte productiesituaties soepel afhandelt. Als architect moet u beheerprocessen en hulpprogramma's dienovereenkomstig ontwerpen.
In dit artikel wordt u begeleid bij het afstemmen van de cultuur, processen en hulpprogramma's van uw organisatie om incidentbeheer van een SaaS-productieoplossing te ondersteunen.
Inzicht in uw verantwoordelijkheden als serviceprovider
Het uitvoeren van een SaaS-oplossing betekent dat u de IT- en operationele afdeling van uw klanten 24x7 bent. U moet voorbereid zijn met het juiste personeel, cultuur, processen en hulpmiddelen.
Ontwerpoverwegingen
Neem verantwoordelijkheid voor ondersteuning van 24x7x365. Als u een SaaS-oplossing gebruikt, moet uw organisatie altijd worden voorbereid op reactie op incidenten. Deze voorbereiding omvat altijd dat teamleden beschikbaar zijn omdat incidenten buiten kantooruren kunnen plaatsvinden.
Live-site-ondersteuning omvat realtime bewaking en reactie op incidenten die van invloed zijn op de beschikbaarheid, beveiliging, prestaties of implementatie van het systeem. U of uw klanten kunnen deze incidenten detecteren. Voor het afhandelen van dergelijke incidenten hebt u specifieke vaardigheden nodig, waaronder de mogelijkheid om problemen onder druk te analyseren en op te lossen.
Live-site-ondersteuning kan stressvol zijn en het is belangrijk om uw teamleden te ondersteunen. Als het team nieuw is voor deze verantwoordelijkheid, moet u de overgang zorgvuldig plannen. Los zorgen over on-call taken, compensatie en het beheren van onbeschikbaarheid tijdens incidenten.
Risico: Vaardigheid en verwachtingsbeheer. Niet alle technici zijn geschikt voor een ondersteuningsrol van 24x7x365. Bij de overgang van een bestaand team ter ondersteuning van een SaaS-oplossing, moet u ervoor zorgen dat er goede verwachtingen worden gesteld en onderwijsmogelijkheden worden geboden.
Institute a live-site culture. Bedenk hoe u ondersteuningscases en incidenten beheert en hoe escalaties optreden. Het doel is ervoor te zorgen dat teamleden hun verantwoordelijkheden begrijpen en over de benodigde vaardigheden en hulpprogramma's beschikken om incidenten af te handelen.
Start-ups en kleinere organisaties hebben mogelijk een lichtgewicht plan voor live-siteproblemen. Technici kunnen in eerste instantie fungeren als frontline-ondersteuning door te reageren op klantondersteuningsaanvragen. Volwassen organisaties, of SaaS-providers met zakelijke klanten, hebben meer gestructureerde ondersteuning en toegewezen teams nodig.
Compromis: Operationele uitmuntendheid en kosten. Het beheren van livesitegebeurtenissen kan aftrekken van de ontwikkelingstijd voor nieuwe functies of oplossingen voor fouten. Als de ontwikkelingssnelheid een probleem is, kunt u overwegen om speciale livesite-resources in te huren.
Ontwerpaanaanvelingen
Aanbeveling | Voordeel |
---|---|
Introduceer een frontlineteam voor het afhandelen van ondersteuningsaanvragen. Voor complexe gevallen verzamelt dit team de informatie die het technische team nodig heeft voor het onderzoek. Een leverancier kan fungeren als uw frontline-ondersteuningsteam en de eerste probleemanalyse uitvoeren en eenvoudige problemen oplossen. |
U vermijdt overbelasting van het technische team met verantwoordelijkheden voor incidentafhandeling en het omgaan met onderbrekingen van hun normale taken. |
Investeer in een on-call functie voor technici om complexe zaken af te handelen, te onderzoeken en actie te ondernemen. Draai indien mogelijk de verantwoordelijkheden van teamleden bij elkaar, waarbij elke technicus een paar dagen tegelijk wordt aangeroepen. |
Met goed gedefinieerde verantwoordelijkheden en escalatiepaden kunt u snel problemen identificeren en oplossen zonder uw technische werkstroom te verstoren. |
Hulpprogramma's aanschaffen die speciaal zijn voor incidentbeheer. Zorg ervoor dat alle responders toegang hebben tot en begrijpen hoe ze deze hulpprogramma's effectief kunnen gebruiken. Selecteer hulpprogramma's die de systeemstatus kunnen bewaken, door de klant gerapporteerde problemen kunnen bijhouden, problemen kunnen identificeren, aanroepende technici kunnen escaleren, niet-reagerende technici kunnen beheren en wijzigingen in de productie kunnen inschakelen. |
Met de juiste hulpprogramma's kunt u uw on-call team snel incidenten identificeren en oplossen met behoud van beveiliging en operationele controle. |
Verbeter uw bewaking, implementaties, updates en andere normale beheerbewerkingen. | Door te investeren in operationele volwassenheid vermindert u de kans op problemen met livesites. Als er problemen optreden, verkort de oplossingstijd door goed gedefinieerde bewerkingen. |
Uw antwoordplan definiëren
Bevestig dat incidenten onvermijdelijk zijn en voorbereiden door een plan voor incidentrespons te definiëren. Deze proactieve aanpak voorkomt dat u een reactiestrategie moet bedenken tijdens uw eerste incident.
Plan vooruit op belangrijke incidenten, die doorgaans van invloed zijn op de mogelijkheid van uw klanten om uw service te gebruiken. Deze voorbereiding helpt stress en complexiteit te minimaliseren wanneer u incidenten beheert wanneer deze zich voordoen.
Ontwerpoverwegingen
Definieer het escalatiepad. Zorg ervoor dat teams het escalatieproces voor ondersteuningstaken begrijpen. In veel SaaS-oplossingen kunnen klanten contact opnemen met een frontlineondersteuningsteam, dat vervolgens communiceert met het technische team. Zorg ervoor dat klanten weten met wie ze moeten communiceren en waarom ze deze processen niet mogen omzeilen. Zorg er ook voor dat uw technische team weet wanneer en hoe ze hulp kunnen zoeken van leveranciers, inclusief ondersteuningsteams bij Microsoft.
Ernstniveaus definiëren. Verschillende incidenten verschillen in belang voor u en uw klanten. Hoe u een grote productiestoring afhandelt, verschilt van de manier waarop u een kleine fout aangaat. Definieer ernstniveaus op basis van de impact van de klant en stel de juiste verwachtingen en tijdlijnen in voor elk niveau.
Documenteer informatie die u nodig hebt voor triage. Het up-to-date houden van documentatie is essentieel voor effectieve reactie op incidenten. Deze documentatie bevat de architectuurindeling van het systeem, details op onderdeelniveau, eigenaren en belangrijke contactpersonen. Onnauwkeurige of verouderde informatie kan ertoe leiden dat het incidentresponsteam waardevolle tijd verspilt aan het uitzoeken van systeembewerkingen, verantwoordelijkheden en de mogelijke impact van het incident.
Plan een effectieve communicatie met klanten. Het leveren van statusupdates is essentieel voor incidentbeheer. Statusupdates helpen uw klanten inzicht te krijgen in de aard van een incident en verminderen ook het aantal ondersteuningsaanvragen van klanten die vergelijkbare problemen ondervinden.
Ontwerpaanaanvelingen
Aanbeveling | Voordeel |
---|---|
Bied een duidelijk proces voor incidentrapportage, zoals het openen van een ondersteuningsaanvraag met uw frontline-ondersteuningsteam, aan uw klanten. | U zorgt voor consistentie in de manier waarop u incidenten detecteert en reageert, waardoor de oplossing wordt beperkt en wordt voorkomen dat gegevens verloren gaan of over het hoofd worden gezien. |
Documenteer de architectuurindeling, details op onderdeelniveau, privacy- of beveiligingsclassificaties, eigenaren en belangrijke contactpersonen. | Het triageteam beschikt over de informatie die direct beschikbaar is en kan zich richten op onderzoeken en impact beoordelen. |
Zorg ervoor dat uw incidentresponsteam toegang heeft tot de benodigde assets en systemen, zoals logboeken. Ze moeten ook productiewijzigingen kunnen aanbrengen via een beveiligd en gecontroleerd proces. | U herstelt bewerkingen sneller door ervoor te zorgen dat uw team geen tijd verpilt. |
Gebruik een pagina met commerciële statussen in plaats van uw eigen pagina te maken. | Bespaar tijd met behulp van een pagina met de commerciële status. Een statuspagina die door een andere organisatie wordt gehost, blijft ook toegankelijk voor klanten tijdens een storing op uw systeem. |
Incidenten methodisch beheren
Het naleven van het gedefinieerde plan is van cruciaal belang om improvisatie tijdens de reactietijd te voorkomen. Deze aanpak helpt bij het minimaliseren van de stress en complexiteit van het beheren van deze situaties.
Ontwerpoverwegingen
De ernst van het incident toewijzen. Gebruik uw reactieplan voor incidenten om de ernst van het incident te bepalen. Klanten worden vaak gefrustreerd tijdens incidenten. Het is belangrijk dat u begrijpt wat de impact is die ze zien, zodat u prioriteit kunt geven. Communiceer de ernst van het incident duidelijk zodat klanten realistische verwachtingen hebben.
Blijf kalm en denk duidelijk na. Incidenten kunnen stressvol en dubbelzinnig zijn, met meerdere belanghebbenden die aandacht vragen. Zorg voor een duidelijk proces voor wie de leiding neemt binnen een incident. Sorteer incidenten zo goed mogelijk terwijl u erkent dat u mogelijk moet werken met onvolmaakte informatie. Probeer de situatie onder controle te houden.
Organisatieleiders kunnen helpen door de teamleden af te schermen die een incident actief onderzoeken of beperken.
Communiceer de status met uw klanten. Werk de statuspagina bij om precies genoeg informatie te publiceren. Communiceer onmiddellijk en geef de benodigde informatie op, zoals geschatte resolutietijden. Geef klanten regelmatig updates om hun vertrouwen te behouden.
Ontwerpaanaanvelingen
Aanbeveling | Voordeel |
---|---|
Tijdens een incident geeft u prioriteit aan herstel tijdens detectie. Wanneer er een incident optreedt, kunt u snel prioriteit geven aan herstelbewerkingen om onderbrekingen voor uw klanten te minimaliseren. |
Mogelijk kunt u herstellen door een routering rond een beïnvloed onderdeel of door een update terug te draaien, zelfs als u nog niet begrijpt wat het probleem heeft veroorzaakt. |
Zorg voor tijdige, duidelijke en frequente updates tijdens storingen. | U kunt het vertrouwen van klanten vergroten en de last van uw frontline-ondersteuningsteam verminderen. |
Een communicatiemanager aanwijzen tijdens een actief incident. Deze manager kan één persoon zijn of u kunt de verantwoordelijkheid tussen teamleden tussen incidenten roteren. | Door één stem te hebben voor uw technische team, centraliseert u gesprekken en vermindert u afleidingen voor andere teamleden. U voorkomt ook dat conflicterende informatie klanten of belanghebbenden bereikt tijdens een chaos-incident. |
Zorg ervoor dat u een bedrijfskritiek ondersteuningsplan hebt voor leveranciers zoals Microsoft. | Als er een storing optreedt, hebt u responsieve communicatie met uw platformleveranciers als Microsoft nodig om te bepalen waar een probleem zich voordoet en om de duur van de storing te verkorten. |
Incidentbeoordelingen uitvoeren
Nadat u een incident hebt hersteld, controleert en analyseert u wat er is gebeurd om hiervan te leren. Herstelacties implementeren, waaronder technische wijzigingen, procesaanpassingen of meer training.
Ontwerpoverwegingen
Leer van incidenten. Storingen bieden waardevolle leermogelijkheden. Voer grondige beoordelingen na incidenten uit om lessen te identificeren en verbeteringen te implementeren. Grote incidenten hebben vaak meerdere oorzaken. Evalueer of andere lagen van uw oplossing, zoals operationele processen, het probleem kunnen voorkomen of detecteren voordat het escaleert. Zoek ook naar vergelijkbare patronen elders in uw oplossing die mogelijk ook risico lopen op hetzelfde probleem.
Communiceer met uw klanten. Veel ISV's bieden post-incidentcommunicatie, met name voor zakelijke klanten die van hoge kwaliteit updates verwachten. Wees transparant en geef voldoende informatie voor klanten om inzicht te hebben in het probleem en de oplossingsstappen. Als u echter beveiliging en integriteit wilt behouden, vermijdt u het delen van overmatige interne gegevens over uw oplossingsarchitectuur of -onderdelen.
Ontwerpaanaanvelingen
Aanbeveling | Voordeel |
---|---|
Maak een proces voor het uitvoeren van interne incidentbeoordelingen. Richt u op het identificeren van de redenen die hebben bijgedragen aan het probleem. Overweeg technische oorzaken, hoe uw processen kunnen hebben bijgedragen aan de storing en hoe u op het incident hebt gereageerd. |
Interne incidentbeoordelingen helpen u bij het leren van productiestoringen en het minimaliseren van het risico van vergelijkbare problemen die zich opnieuw voordoen. |
Maak een gestructureerd plan om alle items aan te pakken die herstel nodig hebben. Neem duidelijke verantwoording en tijdlijnen op. | Duidelijke verantwoordelijkheid helpt u ervoor te zorgen dat elke rol voldoet aan de functionele verwachtingen, verbetert de duidelijkheid en maakt transparante rapportage op het gewenste niveau mogelijk. |
Publiceer klantgerichte beoordelingen na incidenten. Geef klanten voldoende details om inzicht te hebben in het probleem en de oplossingsstappen zonder onnodige interne details of systeemarchitectuur te onthullen. Post-incidentcommunicatie moet altijd worden geschreven en gepubliceerd door mensen. Technische en niet-technische belanghebbenden moeten de communicatie voor nauwkeurigheid en duidelijkheid beoordelen. |
Deze aanpak helpt het vertrouwen van klanten te behouden en te verzekeren dat u van het incident hebt geleerd en de geïdentificeerde problemen aanpakt. |
Volgende stap
Nadat u de ontwerpgebieden hebt bekeken, gaat u verder met het evaluatieprogramma om uw ontwerp te evalueren.