Características y ciclo de vida de un incidente
Como descubrió en la última unidad, un incidente es una interrupción del servicio que afecta a los clientes y los usuarios finales. Los incidentes adoptan muchas formas, desde ralentizaciones del rendimiento que frustran a los usuarios ("la lentitud es el nuevo fuera de servicio") a bloqueos del sistema que hacen que el servicio o el sitio no estén disponibles durante un tiempo.
Características de un incidente
Los incidentes suelen ser inesperados y parecen producirse en el peor momento posible (por ejemplo, a las 2:00 de la madrugada o cuando se está trabajando en un proyecto importante). Este es el motivo por el que los incidentes se temen y se evitan, hasta el punto de que a veces se minimiza su importancia. A veces, la presión interna en una organización es tan grande que resulta difícil resistir a la tentación de etiquetar incorrectamente una interrupción o no informar sobre ella por miedo a una reprimenda.
Como mínimo, los incidentes generan trabajo no planeado. Dado que se pasa la mayor parte del tiempo realizando trabajo planeado y tiene una idea concreta de lo que debe hacer, probablemente pensará que los incidentes son malos. Pero puede verlo desde otro ángulo: los incidentes son en realidad inversiones*, ya que aportan el valor que usted aspira a ofrecer a los usuarios finales. Sea cual sea la causa del incidente o el alcance de su impacto, todos los incidentes tienen una cosa en común: pueden proporcionar experiencias de aprendizaje valiosas.
Los incidentes deben considerarse como el pulso de los sistemas. Le aportarán mucha más información sobre el sistema de la que tenía, y este conocimiento es muy útil. Si tiene una sólida base de supervisión y conoce mejor lo que sucede en el sistema, se generarán inevitablemente más alertas e incidentes, así como oportunidades de responder. Como mínimo, los incidentes le indican lo que ocurre y esto, por lo tanto, mejora el conocimiento de las operaciones. Como ya sugerimos en un módulo anterior dedicado a la supervisión, se trata de un paso previo importante para trabajar de forma confiable.
Ciclo de vida de un incidente
Si quiere elevar el estado del equipo de respuesta ante incidentes a "élite o rendimiento alto", debe considerar las interrupciones del servicio o los incidentes como algo más que una simple escala de tiempo lineal y enfocar estos conceptos desde una perspectiva cíclica.
El ciclo de vida de un incidente puede dividirse en varias fases que, lógicamente, se producen una después de otra en un ciclo que vuelve a empezar desde el principio. Cada vez que recorra este ciclo (y lo hará muchas veces), si lo gestiona correctamente, volverá al principio con información más detallada sobre los sistemas. Con un poco de trabajo adicional, también puede prepararse mejor para responder de forma rápida y eficaz la próxima vez que se produzca un incidente.
Fases de un incidente
Las fases individuales del proceso de respuesta ante incidentes son ligeramente diferentes en función del modelo que se use. Para los fines de este módulo, el proceso de respuesta ante un incidente pasa por cinco fases:
- Detección: En esta fase, entran en juego los conocimientos sobre la supervisión que se explicaron en un módulo anterior de esta ruta de aprendizaje. Las herramientas de supervisión recopilan la información de los registros, la analizan de acuerdo con los objetivos centrados en el cliente que haya configurado y envían alertas que requieren una acción para indicarle que es necesaria la intervención humana.
- Respuesta: Esta fase se produce después de que usted y su equipo reciban la alerta. La analizaremos con detalle en este módulo, por lo que pronto encontrará mucha más información sobre este concepto.
- Corrección: En esta fase, se restauran los sistemas al funcionamiento normal. La forma en que se haga dependerá del motivo que ha provocado la interrupción del servicio. Su principal prioridad consiste en poner en marcha de nuevo el servicio de modo que esté disponible para los clientes. Aun así, su trabajo no acabará cuando lo consiga.
- Análisis: Para obtener un valor duradero de los incidentes, debe aprender de ellos. Esta fase consiste en el proceso de recopilar información sobre lo que ha sucedido y en qué momento durante el incidente y examinar qué se puede aprender planteando las preguntas adecuadas. Hay un módulo completo titulado Aprender de los errores que trata esta fase.
- Preparación: Las lecciones aprendidas en la fase de análisis deben incorporarse a la práctica de operaciones. Si hay elementos de acción que podrían ayudar a evitar una interrupción similar en el futuro, también formarán parte de esta fase.
Antes de crear un plan de respuesta ante incidentes, debe comprender las características y el valor de los incidentes y familiarizarse con las fases del ciclo de vida de los incidentes. El siguiente paso consiste en asegurarse de que la estrategia de respuesta tenga una base sólida.