Administración de incidentes para cargas de trabajo de SaaS en Azure
Los proveedores de software independientes (ISV) para soluciones de software como servicio (SaaS) deben operar la solución para sus clientes. Esto requiere una configuración organizativa y una referencia cultural que controle situaciones inesperadas de producción sin problemas. Como arquitecto, debe diseñar procesos y herramientas de administración en consecuencia.
Este artículo le guía en la alineación de la cultura, los procesos y las herramientas de su organización para admitir la administración de incidentes de una solución SaaS de producción.
Comprender sus responsabilidades como proveedor de servicios
El funcionamiento de una solución SaaS significa que es el departamento de TI y operaciones de sus clientes 24x7. Debe estar preparado con el personal adecuado, la cultura, los procesos y las herramientas.
Consideraciones de diseño
Asuma la responsabilidad de la compatibilidad con 24x7x365. El funcionamiento de una solución SaaS requiere que su organización esté siempre preparada para la respuesta a incidentes. Esta preparación incluye tener siempre a los miembros del equipo disponibles porque los incidentes pueden producirse fuera del horario comercial.
La compatibilidad con sitios en directo implica la supervisión en tiempo real y la respuesta a incidentes que afectan a la disponibilidad del sistema, la seguridad, el rendimiento o la implementación. Usted o sus clientes pueden detectar esos incidentes. Para controlar estos incidentes, necesita aptitudes específicas, incluida la capacidad de analizar y resolver problemas bajo presión.
El soporte técnico en directo puede ser estresante y es importante apoyar a los miembros del equipo. Si el equipo es nuevo en esta responsabilidad, planee cuidadosamente la transición. Solucione las preocupaciones sobre las tareas a la llamada, la compensación y la administración de la falta de disponibilidad durante los incidentes.
Riesgo: administración de aptitudes y expectativas. No todos los ingenieros son adecuados para un rol de soporte técnico de 24x7x365. Al realizar la transición de un equipo preexistente para admitir una solución SaaS, asegúrese de que se establecen las expectativas adecuadas y se proporcionan oportunidades educativas.
Instituye una cultura de sitio en directo. Tenga en cuenta cómo se administran los casos de soporte técnico y los incidentes y cómo se producen las escalaciones. El objetivo es asegurarse de que los miembros del equipo comprendan sus responsabilidades y tengan las aptitudes y herramientas necesarias para controlar los incidentes.
Las startups y las organizaciones más pequeñas pueden tener un plan ligero para problemas de sitio activo. Los ingenieros pueden servir inicialmente como soporte técnico de primera línea respondiendo a los casos de soporte al cliente. Las organizaciones maduras o los proveedores de SaaS con clientes empresariales necesitan soporte técnico más estructurado y equipos dedicados.
Compensación: excelencia operativa y costo. La administración de eventos de sitio en directo puede destraer desde el tiempo de desarrollo para nuevas características o correcciones de errores. Si la velocidad de desarrollo es un problema, considere la posibilidad de contratar recursos dedicados de sitio activo.
Recomendaciones de diseño
Recomendación | Prestación |
---|---|
Presentar un equipo de primera línea para controlar los casos de soporte técnico. En casos complejos, este equipo recopila la información que el equipo de ingeniería necesita para su investigación. Un proveedor puede servir como equipo de soporte técnico de primera línea y realizar análisis iniciales de problemas y resolver problemas simples. |
Evite sobrecargar al equipo de ingeniería con responsabilidades de control de incidentes y tratar con interrupciones en sus tareas regulares. |
Invertir en una función de llamada para que los ingenieros controle casos complejos, investiguen y tomen medidas. Si es posible, gire las responsabilidades en la llamada entre los miembros del equipo, con cada ingeniero en llamada durante unos días a la vez. |
Con las responsabilidades y rutas de escalación bien definidas, puede identificar y solucionar problemas rápidamente sin interrumpir el flujo de trabajo de ingeniería. |
Adquiera herramientas especializadas para la administración de incidentes. Asegúrese de que todos los respondedor tengan acceso y comprendan cómo usar estas herramientas de forma eficaz. Seleccione herramientas que puedan supervisar el estado del sistema, realizar un seguimiento de los problemas notificados por el cliente, identificar problemas, escalar a ingenieros de llamadas, administrar ingenieros que no responden y habilitar la realización de cambios en producción. |
Tener las herramientas adecuadas ayuda a su equipo de llamadas a identificar y resolver incidentes rápidamente, a la vez que mantiene la seguridad y el control operativo. |
Mejore la supervisión, las implementaciones, las actualizaciones y otras operaciones de administración normales. | Al invertir en madurez operativa, se reduce la probabilidad de problemas en el sitio activo. Si se producen problemas, tener operaciones bien definidas en su lugar reduce el tiempo de resolución. |
Definición del plan de respuesta
Confirme que los incidentes son inevitables y se preparan para ellos definiendo un plan de respuesta a incidentes. Este enfoque proactivo evita que tenga que diseñar una estrategia de respuesta durante el primer incidente.
Planee con antelación los incidentes principales, lo que suele afectar a la capacidad de los clientes de usar el servicio. Esta preparación ayuda a minimizar el estrés y la complejidad cuando se administran incidentes a medida que se producen.
Consideraciones de diseño
Defina la ruta de acceso de escalación. Asegúrese de que los equipos comprendan el proceso de escalación para las tareas de soporte técnico. En muchas soluciones SaaS, los clientes se comunican con un equipo de soporte técnico de primera línea, que luego se comunica con el equipo de ingeniería. Asegúrese de que los clientes sepan con quién interactuar y por qué no deben omitir estos procesos. Además, asegúrese de que el equipo de ingeniería sabe cuándo y cómo buscar ayuda de proveedores, incluidos los equipos de soporte técnico de Microsoft.
Defina los niveles de gravedad. Los diferentes incidentes varían en importancia para usted y sus clientes. La forma en que se controla una interrupción principal de producción difiere de la forma en que se soluciona un error menor. Defina los niveles de gravedad en función del impacto del cliente y establezca las expectativas y escalas de tiempo adecuadas para cada nivel.
Información del documento que necesita para evaluar la evaluación de prioridades. Mantener la documentación actualizada es esencial para la respuesta efectiva a incidentes. Esta documentación incluye el diseño arquitectónico del sistema, los detalles de nivel de componente, los propietarios y los contactos clave. La información inexacta o obsoleta puede hacer que el equipo de respuesta a incidentes pierda tiempo valioso para averiguar las operaciones del sistema, las responsabilidades y el posible impacto del incidente.
Planee la comunicación eficaz a los clientes. Proporcionar actualizaciones de estado es clave en la administración de incidentes. Las actualizaciones de estado ayudan a los clientes a comprender la naturaleza de un incidente y también a reducir el volumen de casos de soporte técnico de los clientes que experimentan problemas similares.
Recomendaciones de diseño
Recomendación | Prestación |
---|---|
Proporcione un proceso claro de informes de incidentes, como abrir un caso de soporte técnico con el equipo de soporte técnico de primera línea, a sus clientes. | Asegúrese de la coherencia en la forma en que detecta y responde a incidentes, lo que reduce el tiempo de resolución y evita que la información se pierda o se pase por alto. |
Documente el diseño arquitectónico, los detalles de nivel de componente, las clasificaciones de privacidad o seguridad, los propietarios y los contactos clave. | El equipo de evaluación de prioridades tiene la información disponible fácilmente y puede centrarse en las investigaciones y evaluar el impacto. |
Asegúrese de que el equipo de respuesta a incidentes pueda acceder a los recursos y sistemas necesarios, como los registros. También deben poder realizar cambios de producción a través de un proceso seguro y controlado. | Las operaciones se restauran más rápidamente asegurándose de que el equipo no desperdicia el tiempo. |
Use una página de estado comercial en lugar de crear la suya propia. | Ahorre tiempo mediante una página de estado comercial. Una página de estado hospedada por otra organización también sigue siendo accesible para los clientes durante una interrupción en el sistema. |
Administración de incidentes con método
La adhesión al plan definido es fundamental para evitar la improvisación durante el tiempo de respuesta. Este enfoque ayuda a minimizar el estrés y la complejidad de administrar estas situaciones.
Consideraciones de diseño
Asignar gravedad del incidente. Use el plan de respuesta a incidentes para determinar la gravedad del incidente. A menudo, los clientes se frustran durante incidentes. Es importante que comprenda el impacto que ven para que pueda priorizar. Comunique claramente la gravedad del incidente para que los clientes tengan expectativas realistas.
Manténgase tranquilo y piense claramente. Los incidentes pueden ser estresantes y ambiguos, con varias partes interesadas que exigen atención. Tener un proceso claro para quién toma el cliente potencial dentro de un incidente. Evaluar los incidentes lo mejor posible mientras reconoce que es posible que tenga que operar con información imperfecta. Intente mantener el control de la situación.
Los líderes de la organización pueden ayudar blindando a los miembros del equipo que están investigando o mitigando activamente un incidente.
Comunicar el estado a los clientes. Actualice la página de estado para publicar información suficiente. Comunique rápidamente y proporcione información necesaria, como tiempos de resolución estimados. Proporcione a los clientes actualizaciones frecuentes para mantener su confianza.
Recomendaciones de diseño
Recomendación | Prestación |
---|---|
Durante un incidente, priorice la recuperación sobre la detección. Cuando se produce un incidente, priorice las operaciones de restauración rápidamente para minimizar la interrupción de los clientes. |
Es posible que pueda recuperarse mediante el enrutamiento alrededor de un componente afectado o al revertir una actualización, incluso si aún no entiende lo que causó el problema. |
Proporcione actualizaciones oportunas, claras y frecuentes durante las interrupciones. | Puede infundir confianza en el cliente y reducir la carga en su equipo de soporte técnico de primera línea. |
Designe un administrador de comunicaciones durante un incidente activo. Este administrador puede ser una sola persona o puede rotar la responsabilidad entre los miembros del equipo entre incidentes. | Al tener una voz para su equipo de ingeniería, centralice las conversaciones y reduzca las distracciones a otros miembros del equipo. También evita que la información en conflicto llegue a clientes o partes interesadas durante un incidente caótico. |
Asegúrese de que tiene un plan de soporte técnico crítico para proveedores como Microsoft. | Si se produce una interrupción, necesita comunicaciones con capacidad de respuesta con los proveedores de plataformas como Microsoft para ayudarle a determinar dónde se encuentra un problema y para acortar la duración de la interrupción. |
Realización de revisiones posteriores a incidentes
Después de recuperarse de un incidente, revise y analice lo que ha ocurrido para aprender de él. Implemente acciones de corrección, que pueden incluir cambios técnicos, ajustes de proceso o más entrenamiento.
Consideraciones de diseño
Obtenga información sobre incidentes. Las interrupciones ofrecen oportunidades de aprendizaje valiosas. Realice revisiones exhaustivas después de incidentes para identificar las lecciones e implementar mejoras. Los incidentes principales suelen tener varias causas. Evalúe si otras capas de la solución, como los procesos operativos, pueden impedir o detectar el problema antes de que se escale. Además, busque patrones similares en otra parte de la solución que también podrían estar en riesgo del mismo problema.
Comunicarse con sus clientes. Muchos ISV proporcionan comunicaciones posteriores a incidentes, especialmente para los clientes empresariales que esperan actualizaciones de alta calidad. Sea transparente y proporcione suficiente información para que los clientes comprendan el problema y los pasos de mitigación. Sin embargo, para mantener la seguridad y la integridad, evite compartir detalles internos excesivos sobre la arquitectura o los componentes de la solución.
Recomendaciones de diseño
Recomendación | Prestación |
---|---|
Cree un proceso para realizar revisiones internas posteriores a incidentes. Céntrese en identificar las razones que han contribuido al problema. Tenga en cuenta las causas técnicas, cómo podrían haber contribuido los procesos a la interrupción y cómo respondió al incidente. |
Las revisiones internas posteriores a los incidentes le ayudan a aprender de interrupciones de producción y minimizar el riesgo de que se produzcan problemas similares de nuevo. |
Realice un plan estructurado para abordar los elementos que necesiten corrección. Incluya una responsabilidad clara y las escalas de tiempo. | La responsabilidad clara le ayuda a garantizar que cada rol cumple sus expectativas funcionales, mejora la claridad y permite informes transparentes en los niveles deseados. |
Publique revisiones posteriores a incidentes orientadas al cliente. Proporcione a los clientes detalles suficientes para comprender el problema y los pasos de mitigación sin revelar detalles internos innecesarios o arquitectura del sistema. Las comunicaciones posteriores a incidentes siempre deben estar escritas y publicadas por los seres humanos. Las partes interesadas técnicas y no técnicas deben revisar las comunicaciones para obtener precisión y claridad. |
Este enfoque ayuda a mantener la confianza de los clientes y les garantiza que ha aprendido del incidente y que aborda los problemas identificados. |
Paso siguiente
Después de revisar las áreas de diseño, continúe con la herramienta de evaluación para evaluar el diseño.