Después de un incidente

Completado

El equipo de ingeniería de Azure lleva a cabo retrospectivas internas sobre incidentes de servicio que afectan a los clientes para aprender de lo ocurrido y, en última instancia, lograr que sea improbable que sucedan o, al menos, que su impacto sea el mínimo. Las conclusiones de estas investigaciones internas se proporcionan a los clientes y asociados afectados en forma de Revisiones posteriores a incidentes (PIR).

Para los incidentes de servicio con mayor impacto (especialmente aquellos que afecten a varios servicios y regiones), también se invita a los clientes afectados a una transmisión en directo de Retrospectiva de incidentes de Azure para escuchar un resumen de nuestros responsables de ingeniería sobre lo que ocurrió y lo que se aprendió, y para que los clientes y asociados obtengan respuestas a cualquier pregunta sobre incidentes a través de nuestros expertos en la materia.

Por último, si como resultado de uno o varios incidentes de servicio no lográsemos cumplir o mantener los Acuerdos de Nivel de Servicio (SLA), los clientes afectados podrán ser elegibles para reclamar un crédito de una parte de los precios mensuales de servicio.

Revisiones posteriores a incidentes (PIR)

Por cada incidente de servicio de Azure que afecte a los clientes, se proporcionará una Declaración de mitigación que resuma lo ocurrido, qué servicios y regiones fueron afectados, y cuándo se inició y mitigó el impacto.

  • Para problemas de servicio más pequeños y menos impactantes, en los que los desencadenadores y los factores activos ya se comprendan adecuadamente, esta instrucción de mitigación será el resumen final. (Por ejemplo, cuando los problemas afecten solo a un subconjunto de un único servicio dentro de una sola región, con una duración de impacto relativamente corta).

  • En el caso de incidencias de servicio mitigadas, pero que aún requieran de más investigación para su completa comprensión, la declaración de mitigación irá seguida de una Revisión posterior a incidentes (PIR) una vez que se completen las investigaciones internas, generalmente en un plazo de 14 días después de la mitigación. Las PIR incluyen cualquier aprendizaje o mejora que Microsoft esté realizando como resultado del incidente, así como aquellas recomendaciones de resistencia pertinentes sobre cómo clientes y asociados pueden hacer que los incidentes similares tengan un impacto menor.

  • En el caso de las incidencias de servicio más importantes, la declaración de mitigación irá seguida de una Revisión posterior a incidentes (PIR) preliminar, generalmente en un plazo de 72 horas de mitigación, para resumir lo aprendido hasta ese momento de la investigación en curso. (Por ejemplo, cuando los problemas afecten a varios servicios o regiones, o que tengan una duración de impacto extendida). Una vez completada nuestra retrospectiva interna, generalmente en un plazo de 14 días desde la mitigación, se publicará una Revisión posterior a incidentes (PIR) final para proporcionar detalles o aprendizaje adicionales.

Todas las Revisiones posteriores a incidentes (PIR) se envían a las suscripciones afectadas a través de Azure Service Health y se pueden consultar en la hoja "Historial de estado". También desencadenarán cualquier alerta de Service Health configurada por el cliente en la que los criterios de alerta incluyan el tipo de evento "Incidencia del servicio" y se indique con el atributo "Fase" establecido en "RCA". En el caso de incidentes que cumplan con los criterios de revelación pública (incidentes del "Escenario 1", tal y como se describe en la documentación pública), la revisión posterior a incidentes más reciente también estará disponible en la página Historial de estado de Azure.

Nota:

Estamos en proceso de transición de "Análisis de la causa principal (RCA)" a "Revisiones posteriores a incidentes (PIR)", por lo que podría ver temporalmente ambos términos usados indistintamente en Azure Portal y en las alertas de Service Health.

Retrospectiva de incidentes de Azure (eventos de streaming en directo del cliente)

Para los incidentes de servicio más importantes (especialmente aquellos que cumplan con los criterios de revelación pública, los incidentes de "Escenario 1", tal y como se describe en la documentación pública), se invita a los clientes afectados a participar en un evento de streaming en directo de Retrospectiva de incidentes de Azure.

Estos foros de estilo de difusión web permiten a los clientes y asociados afectados por incidentes ver debates con los responsables de ingeniería de los equipos de servicio pertinentes, obteniendo resúmenes de lo ocurrido, cómo respondimos, lo aprendido y lo que se hará (o ya se está haciendo) para hacer que sea improbable que sucedan "incidentes como este" o, al menos, que su impacto sea el mínimo.

Más allá de ver este debate con los responsables de ingeniería, las secuencias en directo de Retrospectiva de incidentes de Azure también ofrecen a los clientes y asociados la oportunidad de obtener respuestas a cualquier pregunta sobre incidentes por parte de nuestros expertos en la materia, a través de un panel lateral moderado de preguntas y respuestas (Q&A), con personal representativo de los equipos de ingeniería pertinentes.

Para asegurarse de que se le invitará a una sesión de Retrospectiva de incidentes de Azure (si los servicios se vieran afectados por un incidente calificado como "escenario 1", consulte más arriba) asegúrese de haber configurado las alertas de Azure Service Health. Las invitaciones a las secuencias en directo de Retrospectiva de incidentes de Azure se distribuyen a Service Health y a través de alertas de Service Health, al igual que la Revisión posterior a incidentes (PIR).

Después de cada transmisión en directo, publicaremos una grabación de la sesión para esta lista de reproducción de YouTube y, si procede, actualizaremos el PIR en la página historial de estado con un vínculo a la misma.

Acuerdos de Nivel de Servicio (SLA) y proceso de Crédito de servicio

Los Acuerdos de Nivel de Servicio (SLA) describen el compromiso que asume Microsoft en cuanto al tiempo de actividad y la conectividad de los servicios en línea de Microsoft. Las ediciones actuales y archivadas del Acuerdo de Nivel de Servicio están disponibles para su descarga y cubren Azure, así como Dynamics 365, Office 365 e Intune. Si no se lograsen cumplir o mantener los niveles de servicio de cada servicio, tal y como se describe en este Acuerdo de Nivel de Servicio (por cualquier motivo, incluyendo como resultado uno o varios incidentes de servicio), los clientes podrán optar a un crédito por una parte de los precios mensuales de servicio.

Para que Microsoft considere una notificación de solicitud de crédito del Acuerdo de Nivel de Servicio, se debe enviar una notificación al servicio de atención al cliente en un plazo de dos meses a partir del final del mes de facturación en el que se produjo el incidente objeto de la notificación. Para enviar una notificación, inicie sesión en Azure Portal, cree una nueva solicitud de soporte técnico, seleccione un tipo de problema de "Facturación", seleccione como tipo de problema "Solicitud de reembolso" y proporcione tantos detalles como sea posible, incluyendo el identificador de seguimiento de incidentes de Azure Service Health y la información sobre qué servicios y recursos cree que se han visto afectados como consecuencia.

Los equipos de soporte técnico de facturación validarán qué recursos, servicios y suscripciones se vieron afectados y, a continuación, calcularán y aplicarán los créditos pertinentes del Acuerdo de Nivel de Servicio. Haremos esfuerzos comercialmente razonables para procesar las notificaciones durante el mes posterior y en un plazo de 45 días a partir de la recepción. Si se determinase que se le debe un crédito de servicio, se aplicará el crédito de servicio a los precios de servicio mensuales aplicables.

Los créditos de servicio son su única y exclusiva solución sobre cualquier incidencia de rendimiento o disponibilidad de cualquier servicio, según el Acuerdo de Nivel de Servicio. Las versiones preliminares y servicios en línea, o bien los niveles de servicio proporcionados de forma gratuita, no se incluyen ni son aptos para notificaciones o créditos, según el Acuerdo de Nivel de Servicio. Por último, tenga en cuenta que los créditos de servicio concedidos en cualquier mes de facturación para un servicio o recurso de servicio determinado no superarán, en ningún caso, los precios mensuales del servicio de ese servicio o recurso de servicio, según corresponda, en el mes de facturación.

1.

Verdadero o Falso. Se proporciona una Revisión posterior a incidentes (PIR) que resume lo ocurrido, qué servicios y regiones fueron afectados, así como cuándo se inició y mitigó el impacto. Siempre que sea posible, también se incluirán todos los aprendizajes o mejoras que se realizarán como resultado del incidente y/o recomendaciones de resistencia sobre cómo hacer que los incidentes similares tengan menos impacto.

2.

¿Dónde se pueden encontrar las Revisiones posteriores a incidentes (PIR) de un incidente que me haya afectado?

3.

Verdadero o Falso. NO tengo ninguna alerta de Service Health configurada, pero aún se me notificará cada vez que Azure publique la Revisión posterior a incidentes (PIR) para un incidente que me haya afectado.

4.

¿Cómo se puede saber con certeza cuándo Azure hospedará una sesión de Retrospectiva de incidentes de Azure?