Après un incident

Effectué

L’équipe d’ingénierie Azure effectue des rétrospectives internes pour les incidents de service qui ont un impact sur les clients, afin de tirer des enseignements de ce qui s’est produit, avec pour objectif ultime de rendre les incidents moins probables ou au moins de limiter leur impact. Les insights obtenus à partir de ces investigations internes sont fournis aux clients et partenaires impactés sous la forme de revues post-incident (PIR, Post Incident Reviews).

Pour nos plus grands incidents de service impactants (en particulier ceux ayant un impact multiservice et multirégion), nous invitons également les clients affectés à participer à un événement Livestream Azure Incident Retrospective, afin d’entendre nos responsables d’ingénierie résumer ce qui s’est passé et ce que nous avons appris. Les clients et les partenaires peuvent ainsi poser toutes leurs questions relatives à l’incident à nos experts techniques.

Pour finir, si, en raison d’un ou plusieurs incidents de service, nous n’atteignons pas ou ne maintenons pas nos contrats de niveau de service (SLA), les clients affectés peuvent être autorisés à effectuer une demande de crédit correspondant à une partie de leurs frais de service mensuels.

Revues post-incident (PIR)

Pour chaque incident de service Azure qui a un impact sur les clients, nous fournissons une déclaration d’atténuation qui récapitule ce qui s’est passé, avec quels services dans quelles régions, et quand l’impact a débuté et a finalement été atténué.

  • Pour les problèmes de service plus petits et moins impactants où les facteurs déclencheurs et contributeurs sont déjà bien compris, cette déclaration d’atténuation est le résumé final. (Par exemple, lorsque les problèmes affectent uniquement un sous-ensemble d’un seul service dans une seule région avec une durée d’impact relativement courte.)

  • Pour les problèmes de service qui ont été atténués mais dont la compréhension complète nécessite une investigation supplémentaire, la déclaration d’atténuation est suivie d’une revue post-incident (PIR) une fois nos investigations internes achevées, généralement dans les 14 jours suivant l’atténuation. Les PIR incluent les enseignements tirés ou les améliorations apportées par Microsoft suite à l’incident, ainsi que d’éventuelles recommandations de résilience pertinentes concernant la façon dont les clients et les partenaires peuvent rendre les incidents similaires moins impactants.

  • Pour les problèmes de service les plus importants et les plus impactants, la déclaration d’atténuation est suivie d’une revue post-incident (PIR) préliminaire, généralement dans les 72 heures suivant l’atténuation, afin de résumer ce que nous avons appris jusqu’à présent grâce à l’investigation en cours. (Par exemple, lorsque les problèmes affectent plusieurs services ou régions, ou lorsqu’ils ont une durée d’impact prolongée.) Une fois notre rétrospective interne terminée, généralement dans les 14 jours suivant l’atténuation, une revue post-incident (PIR) final est publiée pour fournir des détails ou des enseignements supplémentaires.

Toutes les revues post-incident (PIR) sont envoyées aux abonnements affectés par le biais d’Azure Service Health, dans le panneau « Historique d’intégrité ». Ils déclenchent également toutes les alertes Service Health configurées par le client où les critères d’alerte incluent le type d’événement « Problème de service », et sont indiqués avec l’attribut « Phase » défini sur « RCA ». Pour les incidents qui répondent à nos critères de divulgation publique (incidents « Scénario 1 », comme indiqué dans notre documentation publique), la dernière revue post-incident est également disponible dans la page Historique de l’état Azure.

Remarque

Nous procédons actuellement à la transition de « Analyse de la cause racine (RCA) » à « Revue post-Incident (PIR) ». Il est donc possible que ces deux termes soient temporairement utilisés de manière interchangeable dans le portail Azure et dans les alertes Service Health.

Azure Incident Retrospective (événements Livestream pour les clients)

Pour les incidents de service les plus importants et impactants (en particulier ceux qui répondent à nos critères de divulgation publique, les incidents « Scénario 1 » comme indiqué dans notre documentation publique), nous invitons les clients impactés à participer à un événement Livestream Azure Incident Retrospective.

Ces forums de style Diffusion web permettent aux clients et aux partenaires qui ont été touchés par l’incident de regarder une discussion avec les ingénieurs responsables de nos équipes de services pertinentes, durant laquelle ils pourront découvrir ce qui s’est passé, comment nous avons répondu, ce que nous avons appris et ce que nous allons faire (ou faisons déjà) afin de rendre les incidents de ce genre moins probables ou au moins de limiter leur impact.

En plus de pouvoir suivre cette discussion avec les ingénieurs en charge, les flux en direct Azure Incident Retrospective donnent aussi aux clients et aux partenaires l’occasion d’obtenir de la part de nos experts techniques des réponses à leurs questions concernant l’incident, par le biais d’un panneau latéral de questions et réponses modéré par des représentants de nos équipes d’ingénierie pertinentes.

Pour être sûr d’être invité à un événement Azure Incident Retrospective (si vos services sont affectés par un incident « Scénario 1 », comme indiqué ci-dessus), vérifiez que vous avez bien configuré des alertes Azure Service Health. Les invitations aux événements Livestream Azure Incident Retrospective sont distribuées à Service Health et via des alertes Service Health, tout comme les revues post-incident (PIR).

Après chaque diffusion en direct, nous publierons un enregistrement de la session sur cette playlist YouTube et, le cas échéant, mettons à jour le PIR sur la page Historique des status avec un lien vers celui-ci.

Contrats de niveau de service (SLA) et processus de crédit de service

Les contrats de niveau de service (SLA) décrivent les engagements de Microsoft en termes de durée de bon fonctionnement et de connectivité pour Microsoft Online Services. Les éditions actuelles et archivées du contrat SLA sont disponibles en téléchargement et couvrent Azure, ainsi que Dynamics 365, Office 365 et Intune. Si nous n’atteignons pas et ne maintenons pas les niveaux de service pour chaque service comme décrit dans ce contrat SLA (pour une raison quelconque, y compris suite à un ou plusieurs incidents de service), les clients peuvent être éligibles à un crédit pour une partie de leurs frais de service mensuels.

Afin que Microsoft prenne en compte une demande de crédit SLA, vous devez soumettre une demande de remboursement au support client dans les deux mois suivant la fin du mois de facturation durant lequel l’incident qui est l’objet de la réclamation s’est produit. Pour soumettre une réclamation, connectez-vous au portail Azure, créez une demande de support, sélectionnez le type de problème « Facturation », sélectionnez le type de problème « Demande de remboursement », puis fournissez le plus de détails possible, notamment l’ID de suivi d’incident à partir d’Azure Service Health ainsi que des informations sur les services et ressources qui selon vous ont été affectés.

Nos équipes de support de facturation valideront les ressources, services et abonnements affectés, puis calculeront et appliqueront les crédits SLA appropriés. Nous mettrons en œuvre des efforts commercialement raisonnables afin de traiter les réclamations au cours du mois suivant et dans les 45 jours suivant leur réception. Si nous déterminons qu’un crédit de service vous est dû, nous appliquerons ce crédit de service à vos frais de service mensuels applicables.

Les crédits de service sont votre unique et exclusif recours à tout problème de performances ou de disponibilité pour tout service soumis au contrat SLA. Les préversions et les services en ligne ou niveaux de service fournis gratuitement ne sont pas inclus ou éligibles aux réclamations ou crédits SLA. Pour finir, notez que les crédits de service attribués durant tout mois de facturation pour un service ou une ressource de service particulier ne pourront en aucun cas dépasser vos frais de service mensuels pour ce service ou cette ressource de service, selon le cas, durant le mois de facturation.

1.

Vrai ou faux. Nous fournissons une revue post-incident (PIR) résumant ce qui s’est passé, quels services dans quelles régions ont été affectés, ainsi que le moment où l’impact a débuté et celui où il a finalement été atténué. Dans la mesure du possible, nous inclurons également les enseignements tirés ou améliorations que nous apporterons suite à l’incident, et/ou des recommandations de résilience concernant la façon dont vous pouvez rendre les incidents similaires moins impactants.

2.

Où pourrai-je trouver les revues post-incident (PIR) d’un incident qui m’a impacté ?

3.

Vrai ou faux. Je n’ai pas configuré d’alertes Service Health, mais je serai tout de même averti chaque fois qu’Azure publiera sa revue post-incident (PIR) pour un incident qui m’a impacté.

4.

Comment puis-je être certain de savoir quand Azure héberge un événement Azure Incident Retrospective ?