Bien démarrer avec l’ingénierie de fiabilité de site

10 minutes

Dans la dernière unité de ce module, nous allons voir comment vous pouvez approfondir vos connaissances si vous souhaitez explorer l’ingénierie de fiabilité de site (SRE, Site Reliability Engineering) plus en détail.

Ouvrages et vidéos

Pour obtenir des informations plus détaillées sur SRE, la meilleure source est un trio de livres qui ont été publiés sur le sujet.

Site Reliability Engineering: How Google Runs Production Systems (couramment appelé « The SRE Book »)
The Site Reliability Workbook: Practical Ways to Implement SRE (couramment appelé « The SRE Workbook »)
Seeking SRE: Conversations About Running Production Systems at Scale

(Soit dit en passant, l’auteur principal de ce module est l’éditeur du troisième ouvrage)

Chacun de ces ouvrage fournit un ensemble important d’informations :

The SRE Book : (Le livre de la SRE) Fournit une explication détaillée de la façon dont Google a implémenté l’ingénierie de la fiabilité des sites au fil des années.
The SRE Workbook : (Le classeur de la SRE) Un complément de l’ouvrage « The SRE Book » qui fournit non seulement une explication plus détaillée de l’ingénierie de la fiabilité des sites chez Google et dans d’autres organisations, mais aussi le « comment » et le « pourquoi ».
Seeking SRE : (À la recherche de la SRE) Fournit une vue plus étendue du monde de l’ingénierie de la fiabilité des sites au-delà de son origine, notamment des informations sur la façon dont elle a été implémentée dans d’autres environnements.

Veillez à lire ces trois ouvrages avec un œil critique. Tout leur contenu ne s’appliquera pas à vous et à votre organisation. Prenez le temps d’identifier les informations dont vous êtes certain qu’elles peuvent fournir une valeur positive. Réfléchissez aux parties de la culture et des valeurs de votre organisation susceptibles de prendre en charge le travail d’ingénierie de fiabilité de site décrit, et à celles susceptibles de le rendre plus difficile.

Si vous préférez, vous pouvez regarder la vidéo Keys to SRE de Ben Treynor lors de la conférence SREcon14. Treynor fournit une explication convaincante de ce qu’est l’ingénierie de fiabilité de site (du moins dans le contexte de Google). D’autres discussions concernant l’ingénierie de fiabilité de site enregistrées lors de cette série de conférences et d’autres conférences peuvent être également utiles.

Communiquer avec d’autres personnes intéressées

Même si la consultation d’ouvrages sur l’ingénierie de fiabilité de site est importante, il peut souvent être plus important d’en parler avec vos pairs. Discuter de vos problématiques, de vos succès et de vos échecs concernant la SRE peut être essentiel pour acquérir une compréhension nuancée du sujet.

Il existe un certain nombre de rencontres et de conférences qui traitent de SRE. Les plus pertinentes sont sans doute les conférences globales SREcon organisées par USENIX (avertissement : l’auteur principal de ce module est l’un des cofondateurs de SREcon).

De plus en plus de contenu SRE figure dans des conférences telles que Velocity, LISA et les conférences DevOps locales comme DevOps Days. N’hésitez pas à consulter ce contenu et d’autres traitant de ce sujet partout où vous pourrez en trouver.

Premières étapes de travail

Il est important de se rappeler que SRE n’est pas une proposition de type « tout ou rien ». Si vous souhaitez commencer à explorer comment intégrer SRE dans votre environnement, vous pouvez commencer à adopter les principes et les pratiques SRE par petites étapes.

Mikey Dickerson est un ingénieur SRE bien connu en raison de son travail au sein de ce qui allait devenir le United States Digital Service. Ils étaient chargés du sauvetage de healthcare.gov. Il a proposé une hiérarchie de fiabilité en hommage à la hiérarchie des besoins de Maslow. Elle est citée dans la section sur les pratiques du premier ouvrage sur SRE.

Cette hiérarchie stipule qu’il faut tout d’abord que la supervision dans votre environnement soit fonctionnelle et digne de confiance. La supervision doit également être un premier pas vers SRE pour votre environnement. Vous ne pouvez pas savoir si quelque chose est fiable (ou s’améliore ou empire) si vous ne pouvez pas le mesurer.

Une fois que vous avez une plateforme de supervision digne de confiance, l’étape accessible suivante consiste à choisir un service au travail, et à commencer à avoir des conversations sur les SLI (indicateurs de niveau de service) et les SLO (objectifs de niveau de service) à son sujet. Commencez doucement. Créez des indicateurs de niveau de service (SLI) et des objectifs de niveau de service (SLO), implémentez-les dans votre système de surveillance et observez ce qui se passe quand vous commencez à prêter attention à la fiabilité à travers le prisme de la SRE. Ces étapes sont un excellent point de départ.

Bien démarrer avec l’ingénierie de fiabilité de site

Ouvrages et vidéos

Communiquer avec d’autres personnes intéressées

Premières étapes de travail

Commentaires