Introdução ao SRE

Concluído

Uma vez que esta é a unidade final neste módulo, vamos abordar que caminhos pode seguir se estiver interessado em explorar a SRE.

Ler e observar

Para obter informações mais detalhadas sobre a SRE, recomendamos três livros que foram publicados sobre este tema

  1. Site Reliability Engineering: How Google Runs Production Systems (conhecido como “O Manual de SRE”)
  2. The Site Reliability Workbook: Practical Ways to Implement SRE (conhecido como “O Livro de SRE”)
  3. Seeking SRE: Conversations About Running Production Systems at Scale

(Como uma apresentação rápida, o autor principal deste módulo é o curador/editor do terceiro livro)

Cada um destes livros fornece um conjunto importante de informações:

  • The SRE Book: fornece uma explicação detalhada de como o Google implementou o SRE ao longo dos anos.

  • The SRE Workbook: Um complemento para The SRE Book que fornece uma explicação mais detalhada não apenas do "quê" do SRE no Google e em alguns outros lugares, mas do "como" e "por quê".

  • Buscando SRE: Fornece uma visão mais abrangente do mundo SRE além de sua origem, incluindo informações sobre como ele foi implementado em outros ambientes.

Não se esqueça de ler estes três livros com um olhar crítico. Nem tudo o que está escrito nestes livros pode aplicar-se a si e à sua organização. Reserve algum tempo para identificar as informações que você tem certeza de que podem fornecer algum valor positivo. Pense nas partes da cultura e dos valores da sua organização que podem suportar o trabalho de SRE conforme descrito e que o poderão tornar mais desafiador.

Se você achar que é mais uma pessoa visual, tente assistir à palestra Keys to SRE de Ben Treynor na conferência SREcon14. Treynor fornece uma explicação convincente do que é SRE (pelo menos no contexto do Google). Outras palestras gravadas sobre SRE desta série de conferências e outras também podem ser úteis.

Falar com outras pessoas interessadas

Tão importante como ler sobre a SRE, falar com os seus colegas pode ser ainda mais importante. Ter uma discussão sobre seus desafios, sucessos e fracassos em torno do SRE pode ser crucial para obter uma compreensão diferenciada do assunto.

Há muitos encontros e conferências que apresentam conteúdo SRE. Talvez os mais relevantes sejam as conferências SREcon distribuídas globalmente e divulgadas pela USENIX (isenção de responsabilidade: o autor principal deste módulo é um dos cofundadores do SREcon).

Ainda mais conteúdo SRE está chegando a conferências como Velocity, LISA e conferências locais de DevOps, como DevOps Days. Tente procurar conteúdo relacionado e outras pessoas interessadas no assunto, sempre que possível.

Primeiros passos no trabalho

É importante lembrar que o SRE não é uma proposta de "tudo ou nada". Se você quiser começar a explorar como trazer o SRE para o seu ambiente, você pode começar a adotar os princípios e práticas do SRE em pequenos passos.

Mikey Dickerson é um SRE bem conhecido com base em seu trabalho no que viria a ser o Serviço Digital dos Estados Unidos. Eles foram responsáveis por salvar healthcare.gov. Ele propôs uma hierarquia de confiabilidade em homenagem à hierarquia de necessidades de Maslow. É citado na seção Práticas do primeiro livro SRE.

Essa hierarquia propõe que você deve primeiro obter monitoramento funcional e confiável em seu ambiente. O monitoramento deve ser um primeiro passo para o SRE para o seu ambiente também. Não será possível dizer se algo é de confiança (ou se está ou não a melhorar) se não for possível fazer uma avaliação.

Depois de ter uma plataforma de monitoramento em que possa confiar, o próximo passo acessível é escolher um serviço no trabalho. Então, comece a ter conversas SLI e SLO sobre isso. Não complique. Crie SLIs e SLOs para o serviço, implemente-os em seu sistema de monitoramento e veja o que acontece quando você começa a prestar atenção à confiabilidade usando a lente SRE. Estas etapas são um ótimo lugar para começar.