Documentação da engenharia de confiabilidade de sites
A engenharia de confiabilidade de site é uma disciplina de engenharia dedicada a ajudar uma organização a alcançar de maneira sustentável o nível de confiabilidade apropriado em sistemas, serviços e produtos.
Como aprimorar a confiabilidade por meio de práticas de operações modernas
SRE no Azure
Documentação de SREs
Arquitetura
Provisionamento e entrega
Palestras da Microsoft sobre SRE
Cultura
- A evolução da engenharia de confiabilidade de sites
- Como criar a SRE: cultura de fora para dentro
- Nuance cultural e colaboração efetiva para equipes multiculturais
- Evolução da SRE e a crescente necessidade de catalizadores de SRE
- Loops de comentários: qual o benefício dos SREs e o que é necessário para concretizar o potencial deles
- Entender as métricas de negócios pode tornar você um SRE melhor
- A história sem fim da confiabilidade de sites
- Todo dia é segunda-feira nas operações
Monitoramento e observabilidade
- Mais de 600 milhões de membros e centenas de microsserviços: como dimensionamos nosso sistema de monitoramento para mantê-lo atualizado
- Fora do convencional: como passar o foco da observabilidade do seu serviço para o cliente
- Você obtém o que mede: por que as métricas são importantes
- Superação de crises: como os avisos antecipados salvam o patrimônio
- Captura e análise de milhões de consultas sem nenhuma sobrecarga
- Correlação de eventos: uma nova abordagem de redução do MTTR
- Como o monitoramento robusto capacita a alta disponibilidade para o feed do LinkedIn
- Redução do MTTR e de escalonamentos falsos: correlação de eventos no LinkedIn
Práticas e princípios
- Disponibilidade: como pensar além dos noves
- Modelos mentais para SREs
- Como priorizar a confiança durante a criação de aplicativos
- O Java odeia o Linux. Lide com isso.
- Como caracterizar e entender as fases das práticas de SRE
- Segurança e SRE: multiplicadores de força natural
- Revisão da melhoria da produção: como acabar com a dívida de reparo
- Garantia da confiabilidade de aplicativos de alto desempenho
- O cartão de pontuação de serviço: como transformar a excelência operacional em um jogo
- Como aprimorar um serviço criticando-o
Equipes e gerenciamento
- Emergência interna: como ajudar as equipes de operações de alto nível de maneira inteligente
- Liderança sem gerenciamento: como se tornar um líder técnico de SRE
- Diferenças nas implementações de SRE entre empresas
- 100 equipes, 100 maneiras de fracassar
- O "por quê", o "o quê" e o "como" do começo de uma participação com a SRE
- Como criar e administrar equipes de SRE
- De aluno universitário a SRE: como integrar seu talento iniciante
- SRE do LinkedIn: do início a uma escala global
- Como entrelaçar sequências de DNA de SRE na maior empresa de software do planeta
- Como transformar lagartas da camada 1 em borboletas
Ferramentas e tecnologias
- Azure SREBot: mais do que um chatbot – um bot inteligente para acabar com o tempo de mitigação
- TrafficShift: prevenção de desastres em escala
- Vamos criar um Sistema de Arquivos Distribuído
- TCP: arquitetura, melhorias e ajuste
- BGP: o backbone da Internet
- As operações em modelos sem servidor
- Como usamos o Kafka para dimensionar a infraestrutura do banco de dados
- Redes para SREs: o que é preciso saber para solucionar problemas de aplicativos
- Ambry: repositório distribuído de objetos imutáveis do LinkedIn
- BPerf: criação de perfil de nuvem do Bing.com em produção
- DNS: solução antiga para problemas modernos
- Gestão de tráfego com o Rum DNS no LinkedIn
Scaling
- Previsão de tráfego e infraestrutura do teste de estresse
- O aprendizado em escala é difícil! Análise de padrões de interrupção e dados sujos
- Como dimensionar um sistema com estado distribuído: um estudo de caso do LinkedIn
- Depuração em escala: como migrar de caixa única para produção
- Como criar uma infraestrutura de cache centralizada em escala
- Codificação escalonável: localizar o erro
- Como gerenciar a capacidade no LinkedIn
- InStream: distribuição em grande escala usando o BitTorrent, o Python, o Salt e o Kafka
- Como evitar e livrar-se da prisão da capacidade
- A evolução do roteamento de tráfego global e do failover