Documentação de engenharia de fiabilidade do local
A Engenharia de Fiabilidade de Sites é uma disciplina de engenharia dedicada a ajudar uma organização a alcançar, de forma sustentável, o nível de fiabilidade adequado nos seus sistemas, serviços e produtos.
Melhorar a Fiabilidade através de Práticas de Operações Modernas
Recursos de SRE
SRE no Azure
Documentação para SREs
Arquitetura
Aprovisionamento e Entrega
SRE fala a partir da Microsoft
Cultura
- A Evolução da Engenharia de Fiabilidade do Local
- Construindo SRE: Cultura de fora para dentro
- Nuance Cultural e Colaboração Eficaz para Equipas Multiculturais
- Evolução do SRE e Crescente Necessidade de Catalizadores de SRE
- Ciclos de feedback: como os SREs se beneficiam e o que é necessário para realizar seu potencial
- Compreender as Métricas Empresariais pode Torná-lo um SRE Melhor
- A História Interminável da Fiabilidade do Local
- Todos os Dias São Segundas-Feiras nas Operações
Resposta a Incidentes e Análises Pós-incidentes
Monitorização e Observabilidade
- Mais de 600 milhões de membros e centenas de microsserviços: como escalamos nosso sistema de monitoramento para acompanhar
- Fora do caminho batido: movendo o foco da observabilidade do seu serviço para o seu cliente
- Obtém Aquilo Que Mede: Importância das Métricas
- Resistindo à tempestade: como os alertas precoces salvam a fazenda
- Capturar e Analisar Milhões de Consultas Sem Sobrecarga
- Correlação de eventos: uma nova abordagem para reduzir o MTTR
- De Que Forma a Monitorização Avançada Capacita a Elevada Disponibilidade do Feed do LinkedIn
- Reduzindo MTTR e falsos escalonamentos: correlação de eventos no Linkedin
Práticas e Princípios
- Disponibilidade: Pensar além dos 9s
- Modelos Mentais para SREs
- Prioritizar a Confiança ao Criar Aplicações
- Java Odeia Linux. Lide com isso.
- Caraterizar e Compreender as Fases das Práticas de SRE
- Segurança e SRE: Multiplicadores de Força Natural
- Revisão de melhoria da produção: Tirando uma mordida da dívida de reparo
- Garantir a Fiabilidade das Aplicações de Elevado Desempenho
- O Cartão de Classificação do Serviço: Gamificação da Excelência Operacional
- Como Melhorar um Serviço Criticando-o
Equipas e Gestão
- Code-Yellow: Ajudando as equipes de operações pesadas da maneira inteligente
- Liderar sem gerenciar: Tornando-se um líder técnico SRE
- Diferenças nas Implementações de SRE nas Empresas
- 100 Equipas, 100 Formas de Falhar
- Porquê, O Quê e Como Iniciar um Compromisso de SRE
- Criar e Lidar com Equipas de SRE
- Estudante universitário para SRE: Integrando seu talento de nível de entrada
- LinkedIn SRE: do início à escala global
- Unir Sequências de ADN SRE na Maior Empresa de Software do Planeta
- Transformar Lagartas de Escalão 1 em Borboletas
Ferramentas e Tecnologias
- Azure SREBot: Mais do que um chatbot — um bot inteligente para esmagar o tempo de mitigação
- TrafficShift: Evitando desastres em escala
- Criar um Sistema de Ficheiros Distribuído
- TCP: Arquitetura, Melhoramentos e Otimização
- BGP: a Espinha Dorsal da Internet
- Operações Sem Servidor
- Como Utilizámos o Kafka para Dimensionar a Infraestrutura de Base de Dados
- Redes para SREs: o que eu preciso saber para solucionar problemas de aplicativos
- Ambry: Loja de Objetos Imutável Distribuída do LinkedIn
- BPerf: Criação de Perfis em Produção na Cloud do Bing.com
- DNS: Solução antiga para problemas modernos
- Orientação do Tráfego com Rum DNS @ LinkedIn
Dimensionamento
- Infraestrutura de Testes de Stress e Previsão de Tráfego
- Aprender em Escala É Difícil! Análise de Padrões de Indisponibilidade e Dados Não Consolidados
- Dimensionamento de um sistema distribuído com estado: um estudo de caso do LinkedIn
- Depuração em Escala: de Caixa Única à Produção
- Criar uma Infraestrutura de Colocação em Cache Centralizada em Escala
- Codificação Dimensionável: Encontrar o Erro
- Capacidade de Gestão @ LinkedIn
- InStream: Distribuição em larga escala usando BitTorrent, Python, Salt e Kafka
- Evitar e Sair da Prisão de Capacidade
- A Evolução do Encaminhamento Global de Tráfego e Ativação Pós-falha