Documentação da engenharia de confiabilidade de sites

A engenharia de confiabilidade de site é uma disciplina de engenharia dedicada a ajudar uma organização a alcançar de maneira sustentável o nível de confiabilidade apropriado em sistemas, serviços e produtos.

video

Introdução à SRE: o que é a SRE? (1/3)

video

Introdução à SRE: princípios e práticas fundamentais (2/3)

video

Introdução à SRE: como começar a usá-la (3/3)

SRE no Azure

Documentação de SREs

Arquitetura

Estrutura Bem Projetada do Microsoft Azure
Guia de arquitetura do Aplicativo Azure
Arquiteturas de referência e cargas de trabalho de exemplo
Microsoft Cloud Adoption Framework para o Azure
Como criar microsserviços no Azure
Guia de Arquitetura de Dados do Azure
Práticas recomendadas da nuvem
Como desenvolver aplicativos do Azure confiáveis
Padrões de Design de Nuvem
Azure para profissionais do AWS
Azure para profissionais do GCP
Ajuste de desempenho
Veja mais no Centro de Arquitetura do Azure

Monitoramento

Visão geral do Azure Monitor
Métricas com o Azure Monitor
Logs com o Azure Monitor
Gerenciamento de desempenho de aplicativos com o Application Insights
Rastreamento distribuído com o Azure Monitor
Veja mais sobre o Azure Monitor

Provisionamento e entrega

Azure Resource Manager
Terraform no Azure
GitHub Actions
Azure Pipelines

Scaling

Visão geral do dimensionamento automático
Diretrizes de dimensionamento automático
Desenvolvimento para dimensionamento automático
Visão geral do pilar de eficiência de desempenho
Design para escalar horizontalmente
Padrões de confiabilidade

Palestras da Microsoft sobre SRE

Cultura

A evolução da engenharia de confiabilidade de sites
Como criar a SRE: cultura de fora para dentro
Nuance cultural e colaboração efetiva para equipes multiculturais
Evolução da SRE e a crescente necessidade de catalizadores de SRE
Loops de comentários: qual o benefício dos SREs e o que é necessário para concretizar o potencial deles
Entender as métricas de negócios pode tornar você um SRE melhor
A história sem fim da confiabilidade de sites
Todo dia é segunda-feira nas operações

Resposta a incidentes e revisões pós-incidente

Criação de resiliência: como aprender mais com os incidentes
Um relato sobre dois relatórios finais: uma visão de fatores humanos
Ironias da automação: uma comédia em três partes
Contra o plantão: uma polêmica
SRE entre duas pessoas

Monitoramento e observabilidade

Mais de 600 milhões de membros e centenas de microsserviços: como dimensionamos nosso sistema de monitoramento para mantê-lo atualizado
Fora do convencional: como passar o foco da observabilidade do seu serviço para o cliente
Você obtém o que mede: por que as métricas são importantes
Superação de crises: como os avisos antecipados salvam o patrimônio
Captura e análise de milhões de consultas sem nenhuma sobrecarga
Correlação de eventos: uma nova abordagem de redução do MTTR
Como o monitoramento robusto capacita a alta disponibilidade para o feed do LinkedIn
Redução do MTTR e de escalonamentos falsos: correlação de eventos no LinkedIn

Práticas e princípios

Disponibilidade: como pensar além dos noves
Modelos mentais para SREs
Como priorizar a confiança durante a criação de aplicativos
O Java odeia o Linux. Lide com isso.
Como caracterizar e entender as fases das práticas de SRE
Segurança e SRE: multiplicadores de força natural
Revisão da melhoria da produção: como acabar com a dívida de reparo
Garantia da confiabilidade de aplicativos de alto desempenho
O cartão de pontuação de serviço: como transformar a excelência operacional em um jogo
Como aprimorar um serviço criticando-o

Equipes e gerenciamento

Emergência interna: como ajudar as equipes de operações de alto nível de maneira inteligente
Liderança sem gerenciamento: como se tornar um líder técnico de SRE
Diferenças nas implementações de SRE entre empresas
100 equipes, 100 maneiras de fracassar
O "por quê", o "o quê" e o "como" do começo de uma participação com a SRE
Como criar e administrar equipes de SRE
De aluno universitário a SRE: como integrar seu talento iniciante
SRE do LinkedIn: do início a uma escala global
Como entrelaçar sequências de DNA de SRE na maior empresa de software do planeta
Como transformar lagartas da camada 1 em borboletas

Ferramentas e tecnologias

Azure SREBot: mais do que um chatbot – um bot inteligente para acabar com o tempo de mitigação
TrafficShift: prevenção de desastres em escala
Vamos criar um Sistema de Arquivos Distribuído
TCP: arquitetura, melhorias e ajuste
BGP: o backbone da Internet
As operações em modelos sem servidor
Como usamos o Kafka para dimensionar a infraestrutura do banco de dados
Redes para SREs: o que é preciso saber para solucionar problemas de aplicativos
Ambry: repositório distribuído de objetos imutáveis do LinkedIn
BPerf: criação de perfil de nuvem do Bing.com em produção
DNS: solução antiga para problemas modernos
Gestão de tráfego com o Rum DNS no LinkedIn

Scaling

Previsão de tráfego e infraestrutura do teste de estresse
O aprendizado em escala é difícil! Análise de padrões de interrupção e dados sujos
Como dimensionar um sistema com estado distribuído: um estudo de caso do LinkedIn
Depuração em escala: como migrar de caixa única para produção
Como criar uma infraestrutura de cache centralizada em escala
Codificação escalonável: localizar o erro
Como gerenciar a capacidade no LinkedIn
InStream: distribuição em grande escala usando o BitTorrent, o Python, o Salt e o Kafka
Como evitar e livrar-se da prisão da capacidade
A evolução do roteamento de tráfego global e do failover

Documentação da engenharia de confiabilidade de sites

Como aprimorar a confiabilidade por meio de práticas de operações modernas

Cursos online da SRE

Recursos da SRE

SRE no Azure

Palestras da Microsoft sobre SRE