Documentação de engenharia de fiabilidade do local

A Engenharia de Fiabilidade de Sites é uma disciplina de engenharia dedicada a ajudar uma organização a alcançar, de forma sustentável, o nível de fiabilidade adequado nos seus sistemas, serviços e produtos.

video

Introdução ao SRE: O que é SRE? (1/3)

video

Introdução à SRE: Princípios e Práticas Fundamentais (2/3)

video

Introdução ao SRE: Como começar (3/3)

SRE no Azure

Documentação para SREs

Arquitetura

Well-Architected Framework do Microsoft Azure
Guia da Arquitetura de Aplicações no Azure
Arquiteturas de referência e cargas de trabalho de exemplo
Framework de Adoção do Microsoft Cloud para o Azure
Criar Microsserviços no Azure
Guia da Arquitetura de Dados do Azure
Melhores Práticas da Cloud
Conceber aplicações do Azure fiáveis
Padrões de Conceção de Nuvem
Azure para Profissionais de AWS
Azure para Profissionais do GCP
Afinação de Desempenho
Veja mais no Centro de Arquitetura do Azure

Monitorização

Descrição geral do Azure Monitor
Métricas com o Azure Monitor
Registos com o Azure Monitor
Gestão de Desempenho de Aplicações com o Application Insights
Rastreio Distribuído com o Azure Monitor
Saiba mais sobre o Azure Monitor

Aprovisionamento e Entrega

Azure Resource Manager
Terraform no Azure
GitHub Actions
Azure Pipelines

Dimensionamento

Descrição geral do dimensionamento automático
Orientações sobre o dimensionamento automático
Desenvolvimento para Dimensionamento Automático
Descrição geral do pilar de eficácia do desempenho
Estruturar para aumentar horizontalmente
Padrões de fiabilidade

SRE fala a partir da Microsoft

Cultura

A Evolução da Engenharia de Fiabilidade do Local
Construindo SRE: Cultura de fora para dentro
Nuance Cultural e Colaboração Eficaz para Equipas Multiculturais
Evolução do SRE e Crescente Necessidade de Catalizadores de SRE
Ciclos de feedback: como os SREs se beneficiam e o que é necessário para realizar seu potencial
Compreender as Métricas Empresariais pode Torná-lo um SRE Melhor
A História Interminável da Fiabilidade do Local
Todos os Dias São Segundas-Feiras nas Operações

Resposta a Incidentes e Análises Pós-incidentes

Construindo resiliência: como aprender mais com os incidentes
Um Conto de Dois Postmortems: Uma Visão de Fatores Humanos
Ironias da automação: uma comédia em três partes
Contra o plantão: uma polêmica
SRE Pessoal

Monitorização e Observabilidade

Mais de 600 milhões de membros e centenas de microsserviços: como escalamos nosso sistema de monitoramento para acompanhar
Fora do caminho batido: movendo o foco da observabilidade do seu serviço para o seu cliente
Obtém Aquilo Que Mede: Importância das Métricas
Resistindo à tempestade: como os alertas precoces salvam a fazenda
Capturar e Analisar Milhões de Consultas Sem Sobrecarga
Correlação de eventos: uma nova abordagem para reduzir o MTTR
De Que Forma a Monitorização Avançada Capacita a Elevada Disponibilidade do Feed do LinkedIn
Reduzindo MTTR e falsos escalonamentos: correlação de eventos no LinkedIn

Práticas e Princípios

Disponibilidade: Pensar além dos 9s
Modelos Mentais para SREs
Prioritizar a Confiança ao Criar Aplicações
Java Odeia Linux. Lide com isso.
Caraterizar e Compreender as Fases das Práticas de SRE
Segurança e SRE: Multiplicadores de Força Natural
Revisão de melhoria da produção: Tirando uma mordida da dívida de reparo
Garantir a Fiabilidade das Aplicações de Elevado Desempenho
O Cartão de Classificação do Serviço: Gamificação da Excelência Operacional
Como Melhorar um Serviço Criticando-o

Equipas e Gestão

Code-Yellow: Ajudando as equipes de operações pesadas da maneira inteligente
Liderar sem gerenciar: Tornando-se um líder técnico SRE
Diferenças nas Implementações de SRE nas Empresas
100 Equipas, 100 Formas de Falhar
Porquê, O Quê e Como Iniciar um Compromisso de SRE
Criar e Lidar com Equipas de SRE
Estudante universitário para SRE: Integrando seu talento de nível de entrada
LinkedIn SRE: do início à escala global
Unir Sequências de ADN SRE na Maior Empresa de Software do Planeta
Transformar Lagartas de Escalão 1 em Borboletas

Ferramentas e Tecnologias

Azure SREBot: Mais do que um chatbot — um bot inteligente para esmagar o tempo de mitigação
TrafficShift: Evitando desastres em escala
Criar um Sistema de Ficheiros Distribuído
TCP: Arquitetura, Melhoramentos e Otimização
BGP: a Espinha Dorsal da Internet
Operações Sem Servidor
Como Utilizámos o Kafka para Dimensionar a Infraestrutura de Base de Dados
Redes para SREs: o que eu preciso saber para solucionar problemas de aplicativos
Ambry: Loja de Objetos Imutável Distribuída do LinkedIn
BPerf: Criação de Perfis em Produção na Cloud do Bing.com
DNS: Solução antiga para problemas modernos
Orientação do Tráfego com Rum DNS @ LinkedIn

Dimensionamento

Infraestrutura de Testes de Stress e Previsão de Tráfego
Aprender em Escala É Difícil! Análise de Padrões de Indisponibilidade e Dados Não Consolidados
Dimensionamento de um sistema distribuído com estado: um estudo de caso do LinkedIn
Depuração em Escala: de Caixa Única à Produção
Criar uma Infraestrutura de Colocação em Cache Centralizada em Escala
Codificação Dimensionável: Encontrar o Erro
Capacidade de Gestão @ LinkedIn
InStream: Distribuição em grande escala usando BitTorrent, Python, Salt e Kafka
Evitar e Sair da Prisão de Capacidade
A Evolução do Encaminhamento Global de Tráfego e Ativação Pós-falha

Documentação de engenharia de fiabilidade do local

Melhorar a Fiabilidade através de Práticas de Operações Modernas

Cursos online de SRE

Recursos de SRE

SRE no Azure

SRE fala a partir da Microsoft