Dokumentace ke SRE (Site Reliability Engineering)
Technika pro spolehlivost webů (SRE) je technická disciplína, která pomáhá organizaci udržitelně dosahovat odpovídající úrovně spolehlivosti jejích systémů, služeb a produktů.
Zlepšení spolehlivosti prostřednictvím moderních provozních postupů
Zdroje informací pro SRE
SRE v Azure
Dokumentace pro SRE
Architektura
Zřizování a doručování
Microsoft hovoří o SRE
Kultura
- Evoluce SRE (Site Reliability Engineering)
- Building SRE: Culture from the Outside In
- Cultural Nuance and Effective Collaboration for Multicultural Teams
- Evolution of SRE and Rising Need of SRE Catalyzers
- Smyčky zpětné vazby: Jak sres benefit a co je potřeba k realizaci jejich potenciálu
- Understanding Business Metrics Can Make You a Better SRE
- The Never-Ending Story of Site Reliability
- Every Day Is Monday in Operations
Incident Response and Post-Incident Reviews
Monitorování a pozorovatelnost
- Více než 600 milionů členů a stovek mikroslužeb: Jak jsme škálovali náš monitorovací systém tak, aby zůstal vzhůru
- Off the Beaten Path: Moving Observability Focus from Your Service to Your Customer
- You Get What You Measure—Why Metrics Are Important
- Weathering the Storm: How Early Warnings Save the Farm
- Capturing and Analyzing Millions of Queries without Any Overhead
- Korelace událostí: Nový přístup ke snížení MTTR
- How Robust Monitoring Powers High Availability for LinkedIn Feed
- Omezení MTTR a nepravdivé eskalace: Korelace událostí na Linkedinu
Postupy a principy
- Availability—Thinking beyond 9s
- Mental Models for SREs
- Prioritizing Trust While Creating Applications
- Java Hates Linux. Deal with It.
- Characterizing and Understanding Phases of SRE Practices
- Zabezpečení a SRE: Přírodní násobitele sil
- Revize zlepšení výroby: vysunutí z opravy dluhu
- Ensuring Reliability of High-Performance Applications
- The Service Score Card—Gamifying Operational Excellence
- How to Improve a Service by Roasting It
Týmy a správa
- Žlutá kód: Inteligentní způsob, jak pomáhat provozním týmům s nejvyšším zatížením
- Vedení bez správy: Stát se technickým vedoucím oddělením SRE
- Differences in SRE Implementations across Companies
- 100 Teams, 100 Ways to Fail
- The Why, What, and How of Starting an SRE Engagement
- Vytvoření a spuštění projektu
- Student vysoké školy s SRE: Onboarding vašeho vstupního talentu
- LinkedIn SRE: Od inceptionu do globálního škálování
- Splicing SRE DNA Sequences in the Biggest Software Company on the Planet
- Transforming Tier 1 Caterpillars to Butterflies
Nástroje a technologie
- Azure SREBot: Více než chatbot – inteligentní robot, který rozdrtí čas zmírnění rizik
- TrafficShift: Zabránění katastrofám ve velkém měřítku
- Let's Build a Distributed File System
- TCP—Architecture, Enhancements, and Tuning
- BGP—The Backbone of the Internet
- The Ops in Serverless
- How We Used Kafka to Scale Database Infrastructure
- Sítě pro srEs: Co potřebuji vědět pro řešení potíží s aplikacemi
- Ambry—LinkedIn’s Distributed Immutable Object Store
- BPerf—Bing.com Cloud Profiling on Production
- DNS: Staré řešení moderních problémů
- Traffic Steering using Rum DNS @ LinkedIn
Škálování
- Traffic Forecasting and Stress Testing Infrastructure
- Learning at Scale Is Hard! Outage Pattern Analysis and Dirty Data
- Škálování distribuovaného stavového systému: Případová studie LinkedIn
- Debugging at Scale—Going from Single Box to Production
- Building Centralized Caching Infrastructure at Scale
- Scalable Coding—Find the Error
- Managing Capacity @ LinkedIn
- InStream: Distribuce ve velkém měřítku pomocí BitTorrentu, Pythonu, Saltu a Kafka
- Avoiding and Breaking Out of Capacity Prison
- The Evolution of Global Traffic Routing and Failover