Dokumentation zum Websitezuverlässigkeits-Engineering (Site Reliability Engineering, SRE)
Beim Site Reliability Engineering (SRE) handelt es sich um einen Aufgabenbereich des Engineering, der Organisationen dabei unterstützen soll, auf nachhaltige Weise einen angemessenen Grad an Zuverlässigkeit für ihre Systeme, Dienste und Produkte zu erreichen.
Verbessern der Zuverlässigkeit durch moderne Vorgehensweisen beim Betrieb
SRE in Azure
Dokumentation zu SRE
Aufbau
Bereitstellung und Lieferung
SRE-Vorträge von Microsoft
Kultur
- Entwicklung des Websitezuverlässigkeits-Engineerings (Site Reliability Engineering, SRE)
- Aufbau von SRE: Kultureller Ansatz „von außen nach innen“
- Kulturelle Feinheiten und effektive Zusammenarbeit für multikulturelle Teams
- Entwicklung von SRE und steigender Bedarf an SRE-Katalysatoren
- Feedbackschleifen: Vorteile von SRES und was erforderlich ist, um das Potenzial auszuschöpfen
- Besseres SRE durch Kenntnis der Geschäftsmetriken
- Die unendliche Geschichte der Websitezuverlässigkeit
- Beim Betrieb ist jeder Tag ein Montag
Überwachung und Einblick
- Über 600 Millionen Mitglieder und Hunderte von Mikrodiensten: Wie wir unser Überwachungssystem skaliert haben, um auf dem Laufenden zu bleiben
- Abseits bekannter Pfade: Verlagern der Gewinnung von Einblicken von Ihrem Dienst auf Ihren Kunden
- „You Get What You Measure“: Wichtigkeit von Metriken
- Den Sturm überstehen: Rettung durch frühzeitige Warnungen
- Erfassen und Analysieren von Millionen von Abfragen ohne Mehraufwand
- Korrelation von Ereignissen: ein neuer Ansatz zur MTTR-Reduzierung
- Hochverfügbarkeit für LinkedIn-Feed durch stabile Überwachung
- Reduzieren von MTTR und falscher Eskalationen: Korrelation von Ereignissen bei LinkedIn
Vorgehensweisen und Grundlagen
- Verfügbarkeit: Mehr als nur eine bestimmte Anzahl von Neunen
- Denkmodelle für SRE
- Vorrang für Vertrauenswürdigkeit beim Erstellen von Anwendungen
- Java hasst Linux. Finden Sie Lösungen.
- Charakterisieren und Verstehen der Phasen von SRE-Methoden
- Sicherheit und SRE: Natürliche Multiplikatoren
- Überprüfung zur Verbesserung der Produktion: Reparaturkosten in den Griff bekommen
- Sicherstellen der Zuverlässigkeit von Hochleistungsanwendungen
- Score Card für Dienste: Gamifizierung des optimalen Betriebs
- Verbessern eines Diensts per „Roasting“
Teams und Verwaltung
- Code-Gelb: Intelligentes Unterstützen von kopflastigen Betriebsteams
- Führen ohne Management: Wie sie ein SRE Technical Leader werden
- Unterschiede bei SRE-Implementierungen in Unternehmen
- 100 Teams, 100 Möglichkeiten für Fehler
- Starten eines SRE-Projekts: Warum/Was/Wie?
- Aufbauen und Leiten von SRE-Teams
- Studenten von SRE: Einarbeitung Ihrer Talente
- LinkedIn SRE: Vom Projektbeginn bis zur globalen Nutzung
- Zusammenführen von SRE-DNA-Sequenzen im weltweit größten Softwareunternehmen
- Ebene 1: Von der Raupe zum Schmetterling
Tools und Technologien
- Azure SREBot: Mehr als ein Chatbot: Intelligenter Bot zur Verkürzung der Lösungsdauer
- TrafficShift: Notfälle im großen Stil vermeiden
- Entwickeln eines verteilten Dateisystems
- TCP: Architektur, Erweiterungen und Optimierung
- BGP: Rückgrat des Internets
- Vorgänge beim serverlosen Ansatz
- Beschreibung der Verwendung von Kafka zum Skalieren der Datenbankinfrastruktur
- Networks für SREs: Erforderliche Kenntnisse für die Problembehandlung bei Anwendungen
- Ambry: LinkedIn-Speicher für verteilte unveränderliche Objekte
- BPerf: Bing.com-Cloudprofilerstellung in der Produktion
- DNS: Alte Lösung für moderne Probleme
- Steuern des Datenverkehrs per „Rum DNS @ LinkedIn“
Skalierung
- Infrastruktur für Datenverkehrsprognosen und Belastungstests
- Lernen im großen Stil ist schwierig! Analyse von Ausfallmustern und „Dirty Data“
- Skalieren eines verteilten zustandsbehafteten Systems: eine LinkedIn-Fallstudie
- Debuggen im großen Stil: Umstellung von der Einzelbox auf die Produktion
- Bedarfsgerechtes Entwickeln einer zentralen Infrastruktur für die Zwischenspeicherung
- Skalierbare Codierung: Ermitteln des Fehlers
- Verwalten der Kapazität bei LinkedIn
- InStream: Verteilung per BitTorrent, Python, Salt und Kafka im großen Stil
- Vermeiden und Ausbrechen aus dem Kapazitätsgefängnis
- Entwicklung des Routings von globalem Datenverkehr und von Failovern