Documentatie voor Sitebetrouwbaarheidsengineering
Site Reliability Engineering is een technisch vakgebied dat zich richt op het ondersteunen van organisaties om op duurzame wijze een adequaat betrouwbaarheidsniveau te realiseren in hun systemen, services en producten.
Betrouwbaarheid verbeteren door moderne operationele praktijken
SRE in Azure
Documentatie voor SRE's
Architectuur
Inrichting en levering
SRE-lezingen van Microsoft
Cultuur
- De evolutie van de sitebetrouwbaarheidsengineering
- Building SRE: Cultuur van buiten In
- Culturele nuance en efficiënte samenwerking voor multiculturele teams
- Evolutie van SRE en toenemende behoefte aan SRE-katalisatoren
- Feedbacklussen: hoe SRE's profiteren en wat er nodig is om hun potentieel te realiseren
- Met inzicht in zakelijke metrische gegevens maakt u een betere SRE
- Het eindeloze verhaal van sitebetrouwbaarheid
- Elke dag is maandag in operationele werkzaamheden
Reacties op incidenten en beoordelingen na incidenten
Bewaking en waarneembaarheid
- Meer dan 600 miljoen leden en honderden microservices: hoe we ons bewakingssysteem hebben geschaald om bij te blijven
- Buiten het gebaande pad: focus verplaatsen van waarneembaarheid van uw service naar uw klant
- U krijgt wat u meet. Waarom metrische gegevens belangrijk zijn
- Het weer van de storm: Hoe vroege waarschuwingen de farm opslaan
- Miljoenen query's vastleggen en analyseren zonder overhead
- Gebeurteniscorrelatie: Een nieuwe benadering voor het verminderen van MTTR
- Hoe robuuste bewaking hoge beschikbaarheid mogelijk maakt voor de LinkedIn-feed
- MTTR- en onwaar-escalaties verminderen: Correlatie van gebeurtenissen op Linkedin
Procedures en principes
- Beschikbaarheid: verder denken dan 9's
- Mentale modellen voor SRE's
- Prioriteit geven aan vertrouwen tijden het maken van toepassingen
- Java haat Linux. Wen er maar aan.
- Fases van SRE-praktijken uitleggen en begrijpen
- Beveiliging en SRE: Vermenigvuldigers van natuurlijke kracht
- Beoordeling van productieverbetering: een hapje nemen uit reparatieschuld
- Zorgen voor betrouwbaarheid voor toepassingen met hoge prestaties
- De servicescorekaart: operationele uitmuntendheid gamificeren
- Een service verbeteren door het af te branden
Teams en beheer
- Codegeel: Helpen van top-zware teams voor bewerkingen op de slimme manier
- Leiden zonder beheren: een technisch leider van SRE worden
- Verschillen in SRE-implementaties tussen bedrijven
- 100 teams, 100 manieren om te mislukken
- Het waarom, wat en hoe van SRE-betrokkenheid beginnen
- SRE-teams bouwen en begeleiden
- College Student naar SRE: Onboarding Your Entry Level Talent
- LinkedIn SRE: Van begin tot wereldwijde schaal
- DNA-reeksen van SRE splitsen in het grootste softwarebedrijf ter wereld
- De beste rupsen veranderen in vlinders
Hulpprogramma's en technologieën
- Azure SREBot: Meer dan een chatbot: een intelligente bot om de beperkingstijd te verpletteren
- TrafficShift: Rampen op schaal voorkomen
- Laten we een gedistribueerd bestandssysteem bouwen
- TCP: architectuur, verbeteringen en afstemming
- BGP: de ruggengraat van het internet
- De operationele werkzaamheden in serverloos
- Hoe we Kafka hebben gebruikt om database-infrastructuur te schalen
- Netwerken voor SRE's: Wat moet ik weten voor het oplossen van problemen met toepassingen
- Ambry: het gedistribueerde onveranderbare objectarchief van LinkedIn
- BPerf: Bing.com-profilering voor productie in de Cloud
- DNS: Oude oplossing voor moderne problemen
- Verkeer sturen met Rum DNS @ LinkedIn
Schalen
- Prognoses maken voor verkeer en stresstests maken voor infrastructuur
- Leren op schaal is moeilijk! Analyse van uitvalpatronen en vuile gegevens
- Een gedistribueerd stateful systeem schalen: een LinkedIn-casestudy
- Foutopsporing op schaal: van één vak tot productie
- Gecentraliseerde chaching-infrastructuur op schaal bouwen
- Schaalbare codering: de fout zoeken
- Capaciteit beheren @ LinkedIn
- InStream: Grootschalige distributie met BitVolume, Python, Salt en Kafka
- Capaciteitsbeperkingen vermijden en doorbreken
- De evolutie van wereldwijde verkeersrouteplanning en failovers