Dokumentacja inżynierii niezawodności lokacji
Inżynieria niezawodności lokacji to dyscyplina poświęcona pomaganiu organizacji w trwałym osiągnięciu odpowiedniego poziomu niezawodności w zakresie systemów, usług i produktów.
Zwiększanie niezawodności dzięki nowoczesnym rozwiązaniom dotyczącym operacji
Kursy online z zakresu inżynierii niezawodności lokacji
Zasoby dotyczące inżynierii niezawodności lokacji
Inżynieria niezawodności lokacji na platformie Azure
Dokumentacja dla inżynierów niezawodności lokacji
Architektura
Aprowizowanie i dostarczanie
Wykłady na temat inżynierii niezawodności lokacji od firmy Microsoft
Kultura
- Ewolucja inżynierii niezawodności lokacji
- Kompilowanie SRE: kultura z zewnątrz w
- Niuanse kulturowe i efektywna współpraca zespołów wielokulturowych
- Ewolucja inżynierii niezawodności lokacji i rosnące zapotrzebowanie na osoby katalizujące inżynierię niezawodności lokacji
- Pętle opinii: jak korzyści ze sprzężeń ściągnięć i jakie elementy są potrzebne do realizacji ich potencjału
- Dzięki poznaniu metryk biznesowych możesz stać się lepszym inżynierem niezawodności lokacji
- Niekończąca się opowieść niezawodności lokacji
- W dziale operacji codziennie jest poniedziałek
Reagowanie na zdarzenia i przeglądy po zdarzeniach
Monitorowanie i wgląd
- Ponad 600 milionów członków i setki mikrousług: jak skalowaliśmy nasz system monitorowania, aby nadążyć
- Poza pobitą ścieżką: przenoszenie fokusu obserwacji z twojej usługi do klienta
- Znasz to, co mierzysz — dlaczego metryki są ważne
- Weathering the Storm: How Early Warnings Save the Farm
- Przechwytywanie i analizowanie milionów zapytań bez narzutu
- Korelacja zdarzeń: nowe podejście do zmniejszania mtTR
- Jak niezawodne monitorowanie zapewnia wysoką dostępność dla kanału informacyjnego LinkedIn
- Zmniejszenie liczby eskalacji MTTR i false: korelacja zdarzeń w serwisie Linkedin
Rozwiązania i reguły
- Dostępność — myślenie nie tylko o dziewiątkach
- Modele mentalne dla inżynierów niezawodności lokacji
- Priorytetyzowanie zaufania podczas tworzenia aplikacji
- Język Java nienawidzi systemu Linux. Pogódź się z tym.
- Charakteryzowanie faz rozwiązań inżynierii niezawodności lokacji i informacje o nich
- Zabezpieczenia i SRE: mnożniki sił naturalnych
- Przegląd poprawy produkcji: Biorąc ukąszenie z długu naprawy
- Zapewnianie niezawodności aplikacji o wysokiej wydajności
- Karta wyników usługi — grywalizowanie doskonałości operacyjnej
- Jak ulepszyć usługę, krytykując ją
Zespoły i zarządzanie
- Code-Yellow: Pomoc w operacjach najwyższej klasy zespołów w inteligentny sposób
- Prowadzenie bez zarządzania: bycie liderem technicznym SRE
- Różnice w implementacjach inżynierii niezawodności lokacji w różnych firmach
- 100 zespołów, 100 przyczyn niepowodzeń
- Wszystko, co trzeba wiedzieć o rozpoczynaniu zaangażowania w inżynierię niezawodności lokacji
- Budowanie zespołów inżynierii niezawodności lokacji i kierowanie nimi
- Student do SRE: Dołączanie talentu na poziomie wejścia
- LinkedIn SRE: od powstania do skali globalnej
- Składanie sekwencji DNA inżynierii niezawodności lokacji w największej firmie tworzącej oprogramowanie na świecie
- Transformacja gąsienic warstwy 1 w motyle
Narzędzia i technologie
- Azure SREBot: Więcej niż czatbot — inteligentny bot, który zmiażdży czas ograniczania ryzyka
- TrafficShift: unikanie awarii na dużą skalę
- Tworzymy rozproszony system plików
- TCP — architektura, ulepszenia i dostrajanie
- BGP — szkielet Internetu
- Operacje w środowisku bezserwerowym
- Jak przeskalowaliśmy infrastrukturę bazy danych za pomocą platformy Kafka
- Sieci dla srEs: co muszę wiedzieć na temat rozwiązywania problemów z aplikacjami
- Ambry — rozproszony niezmienny magazyn obiektów serwisu LinkedIn
- BPerf — profilowanie w chmurze Bing.com w środowisku produkcyjnym
- DNS: stare rozwiązanie nowoczesnych problemów
- Sterowanie ruchem przy użyciu systemu DNS w oparciu o rzeczywiste pomiary użytkowników w serwisie LinkedIn
Skalowanie
- Prognozowanie ruchu i testowanie przeciążeniowe infrastruktury
- Uczenie na dużą skalę jest trudne! Analiza wzorców awarii przestojów i zanieczyszczone dane
- Skalowanie rozproszonego systemu stanowego: analiza przypadku serwisu LinkedIn
- Debugowanie na dużą skalę — przechodzenie z jednego komputera do środowiska produkcyjnego
- Tworzenie scentralizowanej infrastruktury pamięci podręcznej na dużą skalę
- Skalowalne kodowanie — znajdowanie błędów
- Zarządzanie pojemnością w serwisie LinkedIn
- InStream: dystrybucja na dużą skalę przy użyciu bitÓw, Python, Salt i Kafka
- Unikanie więzienia pojemności i uciekanie z niego
- Ewolucja globalnego routingu ruchu i trybu failover