Документация по обеспечению надежности информационных систем
Обеспечение надежности информационных систем — инженерная дисциплина, направленная на устойчивое достижение организациями необходимого уровня надежности в их системах, службах и продуктах.
Повышение надежности с помощью современных методов работы
Информационные ресурсы по SRE
SRE в Azure
Документация для специалистов по SRE
Архитектура
Подготовка и доставка
Доклады по SRE от специалистов Майкрософт
Культура
- Развитие обеспечения надежности информационных систем
- Строительство SRE: культура извне
- Культурные особенности и эффективная совместная работа в мультикультурных коллективах
- Эволюция SRE и растущая потребность в факторах, способствующих развитию SRE
- Циклы отзывов: как преимущества SREs и что необходимо для реализации их потенциала
- Понимание бизнес-метрик поможет улучшить SRE
- Бесконечная история повышения надежности информационных систем
- Для специалистов по обслуживанию систем каждый день — понедельник
Реагирование на инциденты и проверки после инцидентов
Мониторинг и наблюдаемость
- Более 600 миллионов членов и сотни микрослужб: как мы масштабировали нашу систему мониторинга для поддержания работоспособности
- От избитого пути: перемещение фокуса наблюдаемости от службы к клиенту
- Вы получаете то, что измеряете. Важность метрик
- Погода шторма: как ранние предупреждения сохранить ферму
- Сбор и анализ миллионов запросов без дополнительных издержек
- Корреляция событий: новый подход к сокращению MTTR
- Как надежный мониторинг обеспечивает высокий уровень доступности для веб-канала LinkedIn
- Сокращение MTTR и ложных эскалаций: корреляция событий в Linkedin
Принципы и методы
- Доступность — это не только много девяток
- Модели мышления для специалистов по SRE
- Определение приоритетов доверия при создании приложений
- Java против Linux. Как с этим жить
- Основные сведения об этапах реализации SRE и их характеристики
- Безопасность и SRE: множители естественных сил
- Обзор улучшения производства: прием укуса из ремонтного долга
- Обеспечение надежности для высокопроизводительных приложений
- Карта оценки службы. Достижение максимальной эффективности работы через игру
- Улучшение службы с помощью критического анализа
Команды и управление
- Код-желтый: помощь в работе топ-тяжелых команд умный путь
- Ведущий без управления: стать техническим лидером SRE
- Различия в реализациях SRE в разных компаниях
- 100 команд — 100 способов потерпеть провал
- Почему, что и как: начало реализации SRE
- Формирование команд специалистов по SRE и управление ими
- Студент колледжа в SRE: подключение вашего таланта на уровне входа
- LinkedIn SRE: от начала до глобального масштаба
- "Объединение фрагментов ДНК" SRE в крупнейше в мире компании по разработке программного обеспечения
- Превращение гусениц уровня 1 в бабочек
Средства и технологии
- Azure SREBot: Больше, чем чат-бот — интеллектуальный бот для устранения рисков
- TrafficShift: предотвращение аварий в масштабе
- Создание распределенной файловой системы
- Архитектура, улучшения и настройка TCP
- BGP как основа Интернета
- Операции на бессерверных платформах
- Как мы использовали Kafka для масштабирования инфраструктуры базы данных
- Сети для служб SREs: что мне нужно знать для устранения неполадок приложений
- Ambry — распределенное неизменяемое хранилище объектов LinkedIn
- BPerf — профилирование облака Bing.com в рабочей среде
- DNS: старое решение для современных проблем
- Регулировка трафика с помощью Rum DNS в LinkedIn
Масштабирование
- Инфраструктура для прогнозирования трафика и нагрузочного тестирования
- Машинное обучение в большом масштабе — сложная задача. Анализ закономерностей сбоев и некорректные данные
- Масштабирование распределенной системы с отслеживанием состояния: пример для LinkedIn
- Отладка в большом масштабе. Переход от отладки единого готового решения к отладке в рабочей среде
- Создание централизованной инфраструктуры кэширования в большом масштабе
- Масштабируемое кодирование. Поиск ошибок
- Управление емкостью в LinkedIn
- InStream: крупномасштабное распределение с помощью BitTorrent, Python, Salt и Kafka
- Предотвращение и устранение ограничений емкости
- Эволюция маршрутизации глобального трафика и отработки отказа