Начало работы с SRE
В последнем уроке этого модуля давайте поговорим о том, в каком направлении двигаться, если вы заинтересовались SRE и хотите изучить его подробнее.
Материалы для чтения и просмотра
Для поиска сведений о SRE лучше всего подходят три книги, опубликованные на эту тему
- Site Reliability Engineering: How Google Runs Production Systems (Обеспечение надежности информационных систем: организация рабочих систем в Google) (ее также называют "книгой о SRE")
- The Site Reliability Workbook: Practical Ways to Implement SRE (Рабочая книга по обеспечению надежности информационных систем: практический подход к реализации SRE) (ее также называют "рабочей книгой по SRE")
- Seeking SRE: Conversations About Running Production Systems at Scale (В поисках SRE: обсуждение организации рабочих систем на должном уровне)
(Стоит отметить, что основной автор этого модуля является куратором/редактором третьей книги.)
Каждая из этих книг содержит важный набор сведений:
Книга SRE: Содержит подробное описание того, как Google реализовал SRE на протяжении многих лет.
Книга SRE: компаньон SRE Book, который предоставляет более подробное объяснение не только "что" SRE в Google и несколько других мест, но "как" и "почему".
Поиск SRE: предоставляет более широкий взгляд на мир SRE за пределами своего происхождения, включая информацию о том, как она была реализована в других средах.
Рекомендуем вам внимательно прочитать и проанализировать все три книги. Не все, написанное в этих книгах, может применяться к вам и вашей организации. Получите некоторое время, чтобы определить информацию, которую вы уверены, может дать некоторое положительное значение. Подумайте, какие ценности и культурные особенности вашей организации способны упростить или затруднить описанную реализацию SRE.
Если вы найдете вас больше визуального человека, попробуйте посмотреть разговор Ключи к SRE Бен Трейнор на конференции SREcon14. Трейнор предоставляет когентное объяснение того, что SRE (по крайней мере в контексте Google) является. Другие записанные переговоры по SRE из этой серии конференций и другие могут быть полезными.
Общение с другими заинтересованными людьми
Общение с коллегами о SRE может оказаться не менее важным, чем чтение о нем. Обсуждение ваших проблем, успехов и неудач вокруг SRE может быть важным для получения нюансов понимания темы.
Существует множество встреч и конференций, которые предоставляют содержимое SRE. Вероятно, прежде всего следует обратить внимание на проходящие в разных странах конференции SREcon, которые проводит USENIX (оговорка: основной автор этого модуля является одним из соучредителей SREcon).
Еще больше содержимого SRE делает свой путь к конференциям, таким как Скорость, LISA и локальные конференции DevOps, такие как DevOps Days. Ищите подходящие материалы и людей, заинтересованных данной темой, где вам будет удобно.
Первые шаги на работе
Важно помнить, что SRE не является предложением "все или ничего". Если вы хотите начать изучение того, как перенести SRE в среду, вы можете приступить к внедрению принципов и методик SRE в небольших шагах.
Майки Дикерсон является хорошо известным SRE на основе своей работы на том, что станет США цифровой службы. Они несут ответственность за сохранение healthcare.gov. Он предложил иерархию надежности в соответствии с иерархией потребностей Маслоу. Он цитируется в разделе "Практики" первой книги SRE.
Эта иерархия предлагает сначала получить функциональный и надежный мониторинг в вашей среде. Мониторинг должен быть первым шагом к SRE для вашей среды. Вы не можете определить, надежно ли что-то (и в какую сторону изменяется его состояние), если это невозможно измерить.
После того как у вас есть платформа мониторинга, вы можете доверять, следующий доступный шаг — выбрать службу на работе. Затем начните говорить об этом SLI и SLO. Начните с малого. Создайте slIs и SLO для службы, реализуйте их в системе мониторинга и узнайте, что происходит, когда вы начинаете обращать внимание на надежность с помощью объектива SRE. Эти шаги являются отличным местом для начала.