Documentación acerca de la ingeniería de confiabilidad de sitios
La ingeniería de confiabilidad de sitios es una disciplina de ingeniería dedicada a ayudar a una organización a lograr de manera sostenible el nivel adecuado de confiabilidad en sus sistemas, servicios y productos.
Mejora de la confiabilidad mediante prácticas operativas modernas
SRE en Azure
Documentación para ingenierías de confiabilidad de sitios
Architecture
Aprovisionamiento y entrega
Información de Microsoft sobre SRE
Referencia cultural
- La evolución de la ingeniería de confiabilidad de sitios
- Creación de SRE: referencia cultural desde el exterior
- Matiz de referencia cultural y colaboración efectiva para equipos multiculturales
- Evolución de SRE y creciente necesidad de catalizadores de SRE
- Bucles de comentarios: Cómo se benefician los SRE y lo que se necesita para darse cuenta de su potencial
- Las métricas empresariales pueden mejorar la ingeniería de confiabilidad de sitios
- La historia interminable de la confiabilidad de sitios
- Todos los días son lunes en las operaciones
Respuesta ante incidentes y reseñas tras los incidentes
Supervisión y observabilidad
- Más de 600 millones de miembros y cientos de microservicios: Cómo escalamos nuestro sistema de supervisión para mantenerse al día
- Fuera de la ruta de acceso golpeada: mover el foco de observabilidad de su servicio a su cliente
- Obtiene lo que mide: importancia de las métricas
- Meteorología de la tormenta: cómo las advertencias tempranas guardan la granja
- Captura y análisis de millones de consultas sin sobrecarga
- Correlación de eventos: un enfoque nuevo para reducir MTTR
- Potenciación de la alta disponibilidad de la fuente LinkedIn mediante una sólida supervisión
- Reducción de MTTR y escalaciones falsas: correlación de eventos en Linkedin
Prácticas y principios
- Disponibilidad: pensar más allá de los nueves
- Modelos mentales de las ingenierías de confiabilidad de sitios
- Prioridad de la confianza al crear aplicaciones
- Java odia Linux. Lidia con eso.
- Fases de caracterización y comprensión de las prácticas de SRE
- Seguridad y SRE: Multiplicadores de fuerza natural
- Revisión de la mejora de la producción: Quitar una mordida de la deuda de reparación
- Garantía de confiabilidad de las aplicaciones de alto rendimiento
- La tarjeta de puntuación del servicio: excelencia operativa de la gamificación
- Mejora de un servicio vuelta y vuelta
Equipos y administración
- Código amarillo: ayudar a las operaciones de los equipos más pesados de la forma inteligente
- Líder sin administrar: convertirse en líder técnico de SRE
- Diferencias en las implementaciones de SRE entre empresas
- Cien equipos, cien formas de cometer errores
- El por qué, qué y cómo de iniciar la involucración en SRE
- Crear y llevar equipos de SRE
- Estudiante universitario a SRE: Incorporación de su talento de nivel de entrada
- LinkedIn SRE: desde el inicio hasta la escala global
- División de las secuencias de DNA de SRE en la mayor empresa de software del planeta
- Transformación de gusanos de nivel 1 en mariposas
Herramientas y tecnologías
- Azure SREBot: más que un bot de chat: un bot inteligente para aplastar el tiempo de mitigación
- TrafficShift: Evitar desastres a escala
- Creemos un sistema de archivos distribuido
- TCP: arquitectura, mejoras y ajuste
- BGP: la red troncal de Internet
- Los ops si no hay servidor
- Uso de Kafka para escalar la infraestructura de las bases de datos
- Redes para SRE: ¿Qué necesito saber para solucionar problemas de aplicaciones?
- Ambry: el almacén de objetos inmutables distribuido de LinkedIn
- BPerf: generación de perfiles en la nube de Bing.com en producción
- DNS: solución antigua para problemas modernos
- Dirección del tráfico mediante Rum DNS @ LinkedIn
Ampliación
- Infraestructura de las pruebas de esfuerzo y previsión del tráfico
- ¡Es difícil aprender a escala! Análisis de patrones de interrupción y datos sucios
- Escalado de un sistema con estado distribuido: un caso práctico de LinkedIn
- Depuración a escala: paso de un solo cuarto a un entorno de producción
- Creación de una infraestructura de almacenamiento en caché centralizada a escala
- Codificación escalable: búsqueda del error
- Administración de la capacidad y LinkedIn
- InStream: Distribución a gran escala mediante BitOrder, Python, Salt y Kafka
- Evitar y romper la prisión de la falta de capacidad
- La evolución del enrutamiento del tráfico global y de la conmutación por error