¿Qué es SRE y por qué es importante?

Completado

El mejor lugar para comenzar suele ser el principio. Comencemos por hacer la pregunta básica "¿Qué es la ingeniería de confiabilidad del sitio?" Hay numerosas respuestas a esta pregunta, incluida la que se suele citar de la persona que acuñó el término (Ben Treynor Sloss de Google), pero esta es la respuesta más práctica que podemos ofrecer:

La ingeniería de confiabilidad de sitios es una disciplina de ingeniería que se dedica a ayudar a las organizaciones a lograr un nivel de confiabilidad adecuado en sus sistemas, servicios y productos.

Más adelante podemos comentar algunas otras definiciones, pero empecemos por aquí. Hay tres partes fundamentales de esta definición que debemos averiguar y que nos llevarán directamente a la pregunta "¿Por qué importa?" el producto?".

Confiabilidad

En la esencia (y en el medio del nombre “SRE”) se encuentra la palabra “confiabilidad”. La definición no indica "nivel adecuado de rendimiento", "nivel adecuado de eficacia", "nivel adecuado de estabilidad" ni "lograr el nivel adecuado de ingresos"; sino "nivel adecuado de confiabilidad". ¿Por qué?

Veamos una demostración rápida. A continuación se muestra una captura de pantalla. ¿Qué cree que muestra? Intente no pasarla hasta que tenga una idea o se rinda. Nota: Si le resulta difícil detectar detalles en esta imagen, es normal, se representa perfectamente en el explorador.

Captura de pantalla en blanco que representa una aplicación PHP que no se puede cargar.

Esta imagen es una captura de pantalla del aspecto de una aplicación PHP (sin ninguna otra compatibilidad de depuración) cuando se produce un error. Es posible que vea algo parecido a esto en una aplicación de Java:

Captura de pantalla de la aplicación Java con el error 500 de estado de HTTPS.

¿Por qué vemos estos ejemplos? Cada uno de ellos representa una aplicación que es probable que haya necesitado grandes cantidades de tiempo, energía y recursos para crearse. Pero si la aplicación no está activa si no está operativa cuando un cliente necesita acceder a ella,si no es confiable, no hace nadie, especialmente el negocio. De hecho, una falta de confiabilidad puede hacer daño real (económico, contractual, moral, a la reputación, etc.) a su empresa.

Por esta importancia, la SRE elige centrarse en la confiabilidad como propiedad fundamental, tal vez la propiedad fundamental del servicio, el sistema o el producto. La confiabilidad puede abarcar muchas cosas (como se describe más adelante), pero vamos a pasar a la segunda parte fundamental de la definición.

Niveles adecuados de confiabilidad

Por si no lo entendió cuando leyó la definición por primera vez, vamos a recalcar otro término importante:

La ingeniería de confiabilidad del sitio es una disciplina de ingeniería dedicada a ayudar a una organización a lograr de forma sostenible el nivel adecuado de confiabilidad en sus sistemas, servicios y productos.

¿Por qué importa tanto ese término?

Una observación importante que se realizó en el mundo de la SRE es que hay pocos sistemas y servicios que tengan que ser 100 % confiables. Las situaciones de vida o muerte como la aviación, los dispositivos médicos, etc. son una importante excepción.

De hecho, incluso hay pocas situaciones donde sea aconsejable. El esfuerzo y los recursos (y, por lo tanto, el costo) necesarios para conseguir una mayor confiabilidad aumentan a un gran ritmo conforme se busca una mayor confiabilidad. Por decirlo de otra manera, perseguir la confiabilidad que no se necesita es una pérdida de tiempo y dinero. Quiere lograr el nivel adecuado de confiabilidad en su sistema, servicios y productos.

El nivel debe coincidir con las necesidades empresariales y debe ser pragmático. Por ejemplo, nuestros clientes pueden conectarse a usted mediante una red que no sea 100 % confiable (supongamos que el 90 % del tiempo). Realizar el esfuerzo e invertir dinero en garantizar que el servicio sea confiable al 95 % es por definición una pérdida de tiempo y de dinero. Quiere lograr el nivel adecuado de confiabilidad en su sistema, servicios y productos.

SRE da un paso más en relación con este pragmatismo. Si ahora podemos pensar en que hay un nivel deseable de confiabilidad, ¿deberíamos hacer algo si cumplimos o superamos ese nivel correctamente? De forma similar, ¿qué ocurre si no lo conseguimos? Responderemos a estas preguntas más adelante en el módulo.

Logro de manera sostenible

El término final de nuestra definición que necesitamos resaltar antes de continuar es de manera sostenible. "Sostenible" hace referencia al papel de las personas. Es fundamental crear un procedimiento de operaciones sostenible. Las personas crean sistemas, servicios y productos confiables. Si no hacemos cosas para asegurarnos de que nuestro trabajo sea sostenible. Si despertamos a nuestra gente a las 3:00 a. m. cada noche con una página, y no les damos tiempo con su familia. Si no tienen la oportunidad de dedicarle tiempo a cuidarse. Después, no hay forma de que puedan crear sistemas confiables. Según la SRE, la clave es que implementemos un procedimiento de operaciones sostenible en el tiempo, para que nuestra gente pueda aportar lo mejor de sí misma al trabajo.

Comprobación de conocimientos

1.

¿En qué propiedad de un servicio, sistema o producto se centra principalmente SRE?

2.

En casi todos los servicios, sistemas y productos, ¿qué nivel de confiabilidad intenta lograr un SRE?