Compartir a través de


Compromisos de confiabilidad

Una carga de trabajo confiable cumple de forma coherente sus objetivos de confiabilidad definidos. Debe alcanzar los objetivos de resistencia establecidos, idealmente sorteando los eventos que afectan a la confiabilidad. Sin embargo, de forma realista, una carga de trabajo debe tolerar y controlar el impacto de estos eventos y mantener las operaciones en un nivel predeterminado durante el mal funcionamiento activo. Incluso durante un desastre, una carga de trabajo confiable debe recuperarse en un estado específico dentro de un período de tiempo determinado, ambos acordados entre las partes interesadas. Un plan de respuesta a incidentes que le permite lograr una detección y recuperación rápidas es fundamental.

Durante la fase de diseño de una carga de trabajo, debe tener en cuenta cómo las decisiones basadas en los principios de diseño de confiabilidad y las recomendaciones de la lista de comprobación de revisión de diseño para confiabilidad podrían influir en los objetivos y optimizaciones de otros pilares. Algunas decisiones pueden beneficiarse de algunos pilares, pero constituyen un equilibrio para otros. En este artículo se describen los inconvenientes de ejemplo que un equipo de carga de trabajo podría encontrar al diseñar la arquitectura y las operaciones de carga de trabajo para lograr confiabilidad.

Desventajas de confiabilidad con seguridad

Compensación: aumento del área expuesta de la carga de trabajo. El pilar seguridad prioriza un área expuesta reducida y independiente para minimizar los vectores de ataque y reducir la administración de los controles de seguridad.

  • La confiabilidad se obtiene a menudo a través de la replicación. La replicación puede producirse en el nivel de componente, en el nivel de datos o incluso en un nivel geográfico. Las réplicas, por diseño, aumentan el área expuesta de una carga de trabajo. Desde una perspectiva de seguridad, se prefiere un área expuesta reducida y contenida para minimizar los posibles vectores de ataque y simplificar la administración de los controles de seguridad.

  • De forma similar, las soluciones de recuperación ante desastres, como las copias de seguridad, aumentan el área expuesta de una carga de trabajo. Sin embargo, a menudo están aislados del tiempo de ejecución de la carga de trabajo. Estas soluciones requieren la implementación de controles de seguridad adicionales, que podrían ser específicos del enfoque de recuperación ante desastres.

  • Para lograr objetivos de confiabilidad, es posible que se necesiten componentes adicionales para la arquitectura, lo que aumenta el área expuesta. Por ejemplo, es posible que se agregue un bus de mensajes para que las solicitudes sean resistentes a través de la desacoplamiento. Esta mayor complejidad aumenta el área expuesta de la carga de trabajo agregando nuevos componentes que deben protegerse, posiblemente de maneras que aún no se usen en el sistema. Normalmente, estos componentes están acompañados de código y bibliotecas adicionales para admitir sus patrones de uso o confiabilidad general, lo que también aumenta el área expuesta de la aplicación.

Compensación: omisión del control de seguridad. El pilar Seguridad recomienda que todos los controles permanezcan activos en sistemas normales y estresados.

  • Cuando una carga de trabajo experimenta un evento de confiabilidad que se está abordando en respuesta a incidentes activos, la urgencia podría crear presión para que los equipos de cargas de trabajo omitan los controles de seguridad optimizados para el acceso rutinario.

  • Las actividades de solución de problemas pueden hacer que el equipo deshabilite temporalmente los protocolos de seguridad, dejando un sistema ya estresado potencialmente expuesto a riesgos de seguridad adicionales. También existe un riesgo de que los protocolos de seguridad no se restablezcan rápidamente.

  • Implementaciones pormenorizadas de controles de seguridad, como asignaciones de control de acceso basadas en roles personalizadas o reglas de firewall estrechas, introducen complejidad y confidencialidad de la configuración, lo que aumenta la posibilidad de una configuración incorrecta. La mitigación de este posible impacto en la confiabilidad mediante reglas amplias reduce los tres principios de arquitectura de Confianza cero.

Compensación: versiones anteriores de software. El pilar Seguridad fomenta un enfoque "obtener actual y mantenerse al día" para las revisiones de seguridad del proveedor.

  • La aplicación de revisiones de seguridad o actualizaciones de software puede interrumpir el componente de destino, lo que provoca una falta de disponibilidad durante el cambio de software. Retrasar o evitar la aplicación de revisiones podría evitar los posibles riesgos de confiabilidad, pero deja al sistema desprotegido frente a amenazas en constante evolución.

  • La consideración anterior también se aplica al código de la carga de trabajo. Por ejemplo, se aplica al código de aplicación que usa bibliotecas y contenedores antiguos que usan imágenes base antiguas. Si la actualización e implementación del código de la aplicación se ve como un riesgo de confiabilidad no asignado, la aplicación se expone a riesgos de seguridad adicionales a lo largo del tiempo.

Desventajas de confiabilidad con optimización de costos

Compensación: aumento de la redundancia de implementación o los residuos. Una carga de trabajo optimizada para costos minimiza los recursos infrautilizados y evita el exceso de aprovisionamiento de recursos.

  • La replicación es una estrategia clave para la confiabilidad. En concreto, la estrategia es tener suficiente replicación para controlar un número determinado de errores de nodo simultáneos. La tolerancia a errores de nodo más simultáneos requiere un mayor recuento de réplicas, lo que conduce a un aumento de los costos.

  • El aprovisionamiento excesivo es otra técnica para absorber la carga inesperada en un sistema, como durante un evento de conmutación por error, lo que podría provocar un problema de confiabilidad. Cualquier capacidad excesiva que no se utilice se considera desperdiciada.

  • Si una carga de trabajo usa una solución de recuperación ante desastres que satisface excesivamente los objetivos de tiempo y punto de recuperación de la carga de trabajo, el exceso conduce a mayores costos debido a los residuos.

  • Las propias implementaciones de cargas de trabajo son un origen potencial para el impacto en la confiabilidad y ese impacto suele mitigarse mediante redundancia en el momento de la implementación a través de una estrategia de implementación como azul/verde. Esta duplicación transitoria de recursos durante la implementación segura suele aumentar el costo total de la carga de trabajo durante esos períodos. Los costos aumentan con frecuencia de implementaciones.

Compensación: mayor inversión en operaciones que no están alineadas con los requisitos funcionales. Un enfoque para la optimización de costos es evaluar el valor proporcionado por cualquier solución implementada.

  • Para lograr la confiabilidad, un sistema requiere observabilidad. Los sistemas de supervisión requieren transferencia y recopilación de datos de observabilidad. A medida que aumentan las funcionalidades de supervisión, aumenta la frecuencia y el volumen de datos, lo que conduce a costos adicionales.

  • Las prestaciones de confiabilidad en las cargas de trabajo requieren pruebas y simulacros. El diseño y la ejecución de pruebas tardan tiempo y herramientas potencialmente especializadas, lo que conlleva costos.

  • Las cargas de trabajo con objetivos de alta confiabilidad suelen tener un proceso de respuesta rápido que requiere que los miembros del equipo técnico formen parte de una rotación formal de llamadas. Este proceso incurre en costos de personal adicionales y costos de oportunidad perdidos debido a la atención que se podría dirigir a otro lugar. También incurre en posibles costos de herramientas para la administración del proceso.

  • Los contratos de soporte técnico con proveedores de tecnología son un componente clave de una carga de trabajo confiable. Los contratos de soporte técnico que no se usan porque el nivel de soporte técnico es excesivo incurre en residuos.

Desventajas de confiabilidad con excelencia operativa

Compensación: mayor complejidad operativa. La excelencia operativa, como la propia confiabilidad, prioriza la simplicidad.

  • La confiabilidad suele aumentar la complejidad de una carga de trabajo. A medida que aumenta la complejidad de una carga de trabajo, los elementos operativos de la carga de trabajo también pueden aumentar para admitir los componentes y procesos agregados en términos de coordinación de implementación y área expuesta de configuración.

  • Tener una estrategia de supervisión completa para una carga de trabajo es una parte clave de la excelencia operativa. La introducción de componentes adicionales en una arquitectura para implementar patrones de diseño de confiabilidad da como resultado más orígenes de datos para administrar, lo que aumenta la complejidad de implementar el seguimiento distribuido y la observabilidad.

  • El uso de varias regiones para superar las restricciones de capacidad de recursos de una sola región o implementar una arquitectura activa o activa aumenta la complejidad de la administración operativa de la carga de trabajo. Esta complejidad la introduce la necesidad de administrar varias regiones y la necesidad de administrar la replicación de datos entre ellas.

Compensación: mayor esfuerzo para generar conocimientos y concienciación en equipo. El pilar Excelencia operativa recomienda mantener y mantener un repositorio de documentación para procedimientos y topologías.

  • A medida que una carga de trabajo se vuelve más sólida a través de la adición de componentes y patrones de confiabilidad, se tarda más tiempo en mantener los procedimientos operativos y la documentación de artefactos.

  • El entrenamiento se vuelve más complejo a medida que aumenta el número de componentes de la carga de trabajo. Esta complejidad afecta al tiempo necesario para la incorporación. La complejidad también aumenta el conocimiento necesario para realizar un seguimiento de las hojas de ruta del producto y las instrucciones de nivel de servicio más recientes.

Desventajas de confiabilidad con la eficiencia del rendimiento

Equilibrio: mayor latencia. La eficiencia del rendimiento requiere un sistema para lograr objetivos de rendimiento para los flujos de datos y usuarios.

  • Los patrones de confiabilidad suelen incorporar la replicación de datos para sobrevivir al mal funcionamiento de la réplica. La replicación presenta una latencia adicional para las operaciones de escritura de datos confiables, que consume una parte del presupuesto de rendimiento de un usuario o flujo de datos específico.

  • La confiabilidad a veces emplea varias formas de equilibrio de recursos para distribuir o redistribuir la carga en réplicas correctas. Un componente dedicado que se usa para el equilibrio suele afectar al rendimiento de la solicitud o proceso que se equilibra.

  • La distribución de componentes entre límites geográficos o zonas de disponibilidad para sobrevivir a un impacto con ámbito introduce la latencia de red en la comunicación entre los componentes que abarcan esos límites de disponibilidad.

  • Los procesos extensos se usan para observar el estado de una carga de trabajo. Aunque la supervisión es fundamental para la confiabilidad, la instrumentación puede afectar al rendimiento del sistema. A medida que aumenta la observabilidad, el rendimiento podría disminuir.

Compensación: aumento del aprovisionamiento por encima del aprovisionamiento. El pilar Eficiencia del rendimiento desaproteja el exceso de aprovisionamiento, en lugar de recomendar el uso de recursos suficientes para satisfacer la demanda.

  • Las operaciones de escalado automático no son instantáneas y, por lo tanto, no pueden controlar de forma confiable un pico repentino y dramático en la demanda que no se puede dar forma ni suavizar. Por lo tanto, el sobreaprovisionamiento a través de instancias más grandes o más instancias es una táctica de confiabilidad crítica para tener en cuenta el retraso entre la señal de demanda y la creación de suministro para ayudar a absorber las ráfagas. La capacidad sin usar contrarresta los objetivos de eficiencia del rendimiento.

  • A veces, un componente no se puede escalar en reacción a la demanda y esa demanda no es totalmente predecible. El uso de instancias grandes para cubrir el peor de los casos conduce a un exceso de aprovisionamiento de residuos en situaciones fuera de ese caso de uso.

Explore los inconvenientes de los otros pilares: