Compartir a través de


Lista de comprobación de recomendaciones para la confiabilidad

Esta lista de comprobación presenta una serie de recomendaciones que puede usar para evaluar las estrategias de fiabilidad, resistencia y recuperación ante errores en el diseño de su arquitectura. Para garantizar la fiabilidad, identifique el mejor diseño de infraestructura y aplicaciones para su carga de trabajo. Tome estas decisiones basándose en los requisitos de su empresa, que se asignan a las métricas objetivo de disponibilidad y recuperabilidad.

Para implementar un diseño fiable, considere a fondo los puntos de decisión en su diseño y sea consciente de cómo afectan esas decisiones a su carga de trabajo. Esta lista de comprobación y las guías que la acompañan ofrecen recursos que le ayudarán a tomar esas decisiones. Convierta la fiabilidad de la carga de trabajo en una consideración central en cada etapa del ciclo de vida de diseño, desarrollo y funcionamiento de la carga de trabajo.

Lista de comprobación

Aborde su diseño centrándose en la fiabilidad para asegurarse de que diseña una carga de trabajo resistente, manejable y repetible. Si no incluye prácticas de fiabilidad y considera las ventajas y desventajas, su diseño estará potencialmente en peligro. Considere detenidamente todos los puntos incluidos en la lista de comprobación para infundir confianza en el éxito de su sistema.

  Código Recomendación
RE:01 Diseñe su carga de trabajo según los objetivos comerciales y evite complejidades o gastos generales innecesarios. Utilice un enfoque práctico y equilibrado para tomar decisiones de diseño que brinden los resultados deseados. Limite su diseño a las necesidades para reducir ineficiencias y problemas potenciales.
RE:02 Identificar y clasificar los flujos de usuarios y sistemas. Utilice una escala de criticidad basada en los requisitos de su negocio para priorizar los flujos.
RE:03 Use el análisis modal de fallos ( FMA) para identificar y priorizar los errores potenciales en los componentes de su solución. Lleve a cabo el FMA como ayuda para evaluar el riesgo y el efecto de cada modo de error. Determine cómo responde y se recupera la carga de trabajo.
RE:04 Defina objetivos de confiabilidad y recuperación para los componentes, los flujos y la solución general. Visualice los objetivos para negociar, obtener consenso, establecer expectativas e impulsar acciones para alcanzar el estado ideal. Usar los objetivos definidos para crear el modelo de estado. El modelo de estado define cómo son los estados correcto, degradado e incorrecto.
RE:05
RE:05
Fortalezca la resiliencia de su carga de trabajo implementando el manejo de errores y el manejo de fallas transitorias. Incorpore capacidades a la solución para manejar errores de componentes y errores transitorios.
RE:06 Pruebe escenarios de resiliencia y disponibilidad aplicando los principios de ingeniería del caos en sus entornos de prueba y producción. Use las pruebas para asegurarse de que sus estrategias de implementación de la degradación correcta son efectivas realizando pruebas de funcionamiento incorrecto activo y de carga simulada.
RE:07 Implementar planes de continuidad de negocio y recuperación ante desastres (BCDR) estructurados, probados y documentados que alinear estén en consonancia con los objetivos de recuperación. Los planes deben cubrir todos los componentes y el sistema en su conjunto.
RE:08 Medir y publicar los indicadores de salud de la solución. Capture continuamente el tiempo de actividad y otros datos de fiabilidad de toda la carga de trabajo y también de componentes individuales y flujos clave.

Pasos siguientes