Cómo prepararse para lo inesperado (antes de un incidente)

19 minutos

Para garantizar la preparación y minimizar el impacto de los incidentes, es esencial seguir las recomendaciones proactivas descritas en esta unidad. Estas acciones le ayudarán a comprender nuestro proceso de comunicación de incidentes, localizar información pertinente y configurar las notificaciones para recibir actualizaciones oportunas. Además, evaluar la resistencia de las aplicaciones e implementar las medidas recomendadas contribuirá a crear cargas de trabajo más fiables, lo que reduce el impacto potencial de un incidente. Por último, revisar e implementar los procedimientos recomendados de seguridad fortalecerá su entorno y mitigará los riesgos.

Acción n.º 1: Familiarizarse con Azure Service Health en Azure Portal

A diferencia de nuestra página pública azure.status.microsoft, que proporciona información general de estado sobre solo interrupciones amplias, Azure Service Health ofrece detalles personalizados adaptados a sus recursos específicos. Le ayuda a prever y prepararse para el mantenimiento planeado y otros cambios que pueden afectar a la disponibilidad de los recursos. Puede interactuar con eventos de servicio y administrar acciones para mantener la continuidad empresarial de las aplicaciones afectadas. Ofrece información fundamental sobre las vulnerabilidades de la plataforma, los incidentes de seguridad y las infracciones de privacidad en el nivel de servicio de Azure, lo que permite una acción rápida para proteger las cargas de trabajo de Azure.

Ahora, vamos a explorar algunas características clave disponibles en Azure Service Health para mejorar su preparación ante incidentes:

Panel Resource Health (nueva experiencia cubierta)

Ubicado en la hoja Service Health de Azure Portal, Azure Resource Health ayuda a diagnosticar y resolver problemas de servicio que afectan a los recursos de Azure. Se evalúa el estado de los recursos, como máquinas virtuales, aplicaciones web o bases de datos SQL, en función de las señales procedentes de distintos servicios de Azure. Si un recurso se identifica como incorrecto, Resource Health realiza un análisis detallado para determinar la causa principal del problema. También proporciona información sobre las acciones de Microsoft para resolver problemas relacionados con incidentes y sugiere los pasos que puede realizar para solucionar el problema.

Panel Problemas de servicios (nueva experiencia cubierta)

El panel Problemas de servicios muestra incidentes de servicio en curso que pueden afectar a los recursos. Permite realizar un seguimiento de cuándo se inició un problema e identificar los servicios y regiones afectados. Al revisar las actualizaciones más recientes, puede obtener información sobre los esfuerzos de Azure para resolver el incidente.

Características clave del panel Problemas de servicios:

Información en tiempo real: El panel de problemas de servicio ofrece visibilidad en tiempo real de los incidentes de servicio de Azure que afectan a las suscripciones y los inquilinos. Si es administrador de inquilinos, puede ver los incidentes o avisos activos relacionados con las suscripciones y los inquilinos.
Evaluación del impacto en los recursos: En la pestaña Recurso afectado de la sección de detalles del incidente se muestran los recursos confirmados o potencialmente afectados. Al hacer clic en los recursos se proporciona acceso directo al panel Resource Health.
Vínculos y explicaciones descargables: Genere un vínculo del problema para usarlo en su sistema de administración de problemas. También puede descargar archivos PDF y, a veces, CSV para compartir explicaciones completas con las partes interesadas que no tienen acceso a Azure Portal. Además, puede solicitar una revisión posterior a incidentes (PIR) para cualquier problema que haya afectado a los recursos, conocido anteriormente como Análisis de causa raíz (RCA).

Panel Avisos de seguridad

El panel Avisos de seguridad se centra en la información urgente relacionada con la seguridad que afecta al estado de las suscripciones y los inquilinos. Proporciona información sobre las vulnerabilidades de la plataforma, los incidentes de seguridad y las infracciones de privacidad.

Recorte de pantalla de los avisos de seguridad de Azure Service Health.

Características clave del panel Avisos de seguridad:

Información de seguridad en tiempo real: Obtenga visibilidad inmediata de los incidentes de seguridad de Azure relevantes para sus suscripciones e inquilinos.

Evaluación del impacto en los recursos: La pestaña Recurso afectado de la sección de detalles del incidente destaca los recursos que se ha confirmado que están afectados.

Los usuarios autorizados con los siguientes roles pueden ver la información de recursos afectada por la seguridad:

Ver recursos de nivel de suscripción	Ver recursos de nivel de inquilino
Propietario de la suscripción	Administrador de seguridad o lector de seguridad
Subscription Admin	Administrador global o administrador de inquilino
Lector de seguridad de Service Health	Lector de privacidad de Azure Service Health

Además, puede descargar documentos PDF explicativos para compartirlos con las partes interesadas que no tienen acceso directo a Azure Portal.

En los siguientes ejemplos se muestra un incidente de seguridad con recursos afectados tanto de la suscripción como del ámbito del inquilino.

Además de familiarizarse con Azure Service Health, otro paso fundamental es configurar alertas de Service Health, lo que garantizará las notificaciones oportunas y le mantendrá informado sobre incidentes e información importante que puede afectar a las cargas de trabajo. En la siguiente sección se tratará este tema con detalle.

Acción n.º 2: Configurar alertas de Service Health para mantenerse informado

La configuración de notificaciones de alertas de estado del servicio es esencial y la llamada a la acción más importante para la administración proactiva de incidentes. Las alertas de Service Health le permiten recibir notificaciones oportunas a través de varios canales, como correo electrónico, SMS, webhooks, etc. Estas alertas proporcionan actualizaciones sobre incidentes de servicio, actividades de mantenimiento planeado, incidentes de seguridad y otra información crítica que puede afectar a las cargas de trabajo.

Puede configurar alertas de Service Health desde cualquiera de los paneles "eventos activos" de la hoja Service Health de Azure Portal, hacer clic en Alertas de estado en el panel Service Health o aprovechar Azure Resource Graph.

Aquí puede encontrar consultas de ejemplo de Azure Resource Graph para Azure Service Health.

Recorte de pantalla de los avisos de Azure Service Health.

Service Health realiza un seguimiento de diferentes tipos de eventos de mantenimiento que pueden afectar a los recursos, incluidos los problemas de servicio, el mantenimiento planeado, los avisos de mantenimiento y los avisos de seguridad. Al configurar alertas de estado del servicio, tiene la flexibilidad de elegir cómo y a quién se envían estas alertas. Puede personalizar las alertas en función de la clase de notificación de estado del servicio, las suscripciones afectadas, los servicios y las regiones.

Clase de notificaciones de Service Health

Tipo de evento de Service Health	Descripción
Problema de servicio	Problemas en los servicios de Azure que le afectan en este momento, también conocidos como incidentes de servicio.
Mantenimiento planeado	Próximas acciones de mantenimiento que pueden afectar a la disponibilidad de los servicios en el futuro.
Avisos de estado	Cambios en los servicios de Azure que requieren su atención. Por ejemplo, cuando necesita realizar una acción, cuando las características de Azure están en desuso, los requisitos de actualización o si supera una cuota de uso.
Avisos de seguridad	Notificaciones relacionadas con la seguridad que tratan las vulnerabilidades de la plataforma y las infracciones de seguridad y privacidad en el nivel de suscripción e inquilino, también conocidas como incidentes de seguridad o privacidad.

Sabemos que debe recibir notificaciones cuando hay problemas que afectan a los servicios y las alertas de estado del servicio le ofrecen la capacidad de elegir CÓMO y A QUIÉN se envían estas alertas. Las alertas se pueden configurar en función de la clase de notificación de estado del servicio, las suscripciones afectadas, los servicios afectados o las regiones afectadas. Puede configurar alertas para desencadenar correos electrónicos, mensajes SMS, aplicaciones lógicas, funciones y mucho más.

Cuando se desencadena una alerta, puede definir las acciones que se realizarán mediante grupos de acciones. Los grupos de acciones son colecciones de preferencias de notificación que determinan cómo y a quién se envían las alertas.

Lista completa de los tipos de notificación disponibles

Tipo de notificación	Descripción	Campos
Envío de un correo electrónico a los usuarios que pertenecen a un rol determinado de Azure Resource Manager	Envíe un correo electrónico a los miembros de la suscripción, en función de su rol. Un correo electrónico de notificación solo se envía a la dirección de correo electrónico principal configurada para el usuario de Microsoft Entra. El correo electrónico solo se envía a los miembros de usuario de Microsoft Entra del rol seleccionado, no a grupos o entidades de servicio de Microsoft Entra.	Escriba la dirección de correo electrónico principal configurada para el usuario de Microsoft Entra. Consulte Correo electrónico.
Correo electrónico	Asegúrese de que el filtrado de correo electrónico y los servicios de prevención de malware o correo no deseado estén configurados correctamente. Los mensajes de correo electrónico se envían desde las direcciones de correo electrónico que se indican a continuación: - azure-noreply@microsoft.com - azureemail-noreply@microsoft.com - alerts-noreply@mail.windowsazure.com	Escriba el correo electrónico donde se debe enviar la notificación.
SMS	Las notificaciones SMS admiten la comunicación bidireccional. El SMS contiene la siguiente información: - El nombre corto del grupo de acciones al que se envió esta alerta - Título de la alerta. Un usuario puede responder a una SMS para: - Un usuario puede cancelar la suscripción a todas las alertas por SMS para todos los grupos de acciones o para un único grupo de acciones. - Volver a suscribirse a alertas - Solicitar ayuda. Para obtener más información sobre las respuestas de SMS admitidas, consulte Respuestas SMS.	Escriba el Código de país y el Número de teléfono del destinatario del SMS. Si no puede seleccionar el código del país o la región en Azure Portal, significa que las acciones de tipo SMS no se admiten en ese país o región. Si el código de el país o la región que quiere usar no está disponible, puede votar en Comparta sus ideas para que este se agregue. Como solución alternativa hasta que se admita el país, configure el grupo de acciones para llamar a un webhook a un proveedor de SMS de terceros que admita su país o región.
Notificaciones push de aplicaciones de Azure	Envíe notificaciones a la aplicación móvil de Azure. Para habilitar las notificaciones push en la aplicación móvil de Azure, proporcione Para obtener más información sobre la aplicación móvil de Azure, consulte Aplicación móvil de Azure.	En el campo Correo electrónico de la cuenta de Azure, proporcione la dirección de correo electrónico que usa como id. de cuenta durante el proceso de configuración de la aplicación móvil de Azure.
Voz	Notificación de voz.	Escriba el Código de país y el Número de teléfono del destinatario de la notificación. Si no puede seleccionar el código de su país o región en Azure Portal, significa que las notificaciones de voz no se admiten en ese país o región. Si el código de el país o la región que quiere usar no está disponible, puede votar en Comparta sus ideas para que este se agregue. Como solución alternativa hasta que se admita el país, configure el grupo de acciones para llamar a un webhook a un proveedor de llamada de voz de terceros que admita su país o región.

Lista completa de acciones que puede desencadenar

Tipo de acción	Detalles
Runbook de automatización	Para obtener más información sobre los límites de las cargas de runbook del servicio Automation, consulte Límites de automatización.
Centros de eventos	Las acciones del centro de eventos publican notificaciones en el servicio Event Hubs. Para obtener más información sobre Event Hubs, consulte Azure Event Hubs: una plataforma de streaming de macrodatos y un servicio de ingesta de eventos. Puede suscribirse al flujo de notificación de alertas desde el receptor de eventos.
Functions	Llama a un punto de conexión del desencadenador HTTP existente en funciones. Para obtener más información, consulte Azure Functions. Al definir la acción de la función, el punto de conexión de desencadenador HTTP y la clave de acceso de la función se guardan en la definición de la acción; por ejemplo, en `https://azfunctionurl.azurewebsites.net/api/httptrigger?code=<access_key>`. Si cambia la clave de acceso de la función, deberá quitar y volver a crear la acción de la función del grupo de acciones. El punto de conexión debe admitir el método HTTP POST. La función debe tener acceso a la cuenta de almacenamiento. Si no tiene acceso, las claves no están disponibles y el URI de la función no es accesible. Obtenga más información sobre cómo restaurar el acceso a la cuenta de almacenamiento.
ITSM	Las acciones ITSM requieren una conexión ITSM. Para obtener información sobre cómo crear una conexión ITSM, consulte Integración de ITSM.
Aplicaciones lógicas	Puede usar Azure Logic Apps para compilar y personalizar flujos de trabajo para la integración y personalizar las notificaciones de alerta.
Webhook seguro	Al usar una acción de webhook seguro, debe usar Microsoft Entra ID para proteger la conexión entre el grupo de acciones y el punto de conexión, que es una API web protegida. Consulte Configuración de la autenticación para webhook seguro. El webhook seguro no admite la autenticación básica. Si usa la autenticación básica, use la acción Webhook.
webhook	Si usa el tipo de acción webhook, el punto de conexión de webhook de destino deberá ser capaz de procesar las distintas cargas JSON que emiten los distintos orígenes de alertas. No se pueden pasar certificados de seguridad a través de una acción de webhook. Para usar la autenticación básica, debes pasar las credenciales a través del URI. Si el punto de conexión de webhook espera un esquema específico, como el de Microsoft Teams, use el tipo de acción Logic Apps para manipular el esquema de alerta para cumplir con las expectativas del webhook de destino. Para obtener información sobre las reglas usadas para reintentar acciones de webhook, consulte Webhook.

Recuerde que la mayoría de los incidentes de servicio afectan a algunas suscripciones, por lo que no se mostrarán en lugares como status.azure.com. Las alertas del estado del servicio se pueden configurar desde el portal; si desea automatizar la creación, también se pueden configurar a través de PowerShell o plantillas de ARM.

Mediante la configuración eficaz de alertas y grupos de acciones de Service Health, puede asegurarse de recibir notificaciones oportunas y realizar acciones adecuadas para mitigar el impacto de los incidentes en los recursos de Azure.

Nota:

¿Necesita ayuda para saber qué supervisar y qué alertas configurar? La solución ideal es "Alertas de línea base de Azure Monitor". Proporciona instrucciones y código completos para implementar una línea base de alertas de plataforma, así como alertas de estado del servicio a través de directivas e iniciativas en entornos de Azure, con opciones para la implementación automatizada o manual. La solución incluye directivas predefinidas para crear automáticamente alertas para todos los tipos de eventos de estado del servicio (problema de servicio, mantenimiento planeado, avisos de mantenimiento y avisos de seguridad), grupos de acciones y reglas de procesamiento de alertas para varios tipos de recursos de Azure. Aunque el enfoque se centra en la supervisión de entornos diseñados de Azure Landing Zones (ALZ), también ofrece instrucciones para los clientes de brownfield que no están alineados actualmente con el brownfield de arquitectura ALZ.

Acción n.º 3: Considerar la posibilidad de tener en cuenta las alertas de Resource Health o Scheduled Events para informarle de problemas específicos de los recursos

Una vez que haya configurado las alertas de estado del servicio, considere la posibilidad de adoptar también alertas de Resource Health. Además, le notifica casi en tiempo real de los cambios de estado en estos recursos, independientemente de por qué.

La distinción clave entre las alertas de "estado del servicio" y las alertas de "resource health" es que la primera se desencadena durante un problema conocido de la plataforma, como una interrupción continua (incidente de servicio) que está investigando Microsoft. En cambio, esta última se desencadena cuando se considera incorrecto un recurso específico, independientemente de la causa subyacente.

Puede configurar alertas de Resource Health desde el panel Resource Health en la hoja Service Health de Azure Portal.

Recorte de pantalla del estado de los recursos de Azure Service Health.

También puede crear alertas de estado de recursos mediante programación mediante plantillas de Azure Resource Manager y Azure PowerShell. La creación de alertas de Resource Health mediante programación permite crear y personalizar alertas de forma masiva.

Eventos programados para máquinas virtuales, evitando el impacto

Los eventos programados son otra excelente herramienta en la que los dos tipos de "alertas" anteriores notifican a personas o sistemas, los eventos programados notifican a los propios recursos. Esto puede dar tiempo a la aplicación para prepararse para el mantenimiento de máquinas virtuales o uno de nuestros eventos automatizados de recuperación del servicio. Proporciona una señal sobre un evento de mantenimiento inminente (por ejemplo, un reinicio próximo) para que la aplicación pueda saberlo y, a continuación, actuar para limitar la interrupción, por ejemplo, mediante la ejecución de la automatización para quitarse del grupo o degradarse correctamente. Los eventos programados están disponibles para todos los tipos de máquina virtual de Azure, incluido IaaS y PaaS, tanto en Windows como en Linux.

Nota:

Aunque tanto las alertas de Resource Health como los eventos programados son herramientas útiles, la llamada a la acción más importante es configurar alertas de estado del servicio. Esto es fundamental para asegurarse de que comprende lo que sucede con los recursos, lo que estamos haciendo sobre ellos y cuándo se mitiga.

Acción n.º 4: Aumentar la seguridad de la inversión para proteger su entorno

Para garantizar la protección de los datos, las aplicaciones y otros recursos de Azure, revise e implemente los procedimientos recomendados de seguridad operativa. Estos procedimientos recomendados se derivan del conocimiento colectivo y la experiencia de aquellos que trabajan con las funcionalidades y características actuales de la plataforma Azure. El artículo se actualiza periódicamente para reflejar la evolución de las opiniones y tecnologías.

Como punto de partida, tenga en cuenta estas principales recomendaciones para la implementación:

Requerir la verificación en dos pasos para todos los usuarios. Esto incluye a los administradores y otras personas de su organización, ya que el hecho de que su cuenta esté en peligro puede tener un impacto significativo (por ejemplo, los directores financieros). Usar la autenticación multifactor para aliviar las preocupaciones de esta exposición.
Configurar y habilitar las directivas de riesgo en el inquilino para que se le avise si "alguien" está en su entorno. Esto creará una alerta para eventos de riesgo, como el uso de direcciones IP anónimas, viajes inusuales, propiedades de inicio de sesión desconocidas y desencadenará aún más los esfuerzos de corrección, como la autenticación multifactor, el restablecimiento de contraseñas, etc. garantizando que los clientes permanezcan seguros.
Controlar el movimiento de suscripciones desde y hacia directorios como una medida proactiva para estar preparado y consciente de "alguien" en su entorno. Esto garantiza que la organización tenga visibilidad completa de las suscripciones que se usan y evita el movimiento de suscripciones que podrían ir a un directorio desconocido.
Rotar las credenciales de todos los administradores globales y de suscripciones de forma periódica para ayudar a protegerse frente a posibles vulneraciones de seguridad, cuentas en peligro o uso no autorizado de permisos con privilegios. La rotación periódica de credenciales agrega una capa adicional de seguridad a su entorno y ayuda a mantener la integridad y confidencialidad de los datos y los recursos.
Revisar y actualizar periódicamente todos los números de correo electrónico y teléfono de todos los usuarios administradores globales dentro del inquilino

Acción n.º 5: Aumentar la resistencia de las cargas de trabajo clave de Azure para evitar o minimizar el impacto

Para garantizar la fiabilidad de las cargas de trabajo, es fundamental evaluarlas mediante los principios de Well-Architected Framework (WAF) de Microsoft Azure mediante la Well-Architected Review de Microsoft Azure. El WAF también proporciona recomendaciones para las pruebas de resistencia, incluida la adopción de una metodología de ingeniería de caos.

Las aplicaciones deben someterse a pruebas para garantizar la disponibilidad y la resistencia. La disponibilidad hace referencia a la duración en la que una aplicación funciona sin tiempo de inactividad significativo, mientras que la resistencia mide la rapidez con la que una aplicación puede recuperarse de errores.

Para complementar su trabajo con el WAF, considere la posibilidad de implementar las siguientes recomendaciones principales y aprovechar las herramientas proporcionadas para ayudarle a comprobar y crear resistencia en sus aplicaciones:

Use el libro de Fiabilidad integrado en Azure Portal en la hoja Azure Advisor para evaluar la posición de fiabilidad de las aplicaciones, identificar posibles riesgos y planear e implementar mejoras.
Mejore la continuidad empresarial y la recuperación ante desastres (BCDR) mediante la implementación de las cargas de trabajo y los recursos en varias regiones. Consulte la lista completa de pares de regiones de Azure para conocer las opciones óptimas de implementación entre regiones.
Maximice la disponibilidad dentro de una región mediante la distribución de implementaciones de cargas de trabajo y recursos entre Availability Zones.
Considere la posibilidad de usar tamaños de máquina virtual aislados en Azure para las cargas de trabajo críticas para la empresa que requieren un alto nivel de aislamiento. Estos tamaños garantizan que la máquina virtual está dedicada a un tipo de hardware específico y funciona de forma independiente. Consulte aquí para obtener más información: Aislamiento de máquinas virtuales en Azure: Azure Virtual Machines | Microsoft Learn.
Considere la posibilidad de usar configuraciones de mantenimiento para tener un mejor control y administración sobre las actualizaciones de las máquinas virtuales de Azure. Esta característica permite programar y administrar actualizaciones, lo que garantiza una interrupción mínima de las cargas de trabajo confidenciales que no pueden tolerar tiempo de inactividad durante las actividades de mantenimiento.
Mejore la redundancia mediante la implementación de redundancia entre regiones o dentro de la región. Consulte el ejemplo de una aplicación web con redundancia de zona de alta disponibilidad para obtener instrucciones.
Mejore la resistencia de las aplicaciones mediante Azure Chaos Studio. Con esta herramienta, puede introducir deliberadamente errores controlados en las aplicaciones de Azure, lo que le permite evaluar su resistencia y observar cómo responden a diversas interrupciones, como la latencia de red, las interrupciones de almacenamiento, los secretos que expiran y los errores del centro de datos.
Use el libro de retirada del servicio disponible en Azure Portal en la hoja Azure Advisor. Esta herramienta integrada le ayuda a mantenerse informado sobre las retiradas de servicios que pueden afectar a las cargas de trabajo críticas, lo que le permite planear y ejecutar de forma eficaz las migraciones necesarias.

Nota:

Los clientes que tienen un contrato de soporte técnico Premier o Unificado pueden usar el equipo de éxito del cliente para diseñar e implementar una evaluación del Well-Architected Framework (WAF).

Cómo prepararse para lo inesperado (antes de un incidente)

Para mantenerse informado, mitigar el impacto y proteger su inversión, se recomiendan las cinco acciones siguientes:

Acción n.º 1: Familiarizarse con Azure Service Health en Azure Portal

Panel Resource Health (nueva experiencia cubierta)

Panel Problemas de servicios (nueva experiencia cubierta)

Panel Avisos de seguridad

Acción n.º 2: Configurar alertas de Service Health para mantenerse informado

Clase de notificaciones de Service Health

Lista completa de los tipos de notificación disponibles

Lista completa de acciones que puede desencadenar

Acción n.º 3: Considerar la posibilidad de tener en cuenta las alertas de Resource Health o Scheduled Events para informarle de problemas específicos de los recursos

Eventos programados para máquinas virtuales, evitando el impacto

Acción n.º 4: Aumentar la seguridad de la inversión para proteger su entorno

Acción n.º 5: Aumentar la resistencia de las cargas de trabajo clave de Azure para evitar o minimizar el impacto

Comentarios