Procedimientos recomendados de supervisión proactiva para Azure Kubernetes Service (AKS)

Artículo
11/12/2024

En este artículo se describen los procedimientos recomendados para la supervisión proactiva en Azure Kubernetes Service (AKS) y se proporciona una lista completa de las señales clave que AKS recomienda supervisar.

La supervisión proactiva de los clústeres de AKS es fundamental para reducir el tiempo de inactividad y ahorrar interrupciones empresariales en las aplicaciones. Este proceso implica la identificación y supervisión de indicadores clave de comportamiento anómalo en el clúster que podrían provocar problemas importantes o tiempos de inactividad.

Información general sobre la supervisión y las alertas

La supervisión en AKS implica el uso de métricas, registros y eventos para garantizar el estado y el rendimiento del clúster. Entre los escenarios comunes que se deben supervisar se incluyen el rendimiento del nodo, el estado del pod y el uso general de los recursos en el clúster. Los registros proporcionan información sobre los eventos del sistema y las operaciones y la actividad del clúster. Para más información acerca de los métodos y señales que AKS proporciona para la supervisión, consulte Supervisión de Azure Kubernetes Service (AKS).

La mejor manera de supervisar proactivamente el clúster es configurar Alertas de Azure Monitor. Las alertas actúan como medidas proactivas para notificarle posibles problemas o anomalías antes de que se escalen en problemas críticos. Al definir umbrales para métricas y registros clave, recibirá alertas inmediatas cuando estas señales superan los límites predefinidos, lo que indica posibles problemas como agotamiento de recursos o errores de aplicación. Se recomienda encarecidamente definir Objetivos de nivel de servicio (SLO) para que la aplicación mida el rendimiento y la confiabilidad del servicio. La configuración de alertas en las señales clave de los SLO permite detectar rápidamente cualquier degradación de la calidad de servicio de la aplicación que reciben los clientes. En general, establecer alertas oportunas le permite investigar y corregir rápidamente los problemas, minimizar el tiempo de inactividad y garantizar la alta disponibilidad de las aplicaciones que se ejecutan en el clúster de AKS.

Configuración de alertas en tipos de métricas específicos

Tipo de métrica	Dónde encontrar estas métricas	Configuración de alertas
Métrica de la plataforma AKS	Consulte las métricas de plataforma a través de la hoja Métricas de Azure Portal.	Puede crear, actualizar y eliminar alertas de métricas a través de Azure Portal. Para más información, consulte Creación de una alerta de métrica para un recurso de Azure.
Métrica de Prometheus administrada por Azure	Para acceder a las métricas de Prometheus, debe habilitar Managed Prometheus. Para más información sobre cómo habilitar y ver las métricas de Prometheus, consulte Azure Monitor y Prometheus.	Para obtener instrucciones sobre cómo configurar alertas de Prometheus, consulte El servicio administrado de Azure Monitor para grupos de reglas de Prometheus.
Registros de actividad de Azure	Vea los registros de actividad a través de Azure Portal. Para más información, consulte Registros de actividad de Azure para AKS.	Configure alertas en los registros de actividad a través de Azure Portal. Para obtener más información, consulte Alertas del registro de actividad.
Métrica del conjunto de escalado de máquinas virtuales de Azure	Consulte las métricas del conjunto de escalado de máquinas virtuales a través de Azure Portal.	1. Para encontrar la instancia del conjunto de escalado de máquinas virtuales asociada a su grupo de nodos, vaya hasta la hoja Propiedades de>Configuración de su clúster AKS en el portal de Azure. 2. Seleccione el grupo de recursos de infraestructura para ver los recursos de infraestructura asociados al clúster. 3. Seleccione la Instancia del conjunto de escalado de máquinas virtuales que coincida con el nombre del grupo de nodos para el que va a crear alertas. 4. Vaya a la hoja de Alertas para crear la alerta de métrica.
Métrica de Load Balancer	Vea las métricas del equilibrador de carga a través de la página Load Balancer en Azure Portal.	1. Para buscar la instancia del equilibrador de carga asociada al grupo de nodos, vaya a la hoja Propiedades>Configuración del clúster de AKS en Azure Portal. 2. Seleccione el grupo de recursos de infraestructura para ver los recursos de infraestructura asociados al clúster. 3. Seleccione la instancia del equilibrador de carga para abrir la página de Azure Portal para el equilibrador de carga. 4. Vaya a la página Alertas para crear la alerta de métrica del equilibrador de carga.
Registros y eventos	Para alertar sobre los registros y eventos, debe habilitar Container Insights. Para más información, consulte Registros de recursos de Azure Monitor.	Para obtener instrucciones sobre cómo crear alertas sobre registros y eventos, consulte Creación de alertas de búsqueda de registros desde Container Insights.

Señales críticas para configurar alertas

Para obtener cobertura holística del entorno de AKS, debe configurar alertas en los tres componentes principales del clúster:

Infraestructura de clúster: alertas destinadas a la infraestructura subyacente del clúster, como nodos, discos y redes.
Estado de la aplicación: alertas para supervisar el estado de los pods y las aplicaciones. Algunos indicadores comunes de aplicaciones incorrectas incluyen eliminaciones fuera de memoria (OOMKills) de los pods, pods en estado no listo, etc.
Plano de control de Kubernetes: alertas en el plano de control de AKS para supervisar el estado y el rendimiento del servidor de API, etcd, y otros componentes.

Las secciones siguientes contienen las señales clave que recomendamos que todos los clientes de AKS supervisen estrechamente. El equipo de AKS está trabajando para agregar todas las señales críticas a la característica Alertas recomendadas existente, lo que le permite habilitar fácilmente alertas para todas las señales con una experiencia con un solo clic. Las alertas de métricas de Prometheus están disponibles actualmente en versión preliminar pública y se estima que las alertas restantes están disponibles a principios de 2025. Por ahora, puede configurar manualmente alertas en las señales críticas.

Alertas de infraestructura de clúster

Escenario de alerta	Source	Señal	Umbral recomendado
El clúster está en estado de error	Registros de actividad de Azure	Crear o actualizar el clúster administrado	El estado del registro es Error, lo que indica que se ha producido un error en la acción de actualización o creación del clúster.
El grupo de nodos está en estado de error	Registros de actividad de Azure	Creación o actualización del grupo de agentes	El estado del registro es Failed, lo que indica que el grupo de nodos está en estado Failed debido a un error en la operación Crear, Leer, Actualizar o Eliminar (CRUD).
Uso elevado del ancho de banda del disco del sistema operativo de nodo	Métrica del conjunto de escalado de máquinas virtuales	Porcentaje de ancho de banda consumido del sistema operativo	El uso del ancho de banda del disco del sistema operativo del nodo es superior al 95 %.
Uso elevado de IOPS de disco del sistema operativo de nodo	Métrica del conjunto de escalado de máquinas virtuales	Porcentaje de consumo de IOPS de disco del sistema operativo	El uso de IOPS del disco del sistema operativo del nodo es superior al 95 %.
Uso elevado del espacio en disco del sistema operativo del nodo	Métrica de la plataforma AKS	Porcentaje usado de disco	El uso del porcentaje de espacio en disco del sistema operativo del nodo es superior al 90 %.
Uso elevado de CPU de nodo	Métrica de la plataforma AKS	CPU Usage Percentage (Porcentaje de uso de CPU)	El uso de CPU del nodo es mayor que el 90 %.
Uso elevado de memoria de nodo	Métrica de la plataforma AKS	Porcentaje de memoria de conjunto de trabajo	El uso de memoria de nodo es mayor que el 90 %.
El nodo está en estado NotReady	Métrica de la plataforma AKS	Estado de varias condiciones de nodo	El nodo está en estado NotReady durante >20 minutos.
Agotamiento de puertos SNAT	Métrica de Load Balancer (LB)	Recuento de conexiones SNAT	Filtro para estado de conexión = "Error"

Alertas de estado de la aplicación

Escenario de alerta	Source	Señal	Umbral recomendado
Número elevado de pods incorrectos	Métrica de Prometheus administrada por Azure	Nombre de alerta: KubePodReadyStateLow	Disponible como alerta recomendada de AKS. Para habilitar esta alerta, consulte Reglas de alerta recomendadas para clústeres de Kubernetes.
Se está reiniciando uno o varios pods	Métrica de Prometheus administrada por Azure	Nombre de alerta: KubePodContainerRestart	Disponible como alerta recomendada de AKS. Para habilitar esta alerta, consulte Reglas de alerta recomendadas para clústeres de Kubernetes.
Uno o varios pods están en estado CrashLoop	Métrica de Prometheus administrada por Azure	Nombre de la alerta: KubePodCrashLooping	Disponible como alerta recomendada de AKS. Para habilitar esta alerta, consulte Reglas de alerta recomendadas para clústeres de Kubernetes.

Alertas del plano de control de Kubernetes

Escenario de alerta	Source	Señal	Umbral recomendado
ETCD se rellena	Métrica de Prometheus administrada por Azure	etcd_mvcc_db_total_size_in_use_in_bytes	El uso de ETCD es mayor que 2 GB
Error de demasiadas solicitudes del servidor de API	Métrica de Prometheus administrada por Azure	apiserver_request_total	Filtro para el código de error 429
Errores de Webhook y túnel del servidor de API	Métrica de Prometheus administrada por Azure	apiserver_request_total	Filtrar por códigos de error 500 y 503

Pasos siguientes

Para más información sobre la supervisión de AKS, consulte los siguientes artículos:

Compartir a través de