Procedimientos recomendados de supervisión proactiva para Azure Kubernetes Service (AKS)
En este artículo se describen los procedimientos recomendados para la supervisión proactiva en Azure Kubernetes Service (AKS) y se proporciona una lista completa de las señales clave que AKS recomienda supervisar.
La supervisión proactiva de los clústeres de AKS es fundamental para reducir el tiempo de inactividad y ahorrar interrupciones empresariales en las aplicaciones. Este proceso implica la identificación y supervisión de indicadores clave de comportamiento anómalo en el clúster que podrían provocar problemas importantes o tiempos de inactividad.
Información general sobre la supervisión y las alertas
La supervisión en AKS implica el uso de métricas, registros y eventos para garantizar el estado y el rendimiento del clúster. Entre los escenarios comunes que se deben supervisar se incluyen el rendimiento del nodo, el estado del pod y el uso general de los recursos en el clúster. Los registros proporcionan información sobre los eventos del sistema y las operaciones y la actividad del clúster. Para más información acerca de los métodos y señales que AKS proporciona para la supervisión, consulte Supervisión de Azure Kubernetes Service (AKS).
La mejor manera de supervisar proactivamente el clúster es configurar Alertas de Azure Monitor. Las alertas actúan como medidas proactivas para notificarle posibles problemas o anomalías antes de que se escalen en problemas críticos. Al definir umbrales para métricas y registros clave, recibirá alertas inmediatas cuando estas señales superan los límites predefinidos, lo que indica posibles problemas como agotamiento de recursos o errores de aplicación. Se recomienda encarecidamente definir Objetivos de nivel de servicio (SLO) para que la aplicación mida el rendimiento y la confiabilidad del servicio. La configuración de alertas en las señales clave de los SLO permite detectar rápidamente cualquier degradación de la calidad de servicio de la aplicación que reciben los clientes. En general, establecer alertas oportunas le permite investigar y corregir rápidamente los problemas, minimizar el tiempo de inactividad y garantizar la alta disponibilidad de las aplicaciones que se ejecutan en el clúster de AKS.
Configuración de alertas en tipos de métricas específicos
Tipo de métrica | Dónde encontrar estas métricas | Configuración de alertas |
---|---|---|
Métrica de la plataforma AKS | Consulte las métricas de plataforma a través de la hoja Métricas de Azure Portal. | Puede crear, actualizar y eliminar alertas de métricas a través de Azure Portal. Para más información, consulte Creación de una alerta de métrica para un recurso de Azure. |
Métrica de Prometheus administrada por Azure | Para acceder a las métricas de Prometheus, debe habilitar Managed Prometheus. Para más información sobre cómo habilitar y ver las métricas de Prometheus, consulte Azure Monitor y Prometheus. | Para obtener instrucciones sobre cómo configurar alertas de Prometheus, consulte El servicio administrado de Azure Monitor para grupos de reglas de Prometheus. |
Registros de actividad de Azure | Vea los registros de actividad a través de Azure Portal. Para más información, consulte Registros de actividad de Azure para AKS. | Configure alertas en los registros de actividad a través de Azure Portal. Para obtener más información, consulte Alertas del registro de actividad. |
Métrica del conjunto de escalado de máquinas virtuales de Azure | Consulte las métricas del conjunto de escalado de máquinas virtuales a través de Azure Portal. | 1. Para encontrar la instancia del conjunto de escalado de máquinas virtuales asociada a su grupo de nodos, vaya hasta la hoja Propiedades de>Configuración de su clúster AKS en el portal de Azure. 2. Seleccione el grupo de recursos de infraestructura para ver los recursos de infraestructura asociados al clúster. 3. Seleccione la Instancia del conjunto de escalado de máquinas virtuales que coincida con el nombre del grupo de nodos para el que va a crear alertas. 4. Vaya a la hoja de Alertas para crear la alerta de métrica. |
Métrica de Load Balancer | Vea las métricas del equilibrador de carga a través de la página Load Balancer en Azure Portal. | 1. Para buscar la instancia del equilibrador de carga asociada al grupo de nodos, vaya a la hoja Propiedades>Configuración del clúster de AKS en Azure Portal. 2. Seleccione el grupo de recursos de infraestructura para ver los recursos de infraestructura asociados al clúster. 3. Seleccione la instancia del equilibrador de carga para abrir la página de Azure Portal para el equilibrador de carga. 4. Vaya a la página Alertas para crear la alerta de métrica del equilibrador de carga. |
Registros y eventos | Para alertar sobre los registros y eventos, debe habilitar Container Insights. Para más información, consulte Registros de recursos de Azure Monitor. | Para obtener instrucciones sobre cómo crear alertas sobre registros y eventos, consulte Creación de alertas de búsqueda de registros desde Container Insights. |
Señales críticas para configurar alertas
Para obtener cobertura holística del entorno de AKS, debe configurar alertas en los tres componentes principales del clúster:
- Infraestructura de clúster: alertas destinadas a la infraestructura subyacente del clúster, como nodos, discos y redes.
- Estado de la aplicación: alertas para supervisar el estado de los pods y las aplicaciones. Algunos indicadores comunes de aplicaciones incorrectas incluyen eliminaciones fuera de memoria (OOMKills) de los pods, pods en estado no listo, etc.
- Plano de control de Kubernetes: alertas en el plano de control de AKS para supervisar el estado y el rendimiento del servidor de API, etcd, y otros componentes.
Las secciones siguientes contienen las señales clave que recomendamos que todos los clientes de AKS supervisen estrechamente. El equipo de AKS está trabajando para agregar todas las señales críticas a la característica Alertas recomendadas existente, lo que le permite habilitar fácilmente alertas para todas las señales con una experiencia con un solo clic. Las alertas de métricas de Prometheus están disponibles actualmente en versión preliminar pública y se estima que las alertas restantes están disponibles a principios de 2025. Por ahora, puede configurar manualmente alertas en las señales críticas.
Alertas de infraestructura de clúster
Escenario de alerta | Source | Señal | Umbral recomendado |
---|---|---|---|
El clúster está en estado de error | Registros de actividad de Azure | Crear o actualizar el clúster administrado | El estado del registro es Error, lo que indica que se ha producido un error en la acción de actualización o creación del clúster. |
El grupo de nodos está en estado de error | Registros de actividad de Azure | Creación o actualización del grupo de agentes | El estado del registro es Failed, lo que indica que el grupo de nodos está en estado Failed debido a un error en la operación Crear, Leer, Actualizar o Eliminar (CRUD). |
Uso elevado del ancho de banda del disco del sistema operativo de nodo | Métrica del conjunto de escalado de máquinas virtuales | Porcentaje de ancho de banda consumido del sistema operativo | El uso del ancho de banda del disco del sistema operativo del nodo es superior al 95 %. |
Uso elevado de IOPS de disco del sistema operativo de nodo | Métrica del conjunto de escalado de máquinas virtuales | Porcentaje de consumo de IOPS de disco del sistema operativo | El uso de IOPS del disco del sistema operativo del nodo es superior al 95 %. |
Uso elevado del espacio en disco del sistema operativo del nodo | Métrica de la plataforma AKS | Porcentaje usado de disco | El uso del porcentaje de espacio en disco del sistema operativo del nodo es superior al 90 %. |
Uso elevado de CPU de nodo | Métrica de la plataforma AKS | CPU Usage Percentage (Porcentaje de uso de CPU) | El uso de CPU del nodo es mayor que el 90 %. |
Uso elevado de memoria de nodo | Métrica de la plataforma AKS | Porcentaje de memoria de conjunto de trabajo | El uso de memoria de nodo es mayor que el 90 %. |
El nodo está en estado NotReady | Métrica de la plataforma AKS | Estado de varias condiciones de nodo | El nodo está en estado NotReady durante >20 minutos. |
Agotamiento de puertos SNAT | Métrica de Load Balancer (LB) | Recuento de conexiones SNAT | Filtro para estado de conexión = "Error" |
Alertas de estado de la aplicación
Escenario de alerta | Source | Señal | Umbral recomendado |
---|---|---|---|
Número elevado de pods incorrectos | Métrica de Prometheus administrada por Azure | Nombre de alerta: KubePodReadyStateLow | Disponible como alerta recomendada de AKS. Para habilitar esta alerta, consulte Reglas de alerta recomendadas para clústeres de Kubernetes. |
Se está reiniciando uno o varios pods | Métrica de Prometheus administrada por Azure | Nombre de alerta: KubePodContainerRestart | Disponible como alerta recomendada de AKS. Para habilitar esta alerta, consulte Reglas de alerta recomendadas para clústeres de Kubernetes. |
Uno o varios pods están en estado CrashLoop | Métrica de Prometheus administrada por Azure | Nombre de la alerta: KubePodCrashLooping | Disponible como alerta recomendada de AKS. Para habilitar esta alerta, consulte Reglas de alerta recomendadas para clústeres de Kubernetes. |
Alertas del plano de control de Kubernetes
Escenario de alerta | Source | Señal | Umbral recomendado |
---|---|---|---|
ETCD se rellena | Métrica de Prometheus administrada por Azure | etcd_mvcc_db_total_size_in_use_in_bytes | El uso de ETCD es mayor que 2 GB |
Error de demasiadas solicitudes del servidor de API | Métrica de Prometheus administrada por Azure | apiserver_request_total | Filtro para el código de error 429 |
Errores de Webhook y túnel del servidor de API | Métrica de Prometheus administrada por Azure | apiserver_request_total | Filtrar por códigos de error 500 y 503 |
Pasos siguientes
Para más información sobre la supervisión de AKS, consulte los siguientes artículos:
Azure Kubernetes Service