AKS 클러스터 상태 평가
이 문서는 시리즈의 일부입니다. 개요부터 시작합니다.
심사 연습을 시작하려면 클러스터 및 네트워킹의 전반적인 상태를 평가합니다.
도구
AKS(Azure Kubernetes Service) 클러스터에서 문제를 진단하고 해결하는 데 사용할 수 있는 많은 도구와 기능이 있습니다.
Azure Portal에서 AKS 클러스터 리소스를 선택합니다. 이러한 도구와 기능은 탐색 창에 있습니다.
문제 진단 및 해결: 이 도구를 사용하여 클러스터 내에서 문제를 식별하고 해결할 수 있습니다.
리소스 상태: 이 도구를 사용하여 Azure 리소스에 영향을 줄 수 있는 서비스 문제를 진단하고 지원을 받을 수 있습니다. 이 도구는 리소스의 현재 및 과거 상태 상태 대한 정보를 제공합니다.
Advisor 권장 사항: Azure Advisor 는 개인 설정된 클라우드 컨설턴트 역할을 하여 Azure 배포 최적화를 위한 모범 사례를 따르도록 안내합니다. Advisor를 사용하여 리소스 구성 및 사용량 원격 분석을 분석할 수 있습니다. Advisor는 비용 효율성, 성능, 안정성 및 보안을 향상시킬 수 있도록 솔루션을 제안합니다.
로그: 이 기능을 사용하여 Log Analytics 작업 영역에 저장된 클러스터 로그 및 메트릭에 액세스합니다. 클러스터의 로그 및 메트릭을 모니터링하고 분석하여 인사이트를 제공하고 문제 해결을 개선할 수 있습니다.
이러한 도구와 기능을 사용하여 문제를 효과적으로 진단 및 해결하고, AKS 클러스터 배포를 최적화하고, Azure 리소스의 상태 및 성능을 모니터링할 수 있습니다.
문제 진단 및 해결
문제 진단 및 해결 기능은 클러스터와 관련된 다양한 문제를 식별하고 해결하는 데 도움이 되는 포괄적인 도구 모음을 제공합니다. 문제와 가장 관련된 문제 해결 범주를 선택합니다.
클러스터 상태를 검사 위해 다음을 선택할 수 있습니다.
- 클러스터 및 컨트롤 플레인 가용성 및 성능: 클러스터의 상태에 영향을 주는 서비스 가용성 또는 제한 문제가 있는지 확인합니다.
- 커넥트성 문제: 클러스터 Do기본 DNS(이름 시스템) 확인에 오류가 있는지 또는 아웃바운드 통신 경로에 연결 문제가 있는지 확인합니다.
리소스 상태
리소스 상태 기능을 사용하여 클러스터의 상태에 영향을 줄 수 있는 클러스터 문제 및 서비스 문제를 식별하고 지원합니다. 클러스터의 상태를 쉽게 모니터링할 수 있도록 리소스 경고를 설정합니다. 리소스 상태 기능은 클러스터의 현재 및 과거 상태에 대한 보고서를 제공합니다. 상태 상태 네 가지가 있습니다.
사용 가능: 이 상태 클러스터의 상태에 영향을 주는 이벤트가 검색되지 않음을 나타냅니다. 클러스터가 지난 24시간 이내에 계획되지 않은 가동 중지 시간에서 복구된 경우 최근에 확인된 알림이 나타납니다.
사용할 수 없음: 이 상태 클러스터의 상태에 영향을 주는 진행 중인 플랫폼 또는 플랫폼이 아닌 이벤트가 검색되었음을 나타냅니다.
알 수 없음: 이 상태 기능이 10분 이상 리소스에 대한 정보를 받지 못했음을 나타냅니다. 이 상태 일반적으로 가상 머신의 할당을 취소할 때 나타납니다. 이 상태 리소스 상태를 명확하게 나타내는 것은 아니지만 문제 해결에 유용한 데이터 요소일 수 있습니다.
성능 저하: 이 상태 클러스터의 성능이 저하되었지만 클러스터를 계속 사용할 수 있음을 나타냅니다.
다음 스크린샷은 리소스 상태 개요를 보여 줍니다.
자세한 내용은 Azure 리소스 상태 개요를 참조하세요.
Advisor
Advisor는 안정성, 보안, 운영 우수성 및 성능 효율성을 위해 AKS 클러스터를 최적화하는 데 도움이 되는 실행 가능한 권장 사항을 제공합니다. Advisor를 사용하여 클러스터의 성능을 사전에 개선하고 잠재적인 문제를 방지할 수 있습니다. 클러스터를 최적화하는 방법에 대한 자세한 내용은 권장 사항을 선택합니다.
다음 스크린샷은 선택한 권장 사항에 대한 리소스를 보여 줍니다.
자세한 내용은 Advisor 개요를 참조하세요.
Log Analytics
Log Analytics는 클러스터의 상태에 대한 인사이트를 제공합니다. Log Analytics 작업 영역에 액세스하려면 AKS 클러스터로 이동하여 탐색 창에서 로그를 선택합니다.
미리 정의된 쿼리를 선택하여 클러스터 상태를 분석할 수 있습니다.
기본 제공 쿼리를 사용하여 Log Analytics 작업 영역에서 수집된 로그 및 메트릭을 쿼리합니다. 다음 목록에서는 가용성, 컨테이너 로그 및 진단 범주의 일부 쿼리 함수에 대해 설명합니다.
가용성
노드당 준비 상태 쿼리: 준비 상태 따라 클러스터의 모든 노드 수를 확인합니다.
단계 쿼리를 사용하여 모든 Pod 수를 나열합니다. 실패, 보류 중, 알 수 없음, 실행 중 또는 성공과 같은 단계별 모든 Pod 수를 확인합니다.
컨테이너 로그
컨테이너 로그 테이블 쿼리에서 값 찾기: LogEntry에 지정된 문자열 매개 변수가 있는 ContainerLogs 테이블에서 행을 찾습니다.
네임스페이스 쿼리당 컨테이너 로그 나열: 클러스터의 네임스페이스에서 컨테이너 로그를 봅니다.
진단
클러스터 자동 크기 조정기 로그 쿼리: 클러스터 자동 크기 조정기에서 로그를 쿼리합니다. 이 쿼리는 클러스터가 예기치 않게 확장 또는 축소되는 이유에 대한 정보를 제공할 수 있습니다.
Kubernetes API 서버 로그 쿼리: Kubernetes API 서버에서 로그 쿼리
이미지 인벤토리 쿼리: 모든 컨테이너 이미지 및 해당 상태 나열합니다.
노드 쿼리당 초당 Prometheus 디스크 읽기: 기본 Kubernetes 네임스페이스의 Prometheus 디스크 읽기 메트릭을 시간 차트로 봅니다.
지난 주 쿼리의 평균 CPU 사용량 증가: 지난 주의 인스턴스별 평균 CPU 증가율을 내림차순으로 표시합니다.
참가자
Microsoft에서 이 문서를 유지 관리합니다. 원래 다음 기여자가 작성했습니다.
주요 작성자:
- 파올로 살바토리 | 수석 고객 엔지니어
- Francis Simy Nazareth | 선임 기술 전문가
기타 기여자:
- 롱 장 | 선임 제품 관리자
비공개 LinkedIn 프로필을 보려면 LinkedIn에 로그인합니다.