다음을 통해 공유


Azure Virtual WAN 모니터링

이 문서에서는 다음을 설명합니다.

  • 이 서비스에 대해 수집할 수 있는 모니터링 데이터의 유형.
  • 해당 데이터를 분석하는 방법.

참고 항목

이 서비스 및/또는 Azure Monitor에 이미 익숙하고 모니터링 데이터를 분석하는 방법만 알고 싶은 경우 이 문서의 끝부분에 있는 분석 섹션을 참조하세요.

Azure 리소스를 사용하는 중요한 애플리케이션 및 비즈니스 프로세스가 있는 경우 시스템을 모니터링하고 시스템에 대한 경고를 받아야 합니다. Azure Monitor 서비스는 시스템의 모든 구성 요소에서 메트릭과 로그를 수집하고 집계합니다. Azure Monitor는 가용성, 성능, 복원력에 대한 보기를 제공하고 문제를 알려 줍니다. Azure Portal, PowerShell, Azure CLI, REST API 또는 클라이언트 라이브러리를 사용하여 모니터링 데이터를 설정하고 볼 수 있습니다.

Insights

Azure의 일부 서비스에는 서비스 모니터링을 위한 시작점을 제공하는 모니터링 대시보드가 Azure Portal에 있습니다. 이러한 대시보드를 인사이트라고 하며, Azure Portal에서 Azure Monitor의 Insights Hub에서 찾을 수 있습니다.

Virtual WAN은 Network Insights를 사용하여 사용자 및 운영자에게 자동 검색된 토폴로지 맵을 통해 표시되는 Virtual WAN의 상태를 볼 수 있는 기능을 제공합니다. 맵의 리소스 상태 및 상태 오버레이를 통해 Virtual WAN의 전체적인 상태에 대한 스냅샷 보기가 제공됩니다. Virtual WAN 포털의 리소스 구성 페이지에 대한 원클릭 액세스를 통해 맵에서 리소스를 탐색할 수 있습니다. 자세한 내용은 Virtual WAN용 Azure Monitor Network Insights를 참조하세요.

리소스 유형

Azure는 리소스 유형 및 ID의 개념을 사용하여 구독의 모든 항목을 식별합니다. 리소스 유형은 Azure에서 실행되는 모든 리소스에 대한 리소스 ID의 일부이기도 합니다. 예를 들어 가상 머신의 리소스 유형 중 하나는 Microsoft.Compute/virtualMachines입니다. 서비스 및 관련 리소스 유형 목록은 리소스 공급자를 참조하세요.

마찬가지로 Azure Monitor는 네임스페이스라고도 하는 리소스 유형에 따라 핵심 모니터링 데이터를 메트릭 및 로그로 구성합니다. 리소스 유형에 따라 다른 메트릭 및 로그를 사용할 수 있습니다. 서비스는 둘 이상의 리소스 유형과 연결될 수 있습니다.

Virtual WAN의 리소스 종류에 대한 자세한 내용은 Azure Virtual WAN 모니터링 데이터 참조를 참조하세요.

데이터 저장소

Azure Monitor의 경우:

  • 메트릭 데이터는 Azure Monitor 메트릭 데이터베이스에 저장됩니다.
  • 로그 데이터는 Azure Monitor 로그 저장소에 저장됩니다. 로그 분석은 이 저장소를 쿼리할 수 있는 Azure Portal의 도구입니다.
  • Azure 활동 로그는 Azure Portal에 자체 인터페이스가 있는 별도의 저장소입니다.

선택적으로 메트릭 및 활동 로그 데이터를 Azure Monitor 로그 저장소로 라우팅할 수 있습니다. 그런 다음 Log Analytics를 사용하여 데이터를 쿼리하고 다른 로그 데이터와 상호 연결할 수 있습니다.

많은 서비스에서는 진단 설정을 사용하여 메트릭 및 로그 데이터를 Azure Monitor 외부의 다른 스토리지 위치로 보낼 수 있습니다. 예를 들면 Azure Storage, 호스트된 파트너 시스템Event Hubs를 사용하는 비 Azuree 파트너 시스템이 있습니다.

Azure Monitor가 데이터를 저장하는 방법에 대한 자세한 내용은 Azure Monitor 데이터 플랫폼을 참조하세요.

Azure Monitor 플랫폼 메트릭

Azure Monitor는 대부분의 서비스에 대한 플랫폼 메트릭을 제공합니다. 이러한 메트릭은 다음과 같습니다.

  • 각 네임스페이스에 대해 개별적으로 정의됩니다.
  • Azure Monitor 시계열 메트릭 데이터베이스에 저장됩니다.
  • 간단하며 실시간에 가까운 경고를 지원할 수 있습니다.
  • 시간 경과에 따른 리소스의 성능을 추적하는 데 사용됩니다.

수집: Azure Monitor는 플랫폼 메트릭을 자동으로 수집합니다. 구성이 필요하지 않습니다.

라우팅: 일부 플랫폼 메트릭을 Azure Monitor 로그/Log Analytics로 라우팅하여 다른 로그 데이터로 쿼리할 수도 있습니다. 각 메트릭에 대한 DS 내보내기 설정을 확인하여 진단 설정을 사용하여 메트릭을 Azure Monitor 로그/Log Analytics로 라우팅할 수 있는지 확인합니다.

  • 자세한 내용은 메트릭 진단 설정을 참조하세요.
  • 서비스에 대한 진단 설정을 구성하려면 Azure Monitor에서 진단 설정 만들기를 참조하세요.

Azure Monitor의 모든 리소스에 대해 수집할 수 있는 모든 메트릭 목록은 Azure Monitor에서 지원되는 메트릭을 참조하세요.

Virtual WAN에 사용 가능한 메트릭 목록은 Azure Virtual WAN 모니터링 데이터 참조를 확인합니다.

Azure Portal을 사용하여 Virtual WAN에 대한 메트릭을 볼 수 있습니다. 다음 단계를 통해 메트릭을 찾아서 볼 수 있습니다.

  1. 모니터 게이트웨이를 선택한 다음 메트릭을 선택합니다. 하단에 있는 메트릭을 선택하면 사이트 간 VPN과 지점 및 사이트 간 VPN에 대한 가장 중요한 메트릭 대시보드를 볼 수도 있습니다.

    사이트 간 VPN 메트릭 대시보드를 보여 주는 스크린샷.

  2. 메트릭 페이지에서 메트릭을 볼 수 있습니다.

    범주가 강조 표시된 ‘메트릭’ 페이지를 보여 주는 스크린샷.

  3. 가상 허브 라우터에 대한 메트릭을 보려면 가상 허브 개요 페이지에서 메트릭을 선택하면 됩니다.

    메트릭 단추가 있는 가상 허브 페이지를 보여 주는 스크린샷.

자세한 내용은 Azure 리소스에 대한 메트릭 분석을 참조하세요.

PowerShell 단계

PowerShell을 사용하여 Virtual WAN에 대한 메트릭을 볼 수 있습니다. 쿼리하려면 다음 예제 PowerShell 명령을 사용합니다.

$MetricInformation = Get-AzMetric -ResourceId "/subscriptions/<SubscriptionID>/resourceGroups/<ResourceGroupName>/providers/Microsoft.Network/VirtualHubs/<VirtualHubName>" -MetricName "VirtualHubDataProcessed" -TimeGrain 00:05:00 -StartTime 2022-2-20T01:00:00Z -EndTime 2022-2-20T01:30:00Z -AggregationType Sum

$MetricInformation.Data
  • 리소스 ID. 가상 허브의 리소스 ID는 Azure Portal에서 확인할 수 있습니다. vWAN 내의 가상 허브 페이지로 이동하고 Essentials에서 JSON 보기를 선택합니다.
  • 메트릭 이름. 쿼리하는 메트릭의 이름을 나타내며, 이 경우에는 VirtualHubDataProcessed라고 합니다. 이 메트릭은 가상 허브 라우터가 허브의 선택한 기간에 처리한 모든 데이터를 보여 줍니다.
  • 시간 조직. 집계를 확인하고자 하는 빈도를 나타냅니다. 현재 명령에서 5분당 선택한 집계 단위가 표시됩니다. 5M/15M/30M/1H/6H/12H/1D를 선택할 수 있습니다.
  • 시작 시간 및 종료 시간. 이 시간은 UTC를 기준으로 합니다. 이러한 매개 변수를 입력할 때 UTC 값을 입력하는지 확인합니다. 이러한 매개 변수를 사용하지 않으면 기본적으로 지난 1시간 분량의 데이터가 표시됩니다.
  • 합계 집계 유형. 합계 집계 유형은 선택한 기간 동안 가상 허브 라우터를 트래버스한 총 바이트 수를 보여 줍니다. 예를 들어, 시간 세분성을 5분으로 설정하면 각 데이터 포인트는 해당 5분 간격 동안 전송된 바이트 수에 해당합니다. 이 값을 Gbps로 변환하려면 이 숫자를 37500000000으로 나누면 됩니다. 가상 허브의 용량에 따라 허브 라우터는 3Gbps에서 50Gbps 사이를 지원할 수 있습니다. MaxMin 집계 형식은 현재 의미가 없습니다.

Azure Monitor 리소스 로그

리소스 로그는 Azure 리소스에서 수행한 작업에 대한 인사이트를 제공합니다. 로그는 자동으로 생성되지만 저장하거나 쿼리하려면 로그를 Azure Monitor 로그로 라우팅해야 합니다. 로그는 범주별로 구성됩니다. 지정된 네임스페이스에는 여러 리소스 로그 범주가 있을 수 있습니다.

수집: 리소스 로그는 진단 설정을 만들고 하나 이상의 위치로 라우팅할 때까지 수집 및 저장되지 않습니다. 진단 설정을 만들 때 수집할 로그 범주를 지정합니다. 진단 설정을 만들고 유지 관리하는 방법에는 Azure Portal, 프로그래밍 방식, Azure Policy 사용 등을 포함한 여러 가지 방법이 있습니다.

라우팅: 제안되는 기본값은 리소스 로그를 Azure Monitor 로그로 라우팅하여 다른 로그 데이터로 쿼리할 수 있도록 하는 것입니다. Azure Storage, Azure Event Hubs, 특정 Microsoft 모니터링 파트너와 같은 다른 위치도 사용할 수 있습니다. 자세한 내용은 Azure 리소스 로그리소스 로그 대상을 참조하세요.

리소스 로그 수집, 저장 및 라우팅에 대한 자세한 내용은 Azure Monitor의 진단 설정을 참조하세요.

Azure Monitor에서 사용 가능한 모든 리소스 로그 범주 목록은 Azure Monitor에서 지원되는 리소스 로그를 참조하세요.

Azure Monitor의 모든 리소스 로그에는 동일한 헤더 필드와 서비스별 필드가 있습니다. 공용 스키마는 Azure Monitor 리소스 로그 스키마에서 설명합니다.

사용 가능한 리소스 로그 범주, 관련 Log Analytics 테이블 및 Virtual WAN에 대한 로그 스키마에 대한 자세한 내용은 Azure Virtual WAN 모니터링 데이터 참조를 참조하세요.

스키마

최상위 수준 진단 로그 스키마에 대한 자세한 설명은 Azure 진단 로그에 지원되는 서비스, 스키마 및 범주를 참조하세요.

Log Analytics를 통해 모든 메트릭을 검토하면 출력에 다음 열이 포함됩니다.

형식 설명
TimeGrain string PT1M(메트릭 값은 1분마다 푸시됨)
Count real 일반적으로 2와 같음(각 MSEE는 1분마다 단일 메트릭 값을 푸시함)
최소 real 두 MSEE에 의해 푸시되는 두 메트릭 값의 최소값
최대 real 두 MSEE에 의해 푸시되는 두 메트릭 값의 최대값
평균 real (최소 + 최대)/2와 같음
총계 real 두 MSEE의 두 메트릭 값 합계(쿼리된 메트릭에 대해 초점을 맞출 주 값)

로그를 보기 위한 진단 설정 만들기

다음 단계는 진단 설정을 만들고, 편집하고, 보는 데 도움이 됩니다.

  1. 포털에서 Virtual WAN 리소스로 이동한 다음 연결 그룹에서 허브를 선택합니다.

    vWAN 포털의 허브 선택을 보여 주는 스크린샷

  2. 왼쪽의 연결 그룹 아래에서 진단을 검사할 게이트웨이를 선택합니다.

    허브의 연결 섹션을 보여 주는 스크린샷

  3. 페이지 오른쪽에서 게이트웨이 모니터링을 선택한 다음 로그를 선택합니다.

    로그용 Azure Monitor에서 보기 선택을 보여 주는 스크린샷

  4. 이 페이지에서는 새 진단 설정(+진단 설정 추가)을 만들거나 기존 진단 설정을 편집할 수 있습니다(설정 편집). 다음 예에 표시된 대로 진단 로그를 Log Analytics로 보내거나, 이벤트 허브로 스트리밍하거나, 타사 솔루션으로 보내거나, 스토리지 계정에 보관하도록 선택할 수 있습니다.

    진단 로그 설정 선택을 보여 주는 스크린샷

  5. 저장을 클릭하면 몇 시간 내에 이 로그 분석 작업 영역에 로그가 표시되기 시작합니다.

  6. 보안 허브(Azure Firewall 포함)를 모니터링하려면 진단 설정 탭에 액세스하여 진단 및 로깅 구성을 수행해야 합니다.

    방화벽 진단 설정을 보여 주는 스크린샷

Important

이러한 설정을 사용하려면 추가 Azure 서비스(스토리지 계정, 이벤트 허브 또는 Log Analytics)가 필요하므로 비용이 늘어날 수 있습니다. 예상 비용을 계산하려면 Azure 가격 계산기를 방문하세요.

보안 허브 모니터링(Azure Firewall)

Azure Firewall을 사용하여 가상 허브를 보호하도록 선택한 경우 Azure Firewall 로그 및 메트릭에서 관련 로그 및 메트릭을 사용할 수 있습니다.

Azure Firewall 로그를 사용하여 보안 허브를 모니터링할 수 있습니다. 또한 Azure Firewall 리소스에서 작업을 감사하려면 활동 로그를 사용할 수 있습니다. 보안을 유지하고 보안 허브로 변환하는 모든 Azure Virtual WAN에 대해 Azure Firewall은 명시적 방화벽 리소스 개체를 만듭니다. 개체는 허브가 위치한 리소스 그룹에 있습니다.

vWAN 허브 리소스 그룹의 방화벽 리소스를 보여 주는 스크린샷

Azure 활동 로그

활동 로그에는 해당 리소스의 외부에서 볼 때 각 Azure 리소스에 대한 작업을 추적하는 구독 수준 이벤트(예: 새 리소스 만들기 또는 가상 머신 시작)가 포함되어 있습니다.

수집: 활동 로그 이벤트는 자동으로 생성되고 별도의 저장소에 수집되어 Azure Portal에서 볼 수 있습니다.

라우팅: 다른 로그 데이터와 함께 분석할 수 있도록 활동 로그 데이터를 Azure Monitor 로그로 보낼 수 있습니다. Azure Storage, Azure Event Hubs, 특정 Microsoft 모니터링 파트너와 같은 다른 위치도 사용할 수 있습니다. 활동 로그를 라우팅하는 방법에 대한 자세한 내용은 Azure 활동 로그 개요를 참조하세요.

모니터링 데이터 분석

모니터링 데이터를 분석하기 위한 많은 도구가 있습니다.

Azure Monitor 도구

Azure Monitor는 다음과 같은 기본 도구를 지원합니다.

더 복잡한 시각화를 허용하는 도구는 다음과 같습니다.

  • 대시보드: 다양한 종류의 데이터를 Azure Portal에서 하나의 창에 결합할 수 있습니다.
  • 통합 문서: Azure Portal에서 만들 수 있는 사용자 지정 가능한 보고서입니다. 통합 문서에는 텍스트, 메트릭, 로그 쿼리가 포함될 수 있습니다.
  • Grafana: 뛰어난 운영 대시보드를 제공하는 개방형 플랫폼 도구입니다. Grafana를 사용하여 Azure Monitor 외의 여러 소스에서 온 데이터를 포함하는 대시보드를 만들 수 있습니다.
  • Power BI: 다양한 데이터 소스에서 대화형 시각화를 제공하는 비즈니스 분석 서비스입니다. Azure Monitor에서 자동으로 로그 데이터를 가져오도록 Power BI를 구성하여 이러한 시각화를 활용할 수 있습니다.

Azure Monitor 내보내기 도구

다음 방법을 사용하여 Azure Monitor에서 다른 도구로 데이터를 내보낼 수 있습니다.

Azure Monitor용 REST API를 시작하려면 Azure 모니터링 REST API 연습을 참조하세요.

Kusto 쿼리

KQL(Kusto 쿼리 언어)을 사용하여 Azure Monitor 로그/로그 분석 저장소에서 모니터링 데이터를 분석할 수 있습니다.

Important

포털의 서비스 메뉴에서 로그를 선택하면 쿼리 범위가 현재 서비스로 설정된 상태로 로그 분석이 열립니다. 이 범위는 로그 쿼리에 해당 유형의 리소스의 데이터만 포함된다는 의미입니다. 다른 Azure 서비스의 데이터를 포함하는 쿼리를 실행하려면 Azure Monitor 메뉴에서 로그를 선택합니다. 자세한 내용은 Azure Monitor Log Analytics의 로그 쿼리 범위 및 시간 범위를 참조하세요.

모든 서비스에 대한 일반적인 쿼리 목록은 로그 분석 쿼리 인터페이스를 참조하세요.

경고

Azure Monitor 경고는 모니터링 데이터에서 특정한 조건이 발견될 때 사용자에게 사전에 알립니다. 경고를 통해 사용자에게 알리기 전에 시스템 문제를 식별하고 해결할 수 있습니다. 자세한 내용은 Azure Monitor 경고을 참조하세요.

Azure 리소스에 대한 일반적인 경고의 소스에는 여러 가지가 있습니다. Azure 리소스에 대한 일반적인 경고의 예는 샘플 로그 경고 쿼리를 참조하세요. AMBA(Azure Monitor 기준 경고) 사이트는 중요한 플랫폼 메트릭 경고, 대시보드 및 지침을 구현하는 반자동 방법을 제공합니다. 이 사이트는 ALZ(Azure 랜딩 존)의 일부인 전체 서비스를 포함하여 지속적으로 확장되는 Azure 서비스 하위 집합에 적용됩니다.

공통 경고 스키마는 Azure Monitor 경고 알림의 사용을 표준화합니다. 자세한 내용은 일반 경고 스키마를 참조하세요.

경고 유형

Azure Monitor 데이터 플랫폼의 모든 메트릭 또는 로그 데이터 원본에 대해 경고할 수 있습니다. 모니터링하는 서비스 및 수집하는 모니터링 데이터에 따라 다양한 유형의 경고가 있습니다. 서로 다른 형식의 경고에는 다양한 장점과 단점이 있습니다. 자세한 내용은 올바른 모니터링 경고 유형 선택을 참조하세요.

다음 목록에서는 만들 수 있는 Azure Monitor 경고의 유형에 대해 설명합니다.

  • 메트릭 경고는 정기적으로 리소스 메트릭을 평가합니다. 메트릭은 플랫폼 메트릭, 사용자 지정 메트릭, 메트릭으로 변환된 Azure Monitor의 로그 또는 Application Insights 메트릭일 수 있습니다. 메트릭 경고는 여러 조건과 동적 임계값을 적용할 수도 있습니다.
  • 로그 경고를 사용하면 사용자가 로그 분석 쿼리를 사용하여 미리 정의된 빈도로 리소스 로그를 평가할 수 있습니다.
  • 활동 로그 경고는 정의된 조건과 일치하는 새 활동 로그 이벤트가 발생할 때 트리거됩니다. Resource Health 경고 및 Service Health 경고는 서비스 및 Resource Health를 보고하는 활동 로그 경고입니다.

일부 Azure 서비스는 스마트 검색 경고, Prometheus 경고 또는 권장 경고 규칙도 지원합니다.

일부 서비스의 경우 동일한 Azure 지역에 존재하는 동일한 형식의 여러 리소스에 동일한 메트릭 경고 규칙을 적용하여 대규모로 모니터링할 수 있습니다. 모니터링되는 각 리소스에 대해 개별 알림이 전송됩니다. 지원되는 Azure 서비스 및 클라우드에 대한 내용은 하나의 경고 규칙을 사용하여 여러 리소스 모니터링을 참조하세요.

참고 항목

서비스에서 실행되는 애플리케이션을 만들거나 실행하는 경우 Azure Monitor 애플리케이션 정보는 더 많은 형식의 경고를 제공할 수 있습니다.

Virtual WAN 경고 규칙

Azure Virtual WAN 모니터링 데이터 참조에 나열된 모든 메트릭, 로그 항목 또는 활동 로그 항목에 대한 경고를 설정할 수 있습니다.

Azure Virtual WAN 모니터링 - 모범 사례

이 문서에서는 Virtual WAN 및 Virtual WAN과 함께 배포할 수 있는 다양한 구성 요소를 모니터링하는 구성 모범 사례를 제공합니다. 이 문서에 나오는 권장 사항은 주로 Azure Virtual WAN에서 생성한 기존 Azure Monitor 메트릭 및 로그가 기준입니다. Virtual WAN에 대해 수집되는 메트릭 및 로그 목록은 Virtual WAN 데이터 참조 모니터링을 참조하세요.

이 문서에 나오는 대부분의 권장 사항은 Azure Monitor 경고 생성을 추천합니다. Azure Monitor 경고는 모니터링 데이터에 중요한 이벤트가 있을 때 적극적으로 알려 줍니다. 이 정보는 근본 원인을 더 빨리 해결하고 궁극적으로 가동 중지 시간을 줄이는 데 도움이 됩니다. 메트릭 경고를 만드는 방법을 알고 싶다면 자습서: Azure 리소스에 대한 메트릭 경고 만들기를 참조하세요. 로그 쿼리 경고를 만드는 방법을 알고 싶다면 자습서: Azure 리소스에 대한 로그 쿼리 경고 만들기를 참조하세요.

Virtual WAN 게이트웨이

이 섹션에서는 Virtual WAN 게이트웨이에 대한 모범 사례를 설명합니다.

사이트 간 VPN 게이트웨이

디자인 검사 목록 - 메트릭 경고

  • 터널 송신 및/또는 수신 패킷 수 감소량 증가에 대한 경고 규칙을 만듭니다.
  • BGP 피어 상태를 모니터링하는 경고 규칙을 만듭니다.
  • 보급 및 학습된 BGP 경로 수를 모니터링하는 경고 규칙을 만듭니다.
  • VPN 게이트웨이 초과 사용에 대한 경고 규칙을 만듭니다.
  • 터널 초과 사용에 대한 경고 규칙을 만듭니다.
권장 설명
터널 송신 및/또는 수신 패킷 삭제 수 증가에 대한 경고 규칙을 만듭니다. 터널 송신 및/또는 수신 패킷 삭제 수가 증가하면 Azure VPN 게이트웨이 또는 원격 VPN 디바이스 관련 문제가 발생할 수 있습니다. 경고 규칙을 만들 때 터널 송신/수신 패킷 삭제 수 메트릭을 선택합니다. 경고 논리를 구성할 때는 0보다 큰 정적 임계값합계 집계 유형을 정의합니다.

연결 전체를 모니터링하거나, 개별 터널과 관련된 문제에 대해 경고하도록 인스턴스원격 IP 기준으로 경고 규칙을 분할할 수 있습니다. VPN 연결, 링크와 Virtual WAN에서의 터널 개념이 어떻게 다른지 알아보려면 Virtual WAN FAQ를 참조하세요.
BGP 피어 상태를 모니터링하는 경고 규칙을 만듭니다. 사이트 간 연결에서 BGP를 사용하는 경우, 게이트웨이 인스턴스와 원격 디바이스 간의 BGP 피어링 상태를 반드시 모니터링해야 합니다. 되풀이 실패 때문에 연결이 중단될 수 있기 때문입니다.

경고 규칙을 만들 때 BGP 피어 상태 메트릭을 선택합니다. 정적 임계값을 사용하여 평균 집계 유형을 선택하고, 값이 1보다 작을 때마다 트리거되도록 경고를 구성합니다.

경고를 인스턴스BGP 피어 주소 기준으로 분할하여 개별 피어링 관련 문제를 감지하는 것이 좋습니다. 게이트웨이 인스턴스 IP를 BGP 피어 주소로 선택해선 안 됩니다. 이 메트릭은 (항상 0인) 인스턴스 자체를 포함한 가능한 모든 조합을 대상으로 BGP 상태를 모니터링하기 때문입니다.
보급 및 학습된 BGP 경로 수를 모니터링하는 경고 규칙을 만듭니다. BGP 경로 보급BGP 경로 학습은 VPN 게이트웨이에 의해 피어에 보급되고 피어에서 학습한 경로 수를 각각 모니터링합니다. 이러한 메트릭이 예기치 않게 0으로 떨어진다면, 게이트웨이 또는 온-프레미스 관련 문제가 원인일 수 있습니다.

두 메트릭 모두에 대해 메트릭 값이 0이 때마다 경고가 트리거되도록 구성하는 것이 좋습니다. 합계 집계 유형을 사용합니다. 인스턴스 기준으로 분할하여 개별 게이트웨이 인스턴스를 모니터링합니다.
VPN 게이트웨이 초과 사용에 대한 경고 규칙을 만듭니다. 인스턴스당 배율 단위의 수는 VPN Gateway의 총 처리량을 결정합니다. 동일한 게이트웨이 인스턴스에서 종료되는 모든 터널은 해당 통합 처리량을 공유합니다. 인스턴스가 오랜 시간 동안 자체 용량으로 작동하면 터널 안정성이 영향을 받을 수 있습니다.

경고 규칙을 만들 때 게이트웨이 S2S 대역폭을 선택합니다. 평균 처리량이 두 인스턴스의 최대 집계 처리량에 가까운 값보다 때 경고가 트리거되도록 구성합니다. 또는 경고를 인스턴스 기준으로 분할하고 인스턴스당 최대 처리량을 참조로 사용합니다.

터널당 처리량 요구 사항을 미리 결정하여 적절한 배율 단위 수를 선택하는 것이 좋습니다. 사이트 간 VPN 게이트웨이에 지원되는 배율 단위 값에 대한 자세한 내용은 Virtual WAN FAQ를 참조하세요.
터널 초과 사용에 대한 경고 규칙을 만듭니다. 종료되는 게이트웨이 인스턴스의 배율 단위는 터널당 허용되는 최대 처리량을 결정합니다.

터널이 최대 처리량에 가까워져 성능 및 연결 문제가 발생할 위험이 있는 경우 경고를 받는 것이 좋습니다. 터널 활용률 증가의 근본 원인을 조사하거나 게이트웨이의 배율 단위를 늘려 적극적으로 조치합니다.

경고 규칙을 만들 때 터널 대역폭을 선택합니다. 인스턴스원격 IP 기준으로 분할하여 모든 개별 터널을 모니터링하거나 대신 특정 터널을 선택합니다. 평균 처리량이 터널당 허용되는 최대 처리량에 가까운 값보다 때 경고가 트리거되도록 구성합니다.

게이트웨이의 배율 단위가 터널의 최대 처리량에 어떤 영향을 미치는지 자세히 알아보려면 Virtual WAN FAQ를 참조하세요.

디자인 검사 목록 - 로그 쿼리 경고

로그 기반 경고를 구성하려면 먼저 사이트 간 및 지점 사이트 간 VPN 게이트웨이에 대한 진단 설정을 만들어야 합니다. 진단 설정은 수집하려는 로그 및/또는 메트릭과 나중에 분석할 데이터를 저장하는 방법을 정의하는 곳입니다. 게이트웨이 메트릭과 달리, 진단 설정이 구성되어 있지 않으면 게이트웨이 로그를 사용할 수 없습니다. 진단 설정을 만드는 방법을 알아보려면 진단 설정을 만들어 로그 보기를 참조하세요.

  • 터널 연결 끊기 경고 규칙을 만듭니다.
  • BGP 연결 끊기 경고 규칙을 만듭니다.
권장 설명
터널 연결 끊기 경고 규칙을 만듭니다. 터널 진단 로그를 사용하여 사이트 간 연결에서 연결 끊기 이벤트를 추적합니다. 연결 끊기 이벤트는 여러 원인 중에서도 SA 협상 실패나 원격 VPN 디바이스의 무응답 때문에 발생할 수 있습니다. 터널 진단 로그는 연결 끊김 이유도 제공합니다. 경고 규칙을 만들 때 연결 끊기 이벤트를 선택하려면 이 표 아래에 있는 터널 연결 끊기 경고 규칙 만들기 - 로그 쿼리를 참조하세요.

쿼리 실행으로 인해 발생하는 행 수가 0보다 클 때마다 경고가 트리거되도록 구성합니다. 이 경고가 효과적이려면 집계 세분성을 1~5분으로 선택하고 평가 빈도는 1~5분으로 선택해야 합니다. 이렇게 하면 집계 세분성 간격이 지난 후에 새 간격의 행 수는 다시 0이 됩니다.

터널 진단 로그를 분석할 때의 문제 해결 팁은 진단 로그를 사용하여 Azure VPN Gateway 문제 해결을 참조하세요. 또한 이러한 로그에는 자세한 IKE 관련 진단이 포함되어 있으므로, IKE 진단 로그를 사용하여 문제 해결을 보완해야 합니다.
BGP 연결 끊기 경고 규칙을 만듭니다. 경로 진단 로그를 사용하여 BGP 세션과 관련된 경로 업데이트와 문제를 추적합니다. 반복되는 BGP 연결 끊기 이벤트는 연결에 영향을 미치고 가동 중지 시간을 유발할 수 있습니다. 경고 규칙을 만들 때 연결 끊기 이벤트를 선택하려면 이 표 아래에 있는 BGP 연결 끊기 경고 규칙 만들기 - 로그 쿼리를 참조하세요.

쿼리 실행으로 인해 발생하는 행 수가 0보다 클 때마다 경고가 트리거되도록 구성합니다. 이 경고가 효과적이려면 집계 세분성을 1~5분으로 선택하고 평가 빈도는 1~5분으로 선택해야 합니다. 이렇게 하면 집계 세분성 간격이 지난 후 BGP 세션이 복원되면 새 간격에 대한 행 수는 다시 0이 됩니다.

경로 진단 로그에서 수집한 데이터에 대한 자세한 내용은 진단 로그를 사용하여 Azure VPN Gateway 문제 해결을 참조하세요.

로그 쿼리

  • 터널 연결 끊기 경고 규칙 만들기 - 로그 쿼리: 다음 로그 쿼리를 사용하면 경고 규칙을 만들 때 터널 연결 끊기 이벤트를 선택할 수 있습니다.

    AzureDiagnostics
    | where Category == "TunnelDiagnosticLog" 
    | where OperationName == "TunnelDisconnected"
    
  • BGP 연결 끊기 규칙 경고 만들기 - 로그 쿼리: 다음 로그 쿼리를 사용하면 경고 규칙을 만들 때 BGP 연결 끊기 이벤트를 선택할 수 있습니다.

    AzureDiagnostics 
    | where Category == "RouteDiagnosticLog" 
    | where OperationName == "BgpDisconnectedEvent"
    

지점-사이트 간 VPN Gateway

다음 섹션에서는 메트릭 기반 경고의 구성에 대해서만 자세히 설명합니다. 그러나 Virtual WAN 지점 및 사이트 간 게이트웨이는 진단 로그도 지원합니다. 지점 및 사이트 간 게이트웨이에 사용 가능한 진단 로그에 대한 자세한 내용은 Virtual WAN 지점 및 사이트 간 VPN 게이트웨이 진단을 참조하세요.

디자인 검사 목록 - 메트릭 경고

  • 게이트웨이 초과 사용에 대한 경고 규칙을 만듭니다.
  • 제한에 근접한 P2S 연결 수에 대한 경고를 만듭니다.
  • 제한에 근접한 사용자 VPN 경로 수에 대한 경고를 만듭니다.
권장 설명
게이트웨이 초과 사용에 대한 경고 규칙을 만듭니다. 구성된 배율 단위의 수는 지점 및 사이트 간 게이트웨이의 대역폭을 결정합니다. 지점 및 사이트 간 게이트웨이 배율 단위에 대한 자세한 내용은 지점 및 사이트 간(사용자 VPN)을 참조하세요.

게이트웨이 P2S 대역폭 메트릭을 사용하여 게이트웨이의 사용률을 모니터링하고 게이트웨이 대역폭이 집계 처리량에 근접한 값을 초과할 때마다 트리거되는 경고 규칙을 구성합니다. 예를 들어 게이트웨이가 2 배율 단위로 구성된 경우 집계 처리량은 1Gbps가 됩니다. 이 경우 임계값을 950Mbps로 정의할 수 있습니다.

이 경고를 사용하여 증가한 사용률의 근본 원인을 사전에 조사하고, 나아가 필요한 경우 배율 단위 수를 늘릴 수 있습니다. 경고 규칙을 구성할 때 평균 집계 유형을 선택합니다.
제한에 근접한 P2S 연결 수에 대한 경고를 만듭니다 허용되는 지점 및 사이트 간 연결 최대 수는 게이트웨이에 구성된 배율 단위 수에 따라 결정됩니다. 지점 및 사이트 간 게이트웨이 배율 단위에 대한 자세한 내용은 지점 및 사이트 간(사용자 VPN) FAQ를 참조하세요.

P2S 연결 수 메트릭을 사용하여 연결 수를 모니터링합니다. 연결 수가 허용되는 최대값에 근접할 때마다 트리거되는 경고 규칙을 구성하려면 이 메트릭을 선택합니다. 예를 들어 1 배율 단위 게이트웨이는 최대 500개의 동시 연결을 지원합니다. 이 경우 연결 수가 450을 초과할 때마다 트리거되도록 경고를 구성할 수 있습니다.

이 경고를 사용하여 배율 단위 증가가 필요한지를 확인하세요. 경고 규칙을 구성할 때 합계 집계 유형을 선택합니다.
제한에 근접한 사용자 VPN 경로 수에 대한 경고 규칙을 만듭니다. 사용되는 프로토콜은 사용자 VPN 경로의 최대 수를 결정합니다. IKEv2는 프로토콜 수준 제한이 경로 255개이지만 OpenVPN은 제한이 경로 1000개입니다. 이 팩트에 대해 자세히 알아보려면 VPN 서버 구성 개념을 참조하세요.

최대 사용자 VPN 경로 수에 근접하면 경고를 받고 미리 조치를 취해 가동 중지 시간을 방지할 수 있습니다. 사용자 VPN 경로 수를 사용하여 이 상황을 모니터링하고, 경로 수가 제한에 가까운 값을 초과할 때마다 트리거되는 경고 규칙을 구성합니다. 예를 들어 제한이 경로 255개인 경우 임계값 값은 230이 적절합니다. 경고 규칙을 구성할 때 합계 집계 유형을 선택합니다.

ExpressRoute 게이트웨이

다음 섹션에서는 메트릭 기반 경고를 중점적으로 살펴봅니다. 게이트웨이 구성 요소에 초점을 맞춘 여기에서 설명하는 경고 외에도, 사용 가능한 메트릭, 로그 및 도구를 이용하여 ExpressRoute 회로를 모니터링하는 것이 좋습니다. ExpressRoute 모니터링에 대한 자세한 내용은 ExpressRoute 모니터링, 메트릭 및 경고를 참조하세요. ExpressRoute Traffic Collector 도구를 사용하는 방법에 대한 자세한 내용은 ExpressRoute Direct를 대상으로 ExpressRoute Traffic Collector 구성을 참조하세요.

디자인 검사 목록 - 메트릭 경고

  • 초당 받은 비트 수에 대한 경고 규칙을 만듭니다.
  • CPU 초과 사용에 대한 경고 규칙을 만듭니다.
  • 초당 수신 패킷에 대한 경고 규칙을 만듭니다.
  • 피어에 보급된 경로 수에 대한 경고 규칙을 만듭니다.
  • 피어에서 학습된 경로 수에 대한 경고 규칙 개수를 계산합니다.
  • 잦은 빈도의 경로 변경에 대한 경고 규칙을 만듭니다.
권장 설명
초당 받은 비트 수에 대한 경고 규칙을 만듭니다. 초당 받은 비트 수는 게이트웨이가 MSEE에서 수신한 총 트래픽 양을 모니터링합니다.

게이트웨이에서 수신되는 트래픽 양이 최대 처리량에 도달할 위험이 있는 경우 경고를 받는 것이 좋습니다. 이런 상황은 성능 및 연결 문제로 이어질 수 있습니다. 이 방법을 통해 게이트웨이 사용률 증가의 근본 원인을 조사하거나 게이트웨이의 최대 허용 처리량을 늘려 사전에 조치를 취할 수 있습니다.

경고 규칙을 구성할 때 평균 집계 유형을, 그리고 게이트웨이에 대해 프로비전된 최대 처리량에 가까운 임계값 값을 선택합니다.

또한 초당 받은 비트 수가 0에 가까운 경우 경고를 설정하는 것이 좋습니다. 게이트웨이 또는 MSEE 관련 문제를 의미할 수 있기 때문입니다.

프로비전된 배율 단위의 수는 ExpressRoute 게이트웨이의 최대 처리량을 결정합니다. ExpressRoute 게이트웨이 성능에 대한 자세한 내용은 Azure Virtual WAN의 ExpressRoute 연결 정보를 참조하세요.
CPU 초과 사용에 대한 경고 규칙을 만듭니다. ExpressRoute 게이트웨이를 사용하는 경우 CPU 사용률을 반드시 모니터링해야 합니다. 높은 사용률이 오랫동안 유지되면 성능과 연결이 영향을 받을 수 있습니다.

CPU 사용률 메트릭을 사용하여 사용률을 모니터링하고, CPU 사용률이 80%를 초과할 때마다 경고를 생성합니다. 이렇게 해야 근본 원인을 조사하고 나아가 필요한 경우 배율 단위 수를 늘릴 수 있기 때문입니다. 경고 규칙을 구성할 때 평균 집계 유형을 선택합니다.

ExpressRoute 게이트웨이 성능에 대한 자세한 내용은 Azure Virtual WAN의 ExpressRoute 연결 정보를 참조하세요.
초당 받은 패킷 수에 대한 경고 규칙을 만듭니다. 초당 패킷은 Virtual WAN ExpressRoute 게이트웨이를 이동하는 인바운드 패킷 수를 모니터링합니다.

초당 패킷 수가 게이트웨이에 구성된 배율 단위 수에 허용되는 제한에 가까워지면 경고를 받을 수 있습니다.

경고 규칙을 구성할 때 평균 집계 유형을 선택합니다. 게이트웨이의 배율 단위 수에 따라 허용되는 초당 패킷 최대 수에 가까운 임계값 값을 선택합니다. ExpressRoute 성능에 대한 자세한 내용은 Azure Virtual WAN의 ExpressRoute 연결 정보를 참조하세요.

또한 초당 패킷이 0에 가까운 경우 경고를 설정하는 것이 좋습니다. 게이트웨이 또는 MSEE 관련 문제를 의미할 수 있기 때문입니다.
피어에 보급된 경로 수에 대한 경고 규칙을 만듭니다. 피어에 보급된 경로 수는 ExpressRoute 게이트웨이에서 가상 허브 라우터 및 Microsoft Enterprise Edge 디바이스에 보급된 경로 수를 모니터링합니다.

ExpressRoute 디바이스로 표시되는 두 BGP 피어 선택하도록 필터를 추가하고, 보급된 경로 수가 문서화된 제한인 1000개에 접근하는 경우를 식별하는 경고를 만드는 것이 좋습니다. 예를 들어 보급된 경로 수가 950보다 클때 트리거되도록 경고를 구성합니다.

또한 Microsoft Edge 디바이스에 보급된 경로 수가 0인 경우 경고를 구성하여 연결 문제를 사전에 감지하는 것이 좋습니다.

이러한 경고를 추가하려면 피어에 보급된 경로 수 메트릭을 선택하고 필터 추가 옵션을 선택한 다음 ExpressRoute 디바이스를 선택합니다.
피어에서 학습된 경로 수에 대한 경고 규칙을 만듭니다. 피어에서 학습된 경로 수는 가상 허브 라우터 및 Microsoft Enterprise Edge 디바이스에서 ExpressRoute 게이트웨이가 학습한 경로 수를 모니터링합니다.

ExpressRoute 디바이스로 표시되는 두 BGP 피어 선택하도록 필터를 추가하고, 학습된 경로 수가 문서화된 제한인 4000개(표준 SKU) 또는 10,000개(프리미엄 SKU 회로)에 접근하는 경우를 식별하는 경고를 만드는 것이 좋습니다.

또한 Microsoft Edge 디바이스에 보급된 경로 수가 0인 경우 경고를 구성하는 것이 좋습니다. 이러한 방식은 온-프레미스에서 보급 경로가 중단되는 시점을 검색하는 데 도움이 될 수 있습니다.
잦은 빈도의 경로 변경에 대한 경고 규칙을 만듭니다. 경로 변경 빈도는 사이트 간 및 지점 및 사이트 간 VPN 같은 다른 유형의 분기를 포함한, 피어에서 학습되고 피어에 보급되는 경로의 변경 빈도를 보여 줍니다. 이 메트릭을 사용하면 새 분기 또는 추가 회로가 연결되거나 연결이 끊어지는 시점을 확인할 수 있습니다.

이 메트릭은 플래플링 같은 BGP 보급 문제를 식별할 때 유용한 도구입니다. 환경이 정적이며 BGP 변경이 예상되지 않는 경우 경고를 설정하는 것이 좋습니다. BGP 동작을 일관되게 모니터링하려면 1보다 크고 집계 세분성이 15분인 입계값을 선택합니다.

환경이 동적이고 BGP 변경이 자주 예상되는 경우에는 가양성을 방지하기 위해 경고를 설정하지 않을 수도 있습니다. 그러나 네트워크 가시성을 확보하고 싶다면 이 메트릭을 고려해야 합니다.

가상 허브

다음 섹션에서는 가상 허브용 메트릭 기반 경고를 중점적으로 살펴봅니다.

디자인 검사 목록 - 메트릭 경고

  • BGP 피어 상태에 대한 경고 규칙을 만듭니다
권장 설명
BGP 피어 상태를 모니터링하는 경고 규칙을 만듭니다. 경고 규칙을 만들 때 BGP 피어 상태 메트릭을 선택합니다. 정적 임계값을 사용하여 평균 집계 유형을 선택하고, 값이 1보다 작을 때마다 트리거되도록 경고를 구성합니다.

이 방식을 사용하면 허브에 배포된 ExpressRoute, 사이트 간 VPN 및 지점 및 사이트 간 VPN Gateway와 가상 허브 라우터에 연결 문제가 발생하는 경우를 식별할 수 있습니다.

Azure Firewall

이 문서의 본 섹션에서는 메트릭 기반 경고를 중점적으로 살펴봅니다. Azure Firewall은 모니터링을 위해 포괄적인 메트릭 및 로그 목록을 제공합니다. 다음 섹션에 설명된 경고를 구성하는 것 외에도 Azure Firewall 통합 문서가 Azure Firewall을 모니터링하는 데 어떻게 도움이 될 수 있는지 살펴봅니다. 또한 Microsoft Sentinel용 Azure Firewall 커넥터를 사용하여 Azure Firewall 로그를 Microsoft Sentinel에 연결하는 이점도 살펴봅니다.

디자인 검사 목록 - 메트릭 경고

  • SNAT 포트 소모 위험에 대한 경고 규칙을 만듭니다.
  • 방화벽 초과 사용에 대한 경고 규칙을 만듭니다.
권장 설명
SNAT 포트 소모 위험에 대한 경고 규칙을 만듭니다. Azure Firewall은 백 엔드 가상 머신 확장 집합 인스턴스별로 구성된 공용 IP 주소당 2,496개의 SNAT 포트를 제공합니다. 인터넷으로 향하는 아웃바운드 트래픽에 대한 조직의 요구 사항을 충족하는 SNAT 포트 수를 미리 예측하는 것이 중요합니다. 이렇게 하지 않으면 Azure Firewall에서 사용 가능한 SNAT 포트 수가 소모되어 아웃바운드 연결 오류가 발생할 수 있습니다.

SNAT 포트 사용률 메트릭을 사용하여 현재 사용 중인 아웃바운드 SNAT 포트의 비율을 모니터링합니다. 예를 들어 (예기치 않은 트래픽 증가 등의 이유로) 이 백분율이 95% 초과할 때마다 트리거되는 이 메트릭에 대한 경고 규칙을 만들어, Azure Firewall에서 추가 공용 IP 주소를 구성하거나 대신 Azure NAT Gateway를 사용하여 적절한 조치를 취합니다. 경고 규칙을 구성할 때 최대 집계 유형을 사용합니다.

SNAT 포트 사용률 메트릭을 해석하는 방법에 대한 자세한 내용은 Azure Firewall 로그 및 메트릭 개요를 참조하세요. Azure Firewall에서 SNAT 포트의 크기를 조정하는 방법에 대한 자세한 내용은 Azure NAT Gateway를 사용하여 SNAT 포트 크기 조정을 참조하세요.
방화벽 초과 사용에 대한 경고 규칙을 만듭니다. Azure Firewall 최대 처리량은 SKU 및 사용하도록 설정된 기능에 따라 달라집니다. Azure Firewall 성능에 대한 자세한 내용은 Azure Firewall 성능을 참조하세요.

방화벽이 최대 처리량에 가까워지면 경고를 받는 것이 좋습니다. 방화벽 성능에 영향을 줄 수 있는 이러한 상황이 발생했을 때 근본 원인을 해결해야 합니다.

처리량 메트릭이 최대 처리량에 가까운 값을 초과할 때마다 트리거되는 경고 규칙을 만듭니다. 예를 들어 최대 처리량이 30Gbps인 경우 임계값 값으로 25Gbps를 구성합니다. 처리량 메트릭 단위는 비트/초입니다. 경고 규칙을 만들 때 평균 집계 유형을 선택합니다.

Resource Health 경고

아래 리소스를 대상으로 Service Health를 통해 Resource Health 경고를 구성할 수도 있습니다. 이 방식을 사용하면 Virtual WAN 환경의 가용성에 대한 정보를 얻을 수 있습니다. 경고를 통해 온-프레미스 환경의 문제가 아닌 Azure 리소스가 비정상 상태로 전환되어 네트워킹 문제가 발생하는지 여부를 해결할 수 있습니다. 리소스 상태가 저하되거나 사용할 수 없게 되면 경고를 구성하는 것이 좋습니다. 리소스 상태가 저하 또는 사용할 수 없음이 되는 경우, 이러한 리소스에서 처리한 트래픽의 양, 이러한 리소스에 보급된 경로 또는 생성된 분기/VNet 연결 수가 최근 급증했는지 분석할 수 있습니다. Virtual WAN에서 지원되는 제한에 대한 자세한 내용은 Azure Virtual WAN 제한을 참조하세요.

  • Microsoft.Network/vpnGateways
  • Microsoft.Network/expressRouteGateways
  • Microsoft.Network/azureFirewalls
  • Microsoft.Network/virtualHubs
  • Microsoft.Network/p2sVpnGateways