監視 Azure 虛擬 WAN
本文章說明:
- 您可以為此服務收集的監視資料類型。
- 分析資料的方式。
注意
如果您已經熟悉此服務和/或 Azure 監視器,只想知道如何分析監視資料,請參閱本文靠近結尾的分析一節。
當您有依賴 Azure 資源的重要應用程式和商務流程時,就需要監視並取得系統的警示。 Azure 監視器服務會從您系統的每個元件收集及彙總計量和記錄。 Azure 監視器讓您能夠檢視可用性、效能及復原能力,並在發生問題時通知您。 您可以使用 Azure 入口網站、PowerShell、Azure CLI、REST API 或用戶端程式庫來設定及檢視監視資料。
- 如需 Azure 監視器的詳細資訊,請參閱 Azure 監視器概觀 (機器翻譯)。
- 如需進一步了解一般如何監視 Azure 資源,請參閱使用 Azure 監視器監視 Azure 資源 (機器翻譯)。
深入解析
Azure 中的某些服務在 Azure 入口網站中有內建的監視儀表板,可提供監視服務的起點。 這些儀表板稱為深入解析,您可以在 Azure 入口網站中 Azure 監視器的深入解析中樞中找到這些儀表板。
虛擬 WAN 會使用網路深入解析,讓使用者和操作員能夠檢視虛擬 WAN 的狀態,透過自動探索的拓撲圖呈現。 地圖上的資源狀態和狀態重迭可提供虛擬 WAN 整體健康情況的快照集檢視。 您可以使用單鍵存取虛擬 WAN 入口網站的資源設定頁面,瀏覽地圖上的資源。 如需詳細資訊,請參閱適用於虛擬 WAN 的 Azure 監視器網路深入解析。
資源類型
Azure 會使用資源類型和識別碼的概念來識別訂用帳戶中的所有內容。 資源類型也是 Azure 中所執行每個資源的資源識別碼組成部分。 例如,虛擬機器的一種資源類型是 Microsoft.Compute/virtualMachines
。 如需服務及其相關聯資源類型的清單,請參閱資源提供者 (機器翻譯)。
Azure 監視器同樣會依據資源類型將核心監視資料組織成計量和記錄,也稱為命名空間。 不同的計量和記錄適用於不同的資源類型。 您的服務可能會與多個資源類型相關聯。
如需虛擬 WAN 資源類型的詳細資訊,請參閱 Azure 虛擬 WAN 監視資料參考。
資料存放區
對於 Azure 監視器:
- 計量資料會儲存在 Azure 監視器計量資料庫中。
- 記錄資料會儲存在 Azure 監視器記錄存放區中。 Log Analytics 是可查詢此存放區的 Azure 入口網站工具。
- Azure 活動記錄是個單獨存放區,其介面位於 Azure 入口網站。
您可選擇性地將計量和活動記錄資料路由傳送至 Azure 監視器記錄存放區。 然後,可以使用 Log Analytics 來查詢資料,並將其與其他記錄資料相互關聯。
許多服務可以使用診斷設定,將計量和記錄資料傳送至 Azure 監視器以外的其他儲存位置。 範例包括 Azure 儲存體、託管的合作夥伴系統以及使用事件中樞的非 Azure 合作夥伴系統。
如需進一步了解 Azure 監視器如何儲存資料,請參閱 Azure 監視器資料平台。
Azure 監視器平台計量
Azure 監視器為大多數服務提供平台計量。 這些計量包括:
- 針對每個命名空間個別定義。
- 儲存在 Azure 監視器時間序列計量資料庫中。
- 輕量且能支援近即時警示。
- 用來追蹤資源效能的長期變化。
收集:Azure 監視器會自動收集平台計量。 不需要組態。
路由: 您也可以將某些平臺計量路由傳送至 Azure 監視器記錄/Log Analytics,以便使用其他記錄數據來查詢它們。 檢查每個計量的 DS 匯出 設定,以查看您是否可以使用診斷設定將計量路由傳送至 Azure 監視器記錄/Log Analytics。
- 如需詳細資訊,請參閱計量診斷設定 (機器翻譯)。
- 若要設定服務的診斷設定,請參閱 在 Azure 監視器中建立診斷設定。
如需 Azure 監視器中所有資源可收集的計量完整清單,請參閱 Azure 監視器中所支援的計量。
如需虛擬 WAN 可用計量的清單,請參閱 Azure 虛擬 WAN 監視資料參考。
您可以使用 Azure 入口網站來檢視虛擬 WAN 的計量。 下列步驟可協助您找出並檢視計量:
選取 [監視閘道],然後選取 [計量]。 您也可以選取底部的 [計量],以檢視站對站和點對站 VPN 的最重要計量儀表板。
在 [計量] 頁面上,您可以檢視這些計量。
若要查看虛擬中樞路由器的計量,您可以從虛擬中樞 [概觀] 頁面選取 [計量]。
如需詳細資訊,請參閱分析 Azure 資源的計量。
PowerShell 步驟
您可以使用 PowerShell 來檢視虛擬 WAN 的計量。 若要在查詢,請使用下列範例 PowerShell 命令。
$MetricInformation = Get-AzMetric -ResourceId "/subscriptions/<SubscriptionID>/resourceGroups/<ResourceGroupName>/providers/Microsoft.Network/VirtualHubs/<VirtualHubName>" -MetricName "VirtualHubDataProcessed" -TimeGrain 00:05:00 -StartTime 2022-2-20T01:00:00Z -EndTime 2022-2-20T01:30:00Z -AggregationType Sum
$MetricInformation.Data
- 資源識別碼。 您可以在 Azure 入口網站上找到虛擬中樞的資源識別碼。 瀏覽至 vWAN 內部的虛擬中樞頁面,然後選取 [基本資訊] 下的 [JSON 檢視]。
- 計量名稱。 意指您要查詢的計量名稱,在此案例中稱為
VirtualHubDataProcessed
。 此計量會顯示虛擬中樞路由器在中樞所選時段內已處理的所有資料。 - 時間精細度。 意指您想要查看其彙總的頻率。 在目前的命令中,您每 5 分鐘會看到一個選取的彙總單位。 您可以選取 – 5M/15M/30M/1H/6H/12H 和 1D。
- 開始時間和結束時間。 此時間是以 UTC 為基礎。 務必在您輸入這些參數時輸入 UTC 值。 如果未使用這些參數,依預設會顯示過去一小時的資料。
- Sum 彙總類型。 Sum 彙總類型為您顯示在所選時段期間週遊虛擬中樞路由器的位元組總數。 例如,如果您將時間細微性設定為 5 分鐘,則每個資料點都會對應至在該五分鐘間隔內傳送的位元組數目。 若要將此值轉換為 Gbps,您可以將這個數字除以 37500000000。 根據虛擬中樞的容量,中樞路由器可支援 3 Gbps 到 50 Gbps 之間。 Max 和 Min 彙總類型目前沒有意義。
Azure 監視器資源記錄
資源記錄提供對 Azure 資源所完成作業的深入解析。 系統會自動產生記錄,但您必須將其路由傳送至 Azure 監視器記錄,才能儲存或查詢這些記錄。 按類別組織記錄。 指定的命名空間可能會有多個資源記錄類別。
收集:您必須先建立「診斷設定」,並將記錄路由傳送至一個或多個位置,才會開始收集和儲存資源記錄。 在建立診斷設定時,您可以指定要收集的記錄類別。 有多種方式可以建立和維護診斷設定,包括透過 Azure 入口網站、程式設計方式,以及 Azure 原則。
路由傳送:建議的預設設定是將資源記錄路由傳送至 Azure 監視器記錄,以便與其他記錄資料一同查詢。 您也可以使用其他位置,例如 Azure 儲存體、Azure 事件中樞及特定 Microsoft 監視合作夥伴。 如需詳細資訊,請參閱 Azure 資源記錄 (機器翻譯) 和資源記錄目的地 (機器翻譯)。
如需收集、儲存及路由傳送資源記錄的詳細資訊,請參閱 Azure 監視器中的診斷設定 (機器翻譯)。
如需 Azure 監視器中所有可用資源記錄類別的清單,請參閱 Azure 監視器中支援的資源記錄 (機器翻譯)。
Azure 監視器中的所有資源記錄都有相同的標頭欄位,後面接著服務特定的欄位。 一般結構描述如 Azure 監視器資源記錄結構描述中所述。
如需可用的資源記錄類別、其相關聯的 Log Analytics 資料表,以及虛擬 WAN 的記錄架構,請參閱 Azure 虛擬 WAN 監視資料參考。
結構描述
如需最上層診斷記錄結構描述的詳細說明,請參閱 Azure 診斷記錄支援的服務、結構描述和類別。
當您透過 Log Analytics 來檢視任何計量時,輸出會包含下列欄位:
資料行 | 輸入 | 說明 |
---|---|---|
TimeGrain | string | PT1M (每分鐘推送計量值) |
計數 | real | 通常等於 2 (每個 MSEE 每分鐘推送單一計量值) |
最小值 | real | 兩個 MSEE 推送的兩個計量值之中的最小值 |
最大值 | real | 兩個 MSEE 推送的兩個計量值之中的最大值 |
平均 | real | 等於 (最小值 + 最大值)/2 |
總數 | real | 兩個 MSEE 的兩個計量值總和 (在查詢的計量上專注的主要值) |
建立診斷設定以檢視記錄
下列步驟可協助您建立、編輯及檢視診斷設定:
在入口網站中,瀏覽至您的虛擬 WAN 資源,然後選取 [連線] 群組中的 [中樞]。
在左側的 [連線] 群組底下,選取您想要檢查診斷的閘道:
在頁面右側,選取 [監視閘道],然後選取 [記錄]。
在此頁面中,您可以建立新的診斷設定 ([+新增診斷設定]) 或編輯現有的診斷設定 ([編輯設定])。 您可以選擇將診斷記錄傳送至 Log Analytics (如下列範例所示)、串流至事件中樞、傳送至協力廠商解決方案,或封存至儲存體帳戶。
按一下 [儲存] 之後,您應該會在幾個小時內開始看到此記錄分析工作區中出現記錄。
若要監視使用 Azure 防火牆的安全中樞,必須存取 [診斷設定] 索引標籤以完成診斷和記錄設定:
重要
啟用這些設定將需要額外的 Azure 服務 (儲存體帳戶、事件中樞或 Log Analytics),這可能會增加您的成本。 若要計算預估成本,請造訪 Azure 定價計算機。
監視安全中樞 (Azure 防火牆)
如果您選擇使用 Azure 防火牆保護您的虛擬中樞,這裡會提供相關的記錄和計量:Azure 防火牆記錄和計量。
您可以使用 Azure 防火牆記錄和計量監視安全中樞。 您也可以使用活動記錄來稽核 Azure 防火牆資源上的作業。 對於您保護並轉換成安全中樞的每個 Azure 虛擬 WAN,Azure 防火牆會建立明確的防火牆資源物件。 此物件位於中樞所在的資源群組中。
Azure 活動記錄 (部分機器翻譯)
活動記錄包含訂用帳戶層級事件,用於追蹤每個 Azure 資源外部可見的作業;例如,建立新的資源或啟動虛擬機器。
收集:活動記錄事件會自動產生並收集至個別存放區中,以便使用者在 Azure 入口網站中檢視。
路由:您可以將活動記錄資料傳送至 Azure 監視器記錄,以便與其他記錄資料一起分析。 您也可以使用其他位置,例如 Azure 儲存體、Azure 事件中樞及特定 Microsoft 監視合作夥伴。 如需路由傳送活動記錄的詳細資訊,請參閱 Azure 活動記錄概觀。
分析監視資料
有許多工具可用來分析監視資料。
Azure 監視器工具
Azure 監視器支援下列基本工具:
計量瀏覽器是 Azure 入口網站中的工具,可讓您檢視和分析 Azure 資源的計量。 如需詳細資訊,請參閱使用 Azure 監視器計量瀏覽器分析計量。
Log Analytics,這是 Azure 入口網站中的工具,可讓您使用 Kusto 查詢語言 (KQL) 來查詢和分析記錄資料。 如需詳細資訊,請參閱開始使用 Azure 監視器中的記錄查詢。
活動記錄在 Azure 入口網站中具有使用者介面,可供檢視和基本搜尋。 若要進行更深入的分析,您必須將資料路由傳送至 Azure 監視器記錄,並在 Log Analytics 中執行更複雜的查詢。
支援更複雜視覺效果的工具包括:
- 儀表板 (機器翻譯) 可讓您將不同類型的資料合併到 Azure 入口網站中的單一窗格。
- 活頁簿 (機器翻譯) 是能在 Azure 入口網站中建立的可自訂報表。 活頁簿可以包含文字、計量及記錄查詢。
- Grafana 是在操作儀表板中表現相當出色的開放平台工具。 您可以使用 Grafana 來建立儀表板,納入 Azure 監視器以外多個來源的資料。
- Power BI (機器翻譯) 是一項商務分析服務,可提供跨各種資料來源的互動式視覺效果。 你可以將 Power BI 設定為自動從 Azure 監視器匯入記錄資料,以利用這些視覺效果。
Azure 監視器匯出工具
您可以使用下列方法將資料從 Azure 監視器中提取至其他工具:
計量:使用計量的 REST API (機器翻譯) 從 Azure 監視器計量資料庫中擷取計量資料。 此 API 支援使用篩選條件運算式來縮小擷取的資料範圍。 如需詳細資訊,請參閱 Azure 監視器 REST API 參考 (機器翻譯)。
記錄:使用 REST API 或相關聯的用戶端程式庫 (機器翻譯)。
另一個選項是工作區資料匯出 (機器翻譯)。
若要開始使用適用於 Azure 監視器的 REST API,請參閱 Azure 監視 REST API 逐步解說 (機器翻譯)。
Kusto 查詢
您可以使用 Kusto 查詢語言 (KQL) 分析 Azure 監視器記錄/Log Analytics 存放區中的監視資料。
重要
當您從入口網站的服務功能表中選取 [記錄] 時,Log Analytics 會隨即開啟,並將查詢範圍設定為目前的服務。 此範圍表示記錄查詢只會包含該資源類型的資料。 如果您想要執行包含其他 Azure 服務資料的查詢,請從 [Azure 監視器] 功能表中選取 [記錄]。 如需詳細資訊,請參閱 Azure 監視器 Log Analytics 中的記錄查詢範圍和時間範圍。
如需各項服務的常見查詢清單,請參閱 Log Analytics 查詢介面 (機器翻譯)。
警示
在監視資料中發現特定狀況時,Azure 監視器警示會主動通知您。 警示可讓您在客戶發現系統發生問題前,就先及早識別和解決問題。 如需詳細資訊,請參閱 Azure 監視器警示。
Azure 資源的常見警示有許多來源。 如需 Azure 資源的常見警示範例,請參閱記錄警示查詢範例 (機器翻譯)。 Azure 監視器基準警示 (AMBA) 網站提供半自動化方法來實作重要的平台計量警示、儀表板和指導方針。 此網站適用於持續擴充的 Azure 服務子集,包括屬於 Azure 登陸區域 (ALZ) 的所有服務。
常見的警示結構描述會將 Azure 監視器警示通知的使用量標準化。 如需詳細資訊,請參閱一般警示結構描述 (機器翻譯)。
警示類型
您可以針對在 Azure 監視器資料平台中的任何計量或記錄資料來源發出警示。 警示有許多不同的類型,具體取決於您監視的服務以及所收集的監視資料。 不同類型的警示各有優缺點。 如需詳細資訊,請參閱選擇正確的監視警示類型 (機器翻譯)。
下列清單介紹可建立的 Azure 監視器警示類型:
- 計量警示 (機器翻譯) 會定期評估資源計量。 這些計量可以是平台計量、自訂計量、Azure 監視器轉換成計量的記錄,或 Application Insights 計量。 計量警示還可以套用多個條件和動態閾值。
- 記錄警示 (機器翻譯) 可讓使用者使用 Log Analytics 查詢,以預先定義的頻率評估資源記錄。
- 活動記錄警示 (機器翻譯) 會在發生符合定義條件的新活動記錄事件時觸發。 資源健康狀態警示和服務健康情況警示是報告服務和資源健康狀態的活動記錄警示。
某些 Azure 服務也支援智慧偵測警示、Prometheus 警示或建議的警示規則。
對於某些服務,若要進行大規模監控,您可以將同一計量警示規則套用至相同 Azure 區域中存在的多個同類型資源。 系統會針對每個受監視的資源傳送個別通知。 如需支援的 Azure 服務和雲端,請參閱使用一個警示規則監視多個資源 (機器翻譯)。
注意
如果您要建立或執行在您的服務上執行的應用程式,Azure 監視器 Application Insights 可提供更多類型的警示。
虛擬 WAN 警示規則
您可以針對 Azure 虛擬 WAN 監視資料參考中列出的任何計量、記錄項目或活動記錄項目設定警示。
監視 Azure 虛擬 WAN - 最佳做法
本文提供虛擬 WAN 的監視設定最佳做法,以及可使用該設定來部署的不同元件。 本文提供的建議主要以下列兩者為基礎:Azure 虛擬 WAN 產生的現有 Azure 監視器計量和記錄。 如需針對虛擬 WAN 收集的計量和記錄清單,請參閱監視虛擬 WAN 資料參考。
本文中的大部份建議都是建議使用者建立 Azure 監視器警示。 當監視資料中有重要事件時,Azure 監視器警示會主動通知您。 此資訊可協助您更快解決根本原因,並最終減少停機時間。 若要深入了解如何建立計量警示,請參閱教學課程:建立 Azure 資源的計量警示。 若要了解如何建立記錄查詢警示,請參閱教學課程:建立 Azure 資源的記錄查詢警示。
虛擬 WAN 閘道
本節描述虛擬 WAN 閘道的最佳做法。
站對站 VPN 閘道
設計檢查清單 – 計量警示
- 針對通道輸出和/或輸入封包丟棄計數增加來建立警示規則。
- 建立警示規則以監視 BGP 同儕節點狀態。
- 建立警示規則,監視已公告和獲知的 BGP 路由數目。
- 針對 VPN 閘道使用率過高建立警示規則。
- 針對通道使用率過高建立警示規則。
建議 | 描述 |
---|---|
針對通道輸出和/或輸入封包丟棄計數增加來建立警示規則。 | 通道輸出和/或輸入封包丟棄計數增加,可能表示 Azure VPN 閘道或遠端 VPN 裝置發生問題。 在建立警示規則時,請選取 [通道輸出/輸入封包捨棄計數] 計量。 在設定警示邏輯時,將靜態閾值定義為大於 0 和 [總計] 彙總類型。 您可以選擇監視整體連線,或將警示規則分割成執行個體和遠端 IP,以針對涉及個別通道的問題發出警示。 若要了解虛擬 WAN 中 VPN 連線、連結和通道之間的概念差異,請參閱虛擬 WAN 常見問題。 |
建立警示規則以監視 BGP 同儕節點狀態。 | 在站對站連線中使用 BGP 時,請務必監視閘道執行個體與遠端裝置之間 BGP 對等互連的健康情況,因為反覆出現失敗可能會中斷連線。 建立警示規則時,請選取 [BGP 同儕節點狀態] 計量。 使用靜態閾值、選擇 [平均] 匯總類型,並設定當值小於 1 時要觸發的警示。 建議您將警示分割為執行個體和 BGP 同儕節點位址,以偵測個別對等互連的問題。 請避免將閘道執行個體 IP 選取為 [BGP 同儕節點位址],因為此計量會監視每個可能組合的 BGP 狀態,包括執行個體本身 (一律為 0)。 |
建立警示規則,監視已公告和獲知的 BGP 路由數目。 | 已公告的 BGP 路由和已獲知的 BGP 路由會分別監視 VPN 閘道向同儕節點公告的路由數,以及 VPN 閘道從同儕節點獲知的路由數。 如果這些計量意外下降到零,可能是因為閘道或內部部署發生問題。 建議您為這兩個計量設定警示,當其值為零時便會觸發警示。 選擇 [總計] 彙總類型。 依執行個體分割,以便監視個別閘道執行個體。 |
針對 VPN 閘道使用率過高建立警示規則。 | 每個執行個體的縮放單位數目決定了 VPN 閘道的彙總輸送量。 在相同閘道執行個體中終止的所有通道都會共用其彙總輸送量。 如果執行個體長時間正常運作,通道穩定性可能會受到影響。 建立警示規則時,請選取 [閘道 S2S 頻寬]。 設定警示,當 [平均] 輸送量大於接近兩個執行個體的最大彙總輸送量值時便會觸發警示。 或者,依執行個體分割警示,並將每個執行個體的最大輸送量作為參考。 最佳作法是預先判斷每個通道的輸送量需求,以選擇適當的縮放單位數目。 若要深入了解站對站 VPN 閘道支援的縮放單位值,請參閱虛擬 WAN 常見問題。 |
針對通道使用率過高建立警示規則。 | 閘道執行個體終止的縮放單位決定了每個通道允許的最大輸送量。 如果通道面臨接近最大輸送量的風險,您可能會想要收到警示,因為此風險可能會導致效能和連線問題。 主動採取行動,方法是調查通道使用率增加的根本原因,或增加閘道的縮放單位。 建立警示規則時,請選取 [通道頻寬]。 依 [執行個體] 和 [遠端 IP] 來分割,藉此監視所有個別通道,或改為選擇特定通道。 設定警示,當 [平均] 輸送量大於接近每個通道允許的最大輸送量值時觸發警示。 若要深入了解閘道的縮放單位如何影響通道的最大輸送量,請參閱虛擬 WAN 常見問題。 |
設計檢查清單 - 記錄查詢警示
若要設定記錄型警示,您必須先為站對站/點對站 VPN 閘道建立診斷設定。 診斷設定可讓您定義要收集哪些記錄和/或計量,以及如何儲存稍後要分析的資料。 和閘道計量不同,如果沒有設定任何診斷設定,就無法提供閘道記錄。 若要了解如何建立診斷設定,請參閱建立診斷設定以檢視記錄。
- 建立通道中斷連線警示規則。
- 建立 BGP 中斷連線警示規則。
建議 | 描述 |
---|---|
建立通道中斷連線警示規則。 | 使用通道診斷記錄來追蹤站對站連線中的中斷連線事件。 無法與 SA 交涉、遠端 VPN 裝置沒有回應等原因都可能會導致中斷連線事件。 通道診斷記錄也會提供中斷連線原因。 請參閱此資料表下方的建立通道中斷連線警示規則 - 記錄查詢,以在建立警示規則時選取中斷連線事件。 設定警示,以便每當執行查詢所產生的資料列數目大於 0 時,就會觸發該警示。 若要讓此警示生效,請將 [彙總細微性] 選取為介於 1 到 5 分鐘之間,同時也將 [評估頻率] 選取為介於 1 到 5 分鐘之間。 如此一來,在經過 [彙總細微性] 間隔之後,新間隔的資料列數目會再次為 0。 如需分析通道診斷記錄的疑難排解秘訣,請參閱使用診斷記錄對 Azure VPN 閘道進行疑難排解。 此外,請使用 IKE 診斷記錄 來補充疑難排解內容,因為這些記錄包含詳細的 IKE 特定診斷。 |
建立 BGP 中斷連線警示規則。 | 使用路由診斷記錄來追蹤 BGP 工作階段的路由更新和問題。 重複的 BGP 中斷連線事件可能會影響連線並造成停機時間。 請參閱此資料表下方的建立 BGP 中斷連線警示規則 - 記錄查詢,以在建立警示規則時選取中斷連線事件。 設定警示,以便每當執行查詢所產生的資料列數目大於 0 時,就會觸發該警示。 若要讓此警示生效,請將 [彙總細微性] 選取為介於 1 到 5 分鐘之間,同時也將 [評估頻率] 選取為介於 1 到 5 分鐘之間。 如此一來,在經過 [彙總細微性] 間隔之後,若還原了 BGP 工作階段,新間隔的資料列數目會再次為 0。 若要深入了解路由診斷記錄所收集的資料,請參閱使用診斷記錄對 Azure VPN 閘道進行疑難排解。 |
記錄查詢
建立通道中斷連線警示規則 - 記錄查詢:您可以使用下列記錄查詢,以在建立警示規則時選取通道中斷連線事件。
AzureDiagnostics | where Category == "TunnelDiagnosticLog" | where OperationName == "TunnelDisconnected"
建立 BGP 中斷連線警示規則 - 記錄查詢:您可以使用下列記錄查詢,以在建立警示規則時選取 BGP 中斷連線事件。
AzureDiagnostics | where Category == "RouteDiagnosticLog" | where OperationName == "BgpDisconnectedEvent"
點對站 VPN 閘道
下一節僅會詳細說明計量型警示的設定。 不過,虛擬 WAN 點對站閘道也支援診斷記錄。 若要深入了解點對站閘道的可用診斷記錄,請參閱虛擬 WAN 點對站 VPN 閘道診斷。
設計檢查清單 – 計量警示
- 建立閘道使用量過高的警示規則。
- 針對接近限制的 P2S 連線計數建立警示。
- 針對接近限制的使用者 VPN 路由計數建立警示。
建議 | 描述 |
---|---|
針對閘道使用率過高建立警示規則。 | 設定的縮放單位數目決定了點對站閘道的頻寬。 若要深入了解點對站閘道縮放單位,請參閱點對站 (使用者 VPN)。 使用閘道 P2S 頻寬計量來監視閘道的使用率,並設定一個警示規則,每當閘道頻寬大於接近其彙總輸送量的值時,便會觸發警示 - 例如,如果閘道設定為具有 2 個縮放單位,則閘道的彙總輸送量為 1 Gbps。 在此情況下,您可以將閾值定義為 950 Mbps。 使用此警示主動調查使用率增加的根本原因,並在最終視需要增加縮放單位數目。 設定警示規則時,請選取 [平均] 彙總類型。 |
針對接近限制的 P2S 連線計數建立警示 | 點對站連線數目允許上限也取決於閘道上設定的縮放單位數目。 若要深入了解點對站閘道縮放單位,請參閱點對站 (使用者 VPN) 常見問題。 使用 [P2S 連線計數] 計量來監視連線數目。 選取此計量來設定警示規則,當連線數目接近允許上限時觸發警示。 例如,1 縮放單位閘道支援最多 500 個並行連線。 在此情況下,您可以設定警示規則,當連線數目大於 450 時便會觸發警示。 使用此警示來判斷是否需要增加縮放單位數目。 設定警示規則時,請選擇 [總計] 匯總類型。 |
針對接近限制的使用者 VPN 路由計數建立警示規則。 | 使用的通訊協定決定了使用者 VPN 路由數目上限。 IKEv2 有 255 個路由的通訊協定層級限制,而 OpenVPN 有 1,000 個路由的限制。 若要深入了解此事實,請參閱 VPN 伺服器設定概念。 如果您即將到達使用者 VPN 路由數目上限,您可能會想收到警示,並主動採取行動以避免任何停機時間。 透過 [使用者 VPN 路由計數] 來監視此情況,並設定一個警示規則,每當路由數目超過接近限制的值時,便會觸發警示。 例如,如果限制為 255 個路由,閾值的適當值則為 230。 設定警示規則時,請選擇 [總計] 匯總類型。 |
ExpressRoute 閘道
下一節著重說明計量型警示。 除了這裡所述著重於閘道元件的警示外,建議您使用可用的計量、記錄和工具來監視 ExpressRoute 線路。 若要深入了解 ExpressRoute 監視,請參閱 ExpressRoute 監視、計量和警示。 若要了解如何使用 ExpressRoute 流量收集器工具,請參閱設定 ExpressRoute Direct 的 ExpressRoute 流量收集器。
設計檢查清單 – 計量警示
- 針對每秒接收位元數建立警示規則。
- 針對 CPU 使用量過高建立警示規則。
- 針對每秒封包數建立警示規則。
- 針對公告至同儕節點的路由數目建立警示規則。
- 針對從同儕節點獲知的路由數目建立警示規則。
- 針對頻繁變更路由建立警示規則。
建議 | 描述 |
---|---|
針對每秒接收位元數建立警示規則。 | 每秒接收位元數會監視閘道從 MSEE 接收的流量總數。 如果閘道接收的流量有達到其最大輸送量的風險,您可能會想收到警示。 這種情況可能會導致效能和連線問題。 此方法可讓您主動採取行動,方法是調查閘道使用率增加的根本原因,或增加閘道的最大允許輸送量。 設定警示規則時,請選擇 [平均] 匯總類型,而閾值則設為接近閘道佈建的最大輸送量。 此外,建議您設定警示規則,當每秒接收位元數接近零時觸發警示,因為這可能表示閘道或 MSEE 發生問題。 佈建的縮放單位數目決定了 ExpressRoute 閘道的最大輸送量。 若要深入了解 ExpressRoute 閘道效能,請參閱關於 Azure 虛擬 WAN 中的 ExpressRoute 連線。 |
針對 CPU 使用量過高建立警示規則。 | 使用 ExpressRoute 閘道時,請務必監視 CPU 使用率。 長時間的高使用率可能會影響效能和連線。 使用 [CPU 使用率] 計量來監視使用率,每當 CPU 使用率大於 80% 時,就建立一個警示,以便您可以視需要調查根本原因,並最終增加縮放單位的數目。 設定警示規則時,請選擇 [平均] 彙總類型。 若要深入了解 ExpressRoute 閘道效能,請參閱關於 Azure 虛擬 WAN 中的 ExpressRoute 連線。 |
針對每秒接收封包數建立警示規則。 | 每秒封包數會監視周遊虛擬 WAN ExpressRoute 閘道的輸入封包數目。 如果每秒封包數接近閘道上所設定縮放單位數目的允許限制,您可能會想要收到警示。 設定警示規則時,請選擇 [平均] 彙總類型。 根據閘道的縮放單位數目,選擇接近每秒封包數允許上限的閾值。 若要深入了解 ExpressRoute 效能,請參閱關於 Azure 虛擬 WAN 中的 ExpressRoute 連線。 此外,建議您設定警示規則,當每秒封包數接近零時觸發警示,因為這可能表示閘道或 MSEE 發生問題。 |
針對公告至同儕節點的路由數目建立警示規則。 | 公告至同儕節點的路由計數,會監視從 ExpressRoute 閘道公告至虛擬中樞路由器的路由數目,以及公告至 Microsoft Enterprise Edge 裝置的路由數目。 建議您新增篩選器,只選取兩個 BGP 同儕節點,將其顯示為 ExpressRoute 裝置,並建立警示來識別已公告路由計數是否到達 1000 記錄限制。 例如,當已公告路由數目大於 950 時觸發設定的警示。 我們也建議您設定警示,在公告至 Microsoft Edge 裝置的路由數目為零時觸發警示,以便您可主動偵測任何連線問題。 若要新增這些警示,請選取 [已公告至同儕節點的路由計數] 計量,然後選取 [新增篩選器] 選項和 ExpressRoute 裝置。 |
針對從同儕節點獲知的路由數目建立警示規則。 | 從同儕節點獲知的路由計數,會監視 ExpressRoute 閘道從虛擬中樞路由器獲知的路由數目,以及從 Microsoft Enterprise Edge 裝置獲知的路由數目。 建議您新增篩選器,只選取兩個 BGP 同儕節點,將其顯示為 ExpressRoute 裝置,並建立警示來識別已獲知路由計數是否到達 4000 標準 SKU 和 10,000 進階 SKU 線路的記錄限制。 我們也建議您設定警示,在公告至 Microsoft Edge 裝置的路由數目為零時觸發警示。 此方法有助於偵測您的內部部署何時停止公告路由。 |
針對頻繁變更路由建立警示規則。 | 變更路由的頻率,會顯示在同儕節點之間獲知和公告路由的變更頻率,包括站對站和點對站 VPN 等其他類型的分支。 當新的分支或更多線路連線/中斷連線時,此計量可提供可見度。 此計量工具可有效識別如擺盪等 BGP 公告問題。 若環境為靜態且 BGP 未如預期進行變更,我們建議您設定警示。 將 [閾值] 選取為大於 1,並將 [彙總細微性] 選取為 15 分鐘,以一致的方式監視 BGP 行為。 如果環境為動態且 BGP 如預期頻繁變更,您可能會選擇不要設定警示以避免誤判。 不過,您仍可考慮採用此計量來檢視網路。 |
虛擬中樞
下一節著重說明虛擬中樞的計量型警示。
設計檢查清單 – 計量警示
- 針對 BGP 同儕節點狀態建立警示規則
建議 | 描述 |
---|---|
建立警示規則以監視 BGP 同儕節點狀態。 | 建立警示規則時,請選取 [BGP 同儕節點狀態] 計量。 使用靜態閾值、選擇 [平均] 匯總類型,並設定當值小於 1 時要觸發的警示。 此方法可讓您識別虛擬中樞路由器何時與中樞內部署的 ExpressRoute、站對站 VPN 和點對站 VPN 閘道發生連線問題。 |
Azure 防火牆
本文的這一節著重說明計量型警示。 Azure 防火牆為監視用途提供計量和記錄的完整清單。 除了設定下一節所述的警示之外,請探索 Azure 防火牆活頁簿如何協助您監視 Azure 防火牆。 此外,探索使用 Microsoft Sentinel 的 Azure 防火牆連接器,將 Azure 防火牆記錄連線到 Microsoft Sentinel 的優點。
設計檢查清單 – 計量警示
- 針對 SNAT 連接埠耗盡的風險建立警示規則。
- 針對防火牆使用率過高建立警示規則。
建議 | 描述 |
---|---|
針對 SNAT 連接埠耗盡的風險建立警示規則。 | 針對每個後端虛擬機器擴展集執行個體所設定的公用 IP 位址,Azure 防火牆為每個公用 IP 位址提供 2,496 個 SNAT 連接埠。 請務必事先估計 SNAT 連接埠的數目,這些連接埠可以滿足貴組織將流量輸出至網際網路的需求。 若未提前估計,則會增加 Azure 防火牆上耗盡的可用 SNAT 連接埠數目,此風險可能會造成輸出連線失敗。 使用 [SNAT 連接埠使用率] 計量,監視目前輸出 SNAT 連接埠的使用率百分比。 為這個計量建立一個警示規則,每當此百分比超過 95% (例如,由於未預期的流量增加) 時,就會觸發警示,以便您可以據此採取相應的行動,例如在 Azure 防火牆上設定另一個公用 IP 位址,或改用 Azure NAT 閘道。 設定警示規則時,請使用 [最大值] 彙總類型。 若要深入了解如何解譯 [SNAT 連接埠使用率] 計量,請參閱 Azure 防火牆記錄和計量概觀。 若要深入了解如何在 Azure 防火牆中調整 SNAT 連接埠,請參閱使用 Azure NAT 閘道調整 SNAT 連接埠。 |
針對防火牆使用率過高建立警示規則。 | Azure 防火牆最大輸送量會根據已啟用的 SKU 和功能而有所不同。 若要深入了解 Azure 防火牆效能,請參閱 Azure 防火牆效能。 如果您的防火牆接近其最大輸送量,您可能會想要收到警示。 您可以針對根本原因進行疑難排解,因為這種情況可能會影響防火牆’的效能。 建立一個警示規則,每當 [輸送量] 計量超過接近防火牆最大輸送量的值時,就會觸發警示 - 舉例來說,若最大輸送量為 30Gbps,請將 [閾值] 設定為 25Gbps。 [輸送量] 計量單位位元/秒。建立警示規則時,請選擇 [平均] 彙總類型。 |
資源健康狀態警示
您也可以透過下列資源的服務健康狀態來設定資源健康情況警示。 此方法可確保將虛擬 WAN 環境的可用性通知您。 警示可讓您針對下列情況進行疑難排解:網路問題是否起因於您的 Azure 資源進入狀況不良狀態,而不是來自內部部署環境的問題。 建議您設定資源狀態降級或無法使用時的警示。 如果資源狀態降級或無法使用,您可以分析這些資源所處理的流量數量、公告至這些資源的路由,或建立的分支/VNet 連線數目最近是否出現尖峰情形。 如需虛擬 WAN 中所支援限制的詳細資訊,請參閱 Azure 虛擬 WAN 限制。
- Microsoft.Network/vpnGateways
- Microsoft.Network/expressRouteGateways
- Microsoft.Network/azureFirewalls
- Microsoft.Network/virtualHubs
- Microsoft.Network/p2sVpnGateways
相關內容
- 如需參考為虛擬網路建立的計量、記錄和其他重要值,請參閱 Azure 虛擬 WAN 監視資料參考。
- 如需監視 Azure 資源的一般詳細資訊,請參閱使用 Azure 監視器來監視 Azure 資源。