監控您的 Azure 雲端資源總體
本文說明如何規劃、設定及優化跨 Azure 的監視,同時整合來自其他雲端、內部部署和邊緣環境的數據。 監視 Azure 雲端資產牽涉到持續觀察和分析雲端資源和應用程式的效能、健康情況和安全性。 強式監視策略包括主動式監視,以提早攔截問題和反應式監視,以觸發警示,並在發生非預期事件時自動回應。
瞭解您的監視範圍
您的監視範圍會定義您的監視責任。 在雲端環境中,您會共用監視責任,這些責任會因工作負載而異。 瞭解您的監控責任,以便確保每個工作負載的各個監控區域都得到覆蓋。 下表顯示您必須根據每個負載類型監視的項目。 基礎結構服務 (IaaS) 和平臺服務 (PaaS) 在 Azure 等雲端環境中運作。 軟體服務 (SaaS) 是指Microsoft 365 等解決方案。
監視區域 | 內部部署監視 | IaaS 監視 | PaaS 監視 | SaaS 監視 |
---|---|---|---|---|
服務健康情況 | X | X | X | X |
安全 | X | X | X | X |
合規 | X | X | X | X |
成本 | X | X | X | X |
數據 | X | X | X | X |
程式代碼和運行時間 | X | X | X | |
雲端資源 | X | X | X | |
操作系統 | X | X | ||
虛擬化層 | X | X | ||
實體硬體 | X |
規劃監視策略
監視策略會概述每個環境的監督需求。 您需要清楚的計劃,以統一可見度和支援作業成熟度。 您需要透過結構化的深入解析來偵測、診斷和防止整個系統的問題。 方法如下:
建立監視藍圖。 建立可解決三個漸進式作業成熟度層級的藍圖:即時偵測和響應問題、診斷目前或過去的問題,以及預測和防止未來問題。 此藍圖會釐清您應該如何擴大監視功能,以便排定改善的優先順序、有效地配置資源,以及維護一致的可靠性。
識別您需要監視的專案。 完整清查整個環境,包括 Azure、其他雲端、邊緣部署和內部部署系統。 使用 Azure Resource Graph 資源總管 來尋找所有 Azure 資源。 從範例 查詢 開始收集基準資源清單。 這個完整的方法可協助您偵測涵蓋範圍差距,並確保從所有相關來源擷取重要數據。 使用 Azure Arc,將內部部署、其他雲端或邊緣位置的監視數據帶入 Azure。
定義可靠性目標。 建立運行時間服務等級目標 (SLO)、服務等級指標 (SLA),以及每個工作負載的錯誤預算。 包含非功能需求,例如復原時間目標 (RTO) 和恢復點目標 (RPO)。 明確的目標可提供基準,以測量作業成功並引導改進工作。
定義數據收集需求。 判斷您必須收集哪些計量和記錄,以進行合規性、安全性和有效問題診斷。 從法規合規性需求開始,然後遵循內部治理規則。 收集正確的數據可協助您有效地稽核、維護安全性,並讓系統以最佳方式執行。 如果您不知道要收集什麼,請收集所有可用的記錄和計量,以避免數據差距,並 成本優化。 如需每個 Azure 服務的指引,請參閱 azure 監視文件連結 完整清單。
定義數據保留需求。 決定您必須保留監視數據的時間長度,以符合稽核和合規性需求。 請遵守內部治理原則,以在必要期間儲存記錄。 適當的保留原則可啟用歷程記錄分析、支援法規合規性,以及保留數據以進行安全性調查。
定義警示需求。 判斷哪些重大事件必須觸發警示,例如資源中斷、效能閾值缺口或安全性異常。 依嚴重性分類警示、概述回應動作,並指定呈報路徑,讓緊急事件到達正確的小組。 使用 Azure 監視器警示 來設定警示規則、通知和動作群組。 主動式警示可確保快速回應,並將停機時間降到最低。
指派監視責任。 您有兩個主要責任:監視整個雲端資產並監視每個工作負載。 定義基準監視需求、指定您必須擷取的數據,並釐清誰擁有每個監視工作。 這些步驟可協助您避免忽略的問題、簡化回應工作,以及促進整個組織的一致做法。
測試和精簡監視方法。 確認您擷取正確的數據,並在正確的閾值觸發警示。 根據新的結果調整數據收集和可靠性目標。 反覆改善可協助您適應轉變業務需求、監視差距,以及維護最佳系統效能。
設計監視解決方案
設計監視解決方案是指建立系統來收集和儲存記錄、計量和深入解析。 設計良好的解決方案可協助滿足作業、安全性和合規性需求。 操作說明如下:
合併監視解決方案。 使用一個平臺來監視您的雲端、內部部署、公用雲端和邊緣環境。 此合併方法可簡化您的作業、防止頻繁的工具切換,並讓您的小組快速偵測並解決問題。 從 Azure Monitor 作為您的主要監控解決方案開始。 使用 Azure Arc,從其他雲端、內部部署和邊緣部署收集數據。 使用可用的 Azure 監視工具,並將其數據傳送至 Azure 監視器,以取得集中可見度。
目標是集中監視數據。 偏好較少的位置來儲存記錄和計量。 較少的位置可讓您更輕鬆地管理和相互關聯數據。 有理由有多個位置可以儲存和分析監視數據。 例如,安全性作業、數據落地、數據復原和 Azure 租用戶數目都是可能需要您將監視數據儲存在多個位置的因素。 如需詳細資訊,請參閱 設計 Log Analytics 工作區架構。
瞭解傳送監視數據的位置。 收集記錄和計量,並將其儲存在符合作業需求的目的地。 從這些主要 Azure 目的地中選擇:Azure Log Analytics 工作區(互動式和長期記憶體)、Azure 儲存器帳戶(長期記憶體)、Azure 事件中樞(第三方 SIEM 整合)、Azure 數據總管和合作夥伴解決方案。 請在適用的情況下,使用 數據收集規則 來設定集中監控數據收集。 否則,請使用 診斷設定。
自動化監視。 您想要在較大的環境中強制執行監視原則的自動化方式。
使用 Azure 原則。 確保您收集的內容和發送的目的地符合 Azure 政策。 您可以從 內建監視原則開始, 強制執行診斷設定。 您可以視需要建置自定義原則。 您也可以使用 Azure 原則來管理 資料收集規則, 並 在虛擬機上安裝 Azure 監視器代理程式。 使用 Azure 原則來定義 Azure 登陸區域中 Azure 監視器警示基準。
使用基礎結構即程序代碼 (IaC)。 使用 基礎架構即程式碼 以規模設定和部署 Azure 監控資源。 此方法是管理資源的專業方式。
優化監視費用。 首先估計監視解決方案的成本。 當您有足夠的數據時,請使用 Azure 定價計算機 來估計集合的長期成本,並調整集合設定以符合您的預算。 經過一段時間,定期檢閱您收集和儲存的監視數據。 您收集的內容、儲存的位置,以及儲存的時間長短會影響成本。 調整記憶體保留期間,以將成本優化,而不需要停止收集特定監視數據。 若要進一步優化成本,請停止收集無幫助的記錄。 如需更多成本優化秘訣,請參閱 Azure 監視器中的 成本優化。
設定監控
設定監視時,需設定工具和參數,以便在 Azure 環境中收集深入見解。 適當的設定提供主動式問題偵測,並與雲端資產中的規範治理保持一致。 此處是方法:
監視服務健康情況
監視服務可用性著重於偵測雲端環境中的服務中斷、中斷和資源問題。 您想要即時查看潛在問題,以維持一致的作業。 監測服務運作狀況是監控您的雲端資產的必要條件。 方法如下:
監視基礎服務健康情況。 您必須留意您所使用之雲端服務和區域的任何基礎中斷。 使用 Azure 服務健康狀態,接收影響 Azure 服務和區域之服務問題、計劃性維護和其他變更的免費警示。
監視基礎資源健康情況。 您需要一種方法來診斷和解決雲端資源中的基礎問題。 您也需要這些中斷的歷程記錄,以便報告任何服務等級協定 (SLA) 缺口。 使用 Azure 資源健康狀態來監視個別雲端資源的健康情況。
監視安全性
監視安全性牽涉到追蹤身分識別互動、弱點和網路活動,以保護您的 Azure 資產。 您需要持續的安全性監視,以保護數據並維護雲端環境內的合規性。 說明如下:
監視身分識別。 您必須瞭解使用者互動、偵測潛在的風險登入、針對登入問題進行疑難解答,以及稽核身分識別變更,以確保環境的安全性和健康情況。 設定 Microsoft Entra 監視,並收集您以符合安全性和合規性需求所需的記錄。
監視安全性弱點。 您需要單一安全性監視解決方案,以偵測各種環境的安全性弱點。 例如,使用 Microsoft Defender for Cloud 來監控 Azure、其他公用雲端、邊緣裝置和內部部署專用網路中的安全漏洞。 使用 Microsoft Sentinel 進行安全資訊與事件管理(SIEM)以及安全協調、自動化和回應(SOAR)。 Microsoft Sentinel 依賴 Log Analytics 平臺,因此您能夠享有它們之間的關鍵整合。
監視網路活動。 您需要監視雲端和雲端外部網路內的網路流量。 網路監視可協助您針對效能問題進行疑難解答,並維護網路安全性。 使用網路監看員來監視 Azure 虛擬網路(使用 流向記錄 和 流量分析)。 使用 連線監視器 進行多重雲端和內部部署網路監視。
監視工作負載安全性。 如需工作負載安全性監視,請參閱 Well-Architected 架構的監視和威脅偵測 建議。
監視合規性
監視合規性會確認符合治理需求和產業法規。 您必須追蹤合規性,以降低風險,並遵循妥善管理的 Azure 資產規範標準。 方法如下:
監視設定合規性。 您需要一些方法,才能讓環境與您的治理原則保持一致。 使用 Azure 原則 來自動稽核和強制執行特定原則。 它也會監控這些政策的遵循情況。 Azure 原則是免費的,並提供符合許多 法規標準的內建原則,例如 ISO 270001、NIST SP 800-53、PCI DSS,以及 歐盟一般數據保護規定 (GDPR)。
監視數據合規性。 您必須在多重雲端環境中自動評估和管理合規性,以簡化合規性並降低風險。 使用 Microsoft Purview 合規性管理員 來評估和管理多雲端環境的合規性。
監視工作負載合規性。 如需工作負載合規性監視,請參閱建立安全性基準 Well-Architected 架構的 建議
監視成本
監視成本是指追蹤及控制 Azure 和其他環境的雲端支出。 您希望成本透明度將資源使用量優化,並遵循財務治理的規範指引。 方法如下:
瞭解服務定價。 請確定您瞭解您使用的服務與功能定價。 您想要避免在計費期間發生意外。 使用 Azure 定價 資訊。
監視雲端費用。 您應該使用可用的工具來監視整個環境的成本。 針對 Azure 費用,請使用 Azure 成本管理來 設定預算、取得 成本優化建議、觸發成本異常 警示,以及 分析成本。
定期檢閱雲端費用。 將成本檢閱納入您的一般作業頻率。 定期評估可讓您及時識別支出模式,並有機會調整資源使用量,以將成本優化。
監視工作負載成本。 針對工作負載成本監視,請參閱 收集和檢閱成本數據的 Well-Architected 架構建議, 和 優化元件成本
監測數據
監視數據表示監視跨 Azure、內部部署、多重雲端和 SaaS 環境的數據控管、保護和使用量。 您需要數據可見性和安全性,才能維護合規性,並保留 Azure 資產中的商務持續性。 以下是做法。
監視企業數據。 您需要一種方式,以控管及保護所有環境中的商務數據。 使用 Microsoft Purview,在這些環境中提供數據可見性、安全性和合規性。
監視工作負載數據。 針對工作負載數據監視,請參閱 數據分類的 Well-Architected 架構建議、將數據成本優化,以及 將數據效能優化。
監視程式代碼和運行時間
在工作負載層級,您必須收集應用程式程式代碼和執行上的遙測(應用程式記錄、計量和追蹤),以找出問題並優化效能。 即時掌握應用程式行為,能夠進行有指導性的故障排除和優化。
針對 Azure 中的工作負載,請使用 Application Insights 來收集運行時間遙測(檢測),以便找出效能瓶頸和錯誤。 Application Insights 可讓您監視即時 Web 應用程式、偵測效能異常,以及取得使用者互動的見解,協助您持續改善效能和可用性。 如需工作負載特定的程式代碼並執行監視指引,請參閱 Well-Architected Framework:
工作負載監視區域 | Well-Architected 架構指導方針 |
---|---|
卓越營運 | 儀器化應用程式 |
效能優化 |
優先考慮關鍵流程的效能 優化程式代碼和基礎結構的建議 |
成本優化 |
優化程序代碼成本 優化環境成本的建議 優化流程成本 |
健康情況模型 | 工作負載的健康情況模型化 |
監視雲端資源
監視雲端資源涵蓋監視整個 Azure 的控制平面活動、資源記錄和效能計量。 您想要深入了解資源使用量和變更,以維護安全性、合規性和營運卓越。 具體方法如下:
監視控制平面活動。 您需要知道在雲端環境中建立、更新和刪除資源的人員。 在 Azure 中,您想要監視訂用帳戶中的控制平面活動。 Azure 會自動擷取每個訂用帳戶的控制平面事件,稱為 Azure 活動記錄。 建立診斷設定 將這些活動記錄傳送至正確的目的地
收集雲端資源記錄。 您必須收集每個雲端資源的記錄數據,以評估其健康情況並有效地進行疑難解答。 不同的服務有不同的記錄類型。 在 Azure 中,您必須在每個服務上設定 Azure 資源記錄 以收集這些記錄。 如果您不知道要收集什麼,請收集所有可用的記錄和計量,以避免數據差距,並稍後將成本優化。 若要將成本優化,請調整保留期間,並在不需要時從收集中排除某些記錄。 您收集的記錄,以及保留它們的時間應該與合規性、安全性和商務持續性(根本原因分析)平衡成本。 如需詳細資訊,請參閱 Azure 監視器成本優化最佳做法
收集資源計量。 您需要了解雲端資源的健康情況和效能。 您需要時間序列數據,才能取得時間點數據,以針對問題進行疑難解答。 在 Azure 中,每個服務都會自動產生 Azure 監視器計量。 在 指標探索器中分析這些指標,然後在 上設定警示規則。 檢查 Azure 監視器計量的預設保留期間 。 如果您需要保留較長時間的度量,請建立 診斷設定 儲存在 Log Analytics 工作區中,以進行分析並與日誌數據關聯。 普遍可用時,請使用 數據收集規則 來配置集中監控數據收集。
監視工作負載資源。 如需工作負載特定的雲端資源監視指引,請參閱 Well-Architected 架構:
工作負載監視區域 | Well-Architected 架構指導方針 |
---|---|
Azure 服務監視 | Azure 服務指南 (從營運卓越一節開始) |
可靠性 | 設計可靠監視和警示策略的建議 |
效能效率 | 定義效能目標的建議 收集工作負載效能數據 |
設定警示
設定警示表示根據效能閾值或作條件來設定通知。 您需要及時的警示來快速回應,並遵循事件管理的規範指引。 操作方法如下:
主動識別健康情況問題。 您必須定義關鍵效能指標的臨界值,以監視資源健康情況。 此主動式方法可確保及時偵測潛在問題,並允許更快速的補救。 使用 Azure 監控警示。 如果您不確定警示中使用的臨界值,建立具有動態閾值的計量警示,。 使用 Azure Monitor 基準警示 作為起點。
定義警示的嚴重性。 備妥系統來分類每個警示的嚴重性。 將較高的嚴重性套用至對商務作業至關重要的資源,例如共用服務和企業營運工作負載。 針對其他資源使用較低的嚴重程度。
通知項目關係人。 識別警示觸發時應收到通知的人員。 分散式方法會將相關警示轉送到正確的人員。 從靈活方法開始,當資源接近異常行為時,警示利益相關者。 為每個訂用帳戶設定至少一個動作群組。 此方法可確保相關人員收到警示。 將電子郵件通知通道納入最低需求。 通知作業小組有關低嚴重性警示,並通知管理層有關高嚴重性警示。 如需詳細資訊,請參閱 使用 Azure Logic Apps 自定義警示,並與 IT 服務管理產品 (ITSM)整合。
選取通知通道。 有效通知策略可增強回應時間並降低潛在影響。 視需要使用電子郵件通知作為基準,並新增SMS或與事件管理系統整合。
可視化監視數據
可視化監視數據是指建立儀錶板和報表,以無障礙格式呈現重要計量。 清楚的視覺效果支援明智的決策制定,並與管理 Azure 資產的規範方法一致。 方法如下:
開發監控儀表板。 使用 Azure 活頁簿,並 建立Azure 入口網站儀表板。 儀錶板一目了然地呈現快速見解。 活頁簿可讓您透過自定義查詢和分析深入探索數據。 使用儀錶板來取得廣泛的概觀。 使用活頁簿進行詳細的疑難解答或進階監視。 如果您使用 Grafana,請使用 Managed Grafana。
量身打造視覺化。 自定義圖表和報表,針對不同的對象,無論是企業團隊還是新創事業整體業務影響。
Azure 監視工具
以下是本文所參考之所有 Azure 服務和工具的數據表。
類別 | 工具 | 描述 |
---|---|---|
多重環境監視 | Azure 監視器 | 作為從雲端和內部部署環境收集遙測的中央平臺。 它會監視資源效能和作業狀態。 |
多重環境延伸模組 | Azure Arc | 將 Azure 管理延伸至內部部署、多重雲端和邊緣環境,包括監視和治理。 |
服務健康情況監視 | Azure 服務運行狀況 | 提供有關服務問題、計劃性維護,以及影響 Azure 服務和區域之其他變更的實時狀態和個人化資訊。 |
服務健康情況監視 | Azure 資源健康狀態 | 追蹤個別雲端資源的健康情況,並記錄一段時間的問題以進行疑難解答和報告。 |
安全性監視 | Microsoft Entra 監視 | 追蹤身分識別互動、登入健康情況,以及稽核用戶帳戶的變更,以保護存取。 |
安全性監視 | 適用於雲端的 Microsoft Defender | 使用威脅偵測、弱點評估和安全性建議保護您的雲端資源。 |
安全性監視 | Microsoft Sentinel | 作為雲端原生 SIEM 和 SOAR 解決方案,可分析安全性遙測,並將威脅的回應自動化。 |
合規性監視 | Azure 策略 | 透過自動化評定,強制執行組織標準和稽核大規模資源合規性。 |
合規性監視 | Microsoft Purview 合規性管理員 | 評估法規合規性,並提供降低風險的深入解析和建議。 |
成本監視 | Azure 定價計算器 | 預估 Azure 服務的成本,並協助規劃和優化監視費用。 |
成本監視 | Azure 成本管理 | 監視和管理雲端費用,同時提供深入解析以優化資源使用量和成本。 |
數據監視 | Microsoft Purview | 提供探索、分類和風險管理功能,以控管和保護企業數據。 |
程式代碼和運行時間監視 | Application Insights 應用程式見解 | 使用程式代碼執行、效能和使用量的遙測來監視應用程式效能,以找出問題。 |
雲端資源監視 | Azure Resource Graph 瀏覽器 | 可讓您查詢和探索您的 Azure 資源,提供您對於雲端資產的全面掌握。 |
雲端資源監視 | 網路監看員 | 監視和診斷 Azure 虛擬網路和相關資源的網路效能和連線能力。 |
雲端資源監視 | 連線監視器 | 提供跨 Azure、內部部署和多重雲端環境的連線深入解析。 |
雲端資源監視 | Azure 監視器代理程式 | 安裝在虛擬機器上,用於從作業系統和應用程式收集遙測。 |
雲端資源監視 | Azure 活動記錄 | 記錄控制平面作業,例如在 Azure 訂閱中進行的資源創建、更新或刪除。 |
雲端資源監視 | Azure 資源記錄 | 從個別 Azure 服務擷取診斷數據,以進行疑難解答和效能分析。 |
雲端資源監視 | Azure 監視器計量 | 從 Azure 服務收集時間序列效能數據,以追蹤資源健康情況和效能。 |
雲端資源監視 | 度量指標瀏覽器 | 可視化和分析收集的計量數據,支持趨勢分析和疑難解答。 |
監視數據存儲 | Azure Log Analytics 工作區 | 儲存並啟用所收集記錄數據的查詢,以進行詳細的分析和長期保留。 |
監控數據儲存 | Azure 儲存帳戶 | 提供安全、可調整的記憶體,用於長期保留記錄和監視數據。 |
監控數據儲存 | Azure 事件中樞 | 內嵌大量的遙測和事件數據,支援與 SIEM 和其他分析平臺整合。 |
監控數據儲存 | Azure 數據分析器 | 提供大量遙測數據的快速互動式分析,並支持即時分析。 |
監視數據組態 | 基礎結構即程序代碼的 Azure 監視器 | 使用程式代碼大規模部署和管理 Azure 監視器資源,確保跨環境設定一致。 |
監視數據組態 | 診斷設定在 Azure 監視器 中 | 將監視數據(記錄和計量)路由傳送至Log Analytics、記憶體帳戶或事件中樞等目的地。 |
監視數據組態 | 資料收集規則 | 標準化您環境中監控數據的收集和引入。 |
警示 | Azure 監視器警示 | 當計量或記錄數據的定義臨界值遭到入侵時通知您,可讓您立即響應問題。 |
可視化 | Azure 監視器活頁簿 | 可讓您建立互動式報表和自定義儀錶板,以詳細分析監視數據。 |
可視化 | Azure 入口網站儀錶板 | 在可自定義的儀錶板中顯示重要監視數據,以取得快速見解。 |
可視化 | 管理的 Grafana | 提供裝載的 Grafana 來可視化監視數據,並與適用於自定義儀錶板的 Azure 監視器整合。 |
Azure 服務監控文件
此表格以字母順序提供幾乎完整的每個 Azure 服務監視文章清單。