Microsoft 365 中的數據監視和自我修復
假設Microsoft 365 的規模,如果沒有全方位的內建監視、智慧型的警示,以及快速且可靠的自我修復,將無法讓客戶數據保持復原及安全免於惡意代碼攻擊。 以 Microsoft 365 的規模監視一組服務是一項挑戰。 需要引進新思維和方法,而且需要建立一組新的技術,才能在聯機的全域環境中操作和管理服務。 我們已從傳統的數據收集和篩選監視方法中移除,以針對以數據分析為基礎的方法建立警示;取得訊號並建立對該數據的信賴度,然後使用自動化來復原或解決問題。 這種方法有助於將人類從復原方程式中移出,進而降低作業成本、更快速且較不容易出錯。
Microsoft 365 監視的基礎是包含 Data Insights 引擎的技術集合,其以 Azure、SQL Azure 和 開放原始碼串流資料庫技術為基礎。 其設計目的是要收集和匯總數據並得出結論。 目前,它每小時處理超過5億個來自超過100,000部伺服器的事件 (每天 ~15 TB,) 散佈在許多區域中的數十個數據中心,而且這些數位正在成長。
Microsoft 365 使用 外部監視,這牽涉到建立綜合交易來測試所有重要的專案。 例如,在 Exchange 中,每個案例都會以散佈的方式每隔五分鐘測試全球每個資料庫,提供幾乎連續涵蓋系統中所有專案的涵蓋範圍。 從多個位置,每天會執行 2.5 億筆測試交易,為服務建立穩固的基準或活動訊號。
Microsoft 365 也使用 紅色警示的概念,此概念會將數據中心內所有計算機的所有監視訊號縮減為人類可管理的訊號。 概念很簡單:如果多個訊號發生問題,就必須發生一些事。 這並不是要建立對一個訊號的信賴,而是為了讓每個訊號有合理的精確度,讓您獲得更高的精確度。 此監視系統功能強大,因此沒有 24x7 人員監看我們的監視器;我們只需要在偵測到問題時喚醒的機制,在此情況下,它會將適當的待命人員分頁,或更常像是這種情況一樣,它只會繼續並解決問題。 一旦開始收集訊號並建置紅色警示之後,我們就可以開始對所有服務分割區進行三角形。
根據失敗警示和紅色警示的組合,此警示會確切指出哪些元件可能有問題,而且系統會藉由重新啟動信箱伺服器來嘗試自行修正問題。
除了單一頁面還原等自我修復功能之外,Exchange 還包含數個採用監視和自我修復方法的功能,其著重於保留用戶體驗。 這些功能包括可提供內建監視和復原動作的受控 可用性,以及在磁碟失敗後自動還原資料庫備援的 AutoReseed。
受管理的可用性
受控可用性提供原生健康狀態檢查和復原解決方案,可透過復原導向動作來監視和保護用戶的體驗。 受控可用性是內建監視和復原動作與 Exchange 高可用性平臺的整合。 其設計目的是在問題發生時立即偵測並從中復原,並由系統探索到。 不同於 Exchange 先前的外部監視解決方案和技術,受控可用性不會嘗試識別或傳達問題的根本原因。 相反地,其著重於解決用戶體驗三個主要區域的復原層面:
- 可用性 - 使用者可以存取服務嗎?
- 延遲 - 使用者的體驗如何?
- 錯誤 - 使用者是否能夠完成他們想要的作業?
受控可用性是在執行 Exchange 的每部Microsoft 365 伺服器上執行的內部功能。 它會每秒輪詢並分析數百個健康情況計量。 如果發現發生錯誤,大部分時候都會自動修正。 但一律會有Managed可用性無法自行修正的問題。 在這些情況下,受控可用性會透過事件記錄將問題呈報給 Microsoft 365 支援小組。
AutoReseed
Exchange 伺服器會部署在相同非 RAID 磁碟上儲存多個資料庫及其記錄數據流的組態中。 此設定通常稱為 JBOD) (一 堆磁碟 ,因為沒有任何記憶體備援機制,例如 RAID,會用來複製磁碟上的數據。 當 JBOD 環境中的磁碟失敗時,該磁碟上的資料就會遺失。
由於 Exchange 的大小及其內部署的磁碟驅動器數百萬個,因此 Exchange 中經常會發生磁碟驅動器故障。 事實上,每天有超過 100 個失敗。 當內部部署企業部署中的磁碟失敗時,系統管理員必須手動取代失敗的磁碟,並還原受影響的數據。 在雲端部署中,Microsoft 365 的大小,讓操作員 (雲端系統管理員) 手動取代磁碟,這既不實用也不可行。
自動重新植入或 AutoReseed 是一項功能,可取代通常由操作員驅動的動作,以回應磁碟失敗、資料庫損毀事件或其他需要重新植入資料庫複本的問題。 AutoReseed 專為磁碟故障後,使用佈建在系統上的備用磁碟自動還原資料庫備援而設計。 如果磁碟失敗,儲存在該磁碟上的資料庫複本會自動重新儲存至伺服器上預先設定的備用磁碟,藉此還原備援。