如何在 HDInsight 中使用 Azure 監視器記錄來監視叢集可用性
HDInsight 叢集包括 Azure 監視器記錄整合,而這提供可查詢的計量和記錄,以及可設定的警示。 本文顯示如何使用 Azure 監視器來監視叢集。
Azure 監視器記錄整合
Azure 監視器記錄可將多個資源 (例如 HDInsight 叢集) 所產生的資料收集並彙總至一個位置,以達到統一的監視體驗。
先決條件是,您將需要 Log Analytics 工作區來儲存收集到的資料。 如果您尚未建立,則可以遵循這裡的指示:建立 Log Analytics 工作區。
啟用 HDInsight Azure 監視器記錄整合
從入口網站的 HDInsight 叢集資源頁面中,選取 [Azure 監視器]。 然後,選取 [啟用],並從下拉式清單中選取您的 Log Analytics 工作區。
根據預設,這會在所有叢集節點上安裝 OMS 代理程式,但邊緣節點除外。 因為未在叢集邊緣節點上安裝 OMS 代理程式,所以 Log Analytics 中預設不會有邊緣節點的任何遙測。
查詢計量和記錄資料表
啟用 Azure 監視器記錄整合之後 (這可能需要幾分鐘的時間),請導覽至您的 [Log Analytics 工作區] 資源,然後選取 [記錄]。
記錄會列出一些範例查詢,例如:
查詢名稱 | 描述 |
---|---|
今天的電腦可用性 | 以圖表呈現傳送記錄的電腦數目 (每小時) |
列出活動訊號 | 列出過去一小時內的所有電腦活動訊號 |
每部電腦的最後一個活動訊號 | 顯示每部電腦所傳送的最後一個活動訊號 |
無法使用的電腦 | 列出過去 5 小時內未傳送活動訊號的所有已知電腦 |
可用性比率 | 計算每個已連線電腦的可用率 |
例如,選取該查詢上的 [執行],以執行 [可用率] 範例查詢,如上述螢幕擷取畫面所示。 這將會以百分比顯示叢集中每個節點的可用率。 如果您已啟用多個 HDInsight 叢集以將計量傳送至相同的 Log Analytics 工作區,則將會看到這些所顯示叢集中所有節點的可用率 (排除邊緣節點)。
注意
可用率會以 24 小時期間進行測量,因此您的叢集至少需要先執行 24 小時,才能看到精確的可用率。
您可以按一下右上角的 [釘選],以將此資料表釘選至共用儀表板。 如果您沒有任何可寫入的共用儀表板,則可以在這裡了解如何建立儀表板:在 Azure 入口網站中建立和共用儀表板。
Azure 監視器警示
您也可以設定 Azure 監視器警示,而這些警示會在計量的值或查詢的結果符合特定條件時觸發。 例如,如果有一或多個節點尚未在 5 小時內傳送活動訊號 (即假設無法使用),則請建立警示來傳送電子郵件。
從 [記錄] 中,選取對該查詢 [執行],以執行 [無法使用的電腦] 範例查詢,如下所示。
如果所有節點都可使用則此查詢現在應該會傳回零個結果。 按一下 [新增警示規則],以開始設定此查詢的警示。
警示有三個元件:要為其建立規則的「資源」(在此案例中為 Log Analytics 工作區)、可觸發警示的「條件」,以及決定觸發警示時所發生情況的「動作群組」。 按一下 [條件標題] (如下所示),以完成訊號邏輯的設定。
這將會開啟 [設定訊號邏輯]。
設定 [警示邏輯] 區段,如下所示:
根據:「結果數目」、條件:大於、閾值:0。
因為詢只會傳回無法使用的節點作為結果,所以如果結果數目超過 0,則應該會引發警示。
在 [評估依據] 區段中,根據您想要檢查無法使用節點的頻率來設定 [期間] 和 [頻率]。
為了達到此警示的目的,建議您確定 Period=Frequency。您可在此處找到期間、頻率和其他警示參數的詳細資訊。
完成訊號邏輯的設定時,請選取 [完成]。
如果您還沒有現有的動作群組,則請按一下 [動作群組] 區段下的 [新建]。
這將會開啟 [新增動作群組]。 選擇 [動作群組名稱]、[簡短名稱]、[訂用帳戶] 和 [資源群組]。在 [動作] 區段下,選擇 [動作名稱],然後選取 [電子郵件/SMS/推送/語音] 作為 [動作類型]。
注意
除了電子郵件/簡訊/推播/語音以外,警示還可以觸發數個其他動作,例如 Azure 函數、LogicApp、Webhook、ITSM 和自動化 Runbook。 深入了解。
這將會開啟 [電子郵件/簡訊/推送/語音]。 選擇收件者的 [名稱]、核取 [電子郵件] 方塊,然後輸入您想要傳送警示的目標電子郵件地址。 在 [電子郵件/簡訊/推送/語音] 中選取 [確定],然後在 [新增動作群組] 中完成動作群組的設定。
在這些刀鋒視窗關閉之後,您應該會看到 [動作群組] 區段下列出動作群組。 最後,輸入 [警示規則名稱] 和 [描述],然後選擇 [嚴重性],以完成 [警示詳細資料] 區段。 按一下 [建立警示規則] 以完成。
提示
指定 [嚴重性] 的能力是一種功能強大的工具,可在建立多個警示時使用。 例如,您可以建立一個警示以在單一前端節點關閉時引發「警告 (嚴重性 1)」,並建立另一個警示以在兩個前端節點都關閉的不可能情況下引發「危急 (嚴重性 0)」。
符合此警示的條件時,將會引發警示,而且您將會收到含有警示詳細資料的電子郵件,如下所示:
您也可以移至 [Log Analytics 工作區] 中的 [警示],以檢視已引發並依嚴重性分組的所有警示。
當您選取嚴重性群組 (即 [嚴重性 1],如上方醒目提示),它會顯示具有該嚴重性並已引發的所有警示記錄,如下所示: