如何在 Azure HDInsight 中使用 Apache Ambari 來監視叢集可用性
HDInsight 叢集包含 Apache Ambari,可提供健康情況資訊概覽和預先定義的警示。
本文說明如何使用Ambari來監視叢集,並逐步解說一些設定Ambari警示、監視節點可用性率的範例,以及建立 Azure 監視器警示,以在五小時內未從一或多個節點接收活動訊號時引發
儀表板
若要存取 Ambari 儀表板,請在 Azure 入口網站 HDInsight [概觀] 的 [叢集儀表板] 區段中選取 [Ambari 首頁] 連結,如下所示。 或者,您可以在瀏覽器中瀏覽至 https://CLUSTERNAME.azurehdinsight.net
,其中 CLUSTERNAME 是您的叢集名稱,藉此進行存取。
系統會提示您輸入叢集登入使用者名稱及密碼。 輸入您在建立叢集時所選擇的認證。
接著,您會前往 Ambari 儀表板,其中包含顯示少數計量的小工具,讓您快速概覽 HDInsight 叢集的健康情況。 這些小工具會顯示計量,例如即時 DataNodes (背景工作角色節點) 和 JournalNodes (zookeeper 節點)、NameNodes (前端節點) 執行時間,以及特定叢集類型的特定計量,例如 Spark 和 Hadoop 叢集的 YARN ResourceManager 執行時間。
主機 - 檢視個別節點狀態
您也可以檢視個別節點的狀態資訊。 選取 [主機] 索引標籤來檢視您叢集中所有節點的清單,並查看每個節點的基本資訊。 每個節點名稱左邊的綠色核取符號表示節點上的所有元件都已啟動。 如果節點上的元件關閉,您會看到紅色警示三角形,而不是綠色核取符號。
您接著可以選取節點 [名稱] 來檢視該特定節點更加詳細的主機計量。 此檢視會顯示每個個別元件的狀態/可用性。
Ambari 警示
Ambari 也提供數個可設定的警示,可提供特定事件的通知。 觸發警示時,這些警示會顯示在 Ambari 左上角的紅色徽章中,其中包含警示數目。 選取此徽章會顯示目前警示的清單。
若要檢視警示定義及其狀態的清單,請選取 [警示] 索引標籤,如下所示。
Ambari 提供許多與可用性相關的預先定義警示,包括:
警示名稱 | 描述 |
---|---|
DataNode 健康情況摘要 | 如果有狀況不良的 DataNodes,則會觸發此服務層級警示 |
NameNode 高可用性健康情況 | 如果使用中的 NameNode 或待命 NameNode 未執行,就會觸發此服務層級警示。 |
可用的百分比 JournalNodes | 如果叢集中停機的 JournalNodes 數目大於設定的重大閾值,就會觸發此警示。 其會彙總 JournalNodes 程序檢查的結果。 |
可用的百分比 Datanode | 如果叢集中停機的 Datanode 數目大於設定的重大閾值,就會觸發此警示。 其會彙總 DataNode 程序檢查的結果。 |
若要檢視警示的詳細資料或修改準則,請選取警示的 [名稱]。 以 DataNode 健康情況摘要為例。 您可以看到警示的描述,以及將會觸發「警告」或「重大」警示的特定準則,以及準則的檢查間隔。 若要編輯組態,請選取 [組態] 方塊右上角的 [編輯] 按鈕。
您可以在這裡編輯描述,更重要的是,編輯警告或重大警示的檢查間隔和閾值。
在此範例中,您可以讓 2 個狀況不良的 DataNode 觸發重大警示,而 1 個狀況不良的 DataNode 只會觸發警告。 完成編輯時,請選取 [儲存]。
電子郵件通知
您也可以選擇性地設定 Ambari 警示的電子郵件通知。 若要這樣做,請在 [警示] 索引標籤上按一下左上方的 [動作] 按鈕,然後按一下 [管理通知]。
管理警示通知的對話方塊隨即開啟。 選取對話方塊底部的 +,並填寫必要的欄位,提供 Ambari 電子郵件伺服器詳細資料,以便傳送電子郵件。
提示
設定 Ambari 電子郵件通知是管理許多 HDInsight 叢集時,在單一位置接收警示的好方法。