使用 Insights 監視多個 Azure Stack HCI 叢集

發行項
03/09/2025

適用於：Azure Stack HCI 版本 22H2

重要

Azure Stack HCI 現在是 Azure Local 的一部分。不過，舊版的 Azure Stack HCI，例如 22H2 會繼續參考 Azure Stack HCI，而且不會反映名稱變更。深入了解。

本文說明如何使用 Insights 來監視多個 Azure Stack HCI 叢集。如需單一 Azure Stack HCI 叢集，請參閱透過 Insights 監視 Azure Stack HCI。

重要

如果您在 2023 年 11 月之前註冊 Azure Stack HCI 叢集並設定深入解析，則某些使用 Azure 監視器代理程式（AMA）的功能，例如 Arc for Servers、VM Insights、適用於雲端的 Defender 或 Sentinel 可能無法正確收集記錄和事件數據。如需疑難解答指引，請參閱 2023 年 11 月之前註冊的叢集疑難排解部分。

如需優點、必要條件以及如何在每個叢集上啟用深入解析的資訊，請參閱權益、必要條件和啟用深入解析。

觀看影片以取得快速簡介：

檢視健康狀況、效能表現和使用情況的深入見解

Insights 會將其數據儲存在Log Analytics工作區中，讓其能夠提供強大的匯總和篩選，並隨時間分析數據趨勢。 Insights 沒有直接成本。用戶會根據擷取的數據量和其Log Analytics工作區的數據保留設定來計費。

您可以從Azure 監視器深入解析中樞Azure Stack HCI存取深入解析功能。您會看到下列索引標籤，以在檢視之間切換： 新增至監視、叢集健康情況、伺服器、虛擬機、記憶體。

篩選結果

視覺效果可以跨訂用帳戶進行篩選。您可以根據下列下拉選單來篩選結果：

時間範圍： 此篩選可讓您選取趨勢檢視的範圍。默認值為 [過去 24 小時]。
訂用帳戶： 顯示已註冊 Azure Stack HCI 叢集的訂用帳戶。您可以在此篩選條件中選取多個訂用帳戶。
HCI 叢集： 列出已在所選時間範圍內啟用記錄和監視功能的已註冊 Azure Stack HCI 叢集。您可以從此篩選選取多個叢集。
資源群組： 此篩選可讓您選取資源群組內的所有叢集。

新增至監視

此功能提供使用者未監視的叢集詳細數據。若要開始監視叢集，請選取它以開啟該叢集，然後選取 [ 功能 > 深入解析]。如果您沒有看到叢集，請確定它最近已連線到 Azure。

欄位	描述	範例
群集	叢集的名稱。	27cls1
Azure 連線狀態	HCI 資源狀態。	已連接
作業系統版本	操作系統會建置在伺服器上。	10.0.20348.10131

根據預設，方格檢視會顯示前250個數據列。您可以編輯格線資料列來設定值，如下圖所示：

您可以選取 [導出至 Excel] 來匯出 Excel 中的詳細數據，如下圖所示：

Excel 將提供 Azure 連線狀態，如下所示：

0：未註冊
1：已中斷連線
2：最近沒有
3：已連線

叢集健康

此檢視提供叢集健康情況的概觀。

欄位	描述	範例
群集	叢集的名稱。	27cls1
上次更新	上次更新伺服器時的時間戳。	2022/4/9，下午 12：15：42
狀態	提供叢集中伺服器資源的健康情況。它可以是狀況良好、警告、重大或其他。	健康的
故障資源	造成錯誤的資源描述。	伺服器、StoragePool、子系統
伺服器總數	叢集中的伺服器數目。	4

如果您的叢集遺失或顯示狀態為其他，請移至用於叢集的Log Analytics 工作區，並確保Agent 組態正在從microsoft-windows-health/operational 記錄中擷取數據。此外，請確認叢集是否已在最近成功連線到 Azure，並確保這些叢集沒有被此報表篩選掉。

伺服器

此檢視提供伺服器健康情況和效能的概觀，以及所選叢集的使用方式。此檢視是使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的伺服器事件標識碼 3000 來建置。每個數據列都可以進一步展開，以查看節點健全狀況狀態。您可以與叢集和伺服器資源互動，以流覽至個別的資源頁面。

虛擬機器

此檢視提供所選叢集中所有 VM 的狀態。此檢視是使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的虛擬機事件標識碼 3003 所建置。您可以進一步擴充每個數據列，以檢視叢集中伺服器之間的 VM 分佈。您可以與叢集和節點資源互動，以流覽至個別的資源頁面。

計量	描述	範例
叢集 > 伺服器	叢集的名稱。在擴充時，它會顯示叢集內的伺服器。	Sample-VM-1
上次更新	伺服器上次更新時的日期時間戳記。	2022/4/9，下午 12：24：02
VM 總數	叢集中伺服器節點中的 VM 數目。	2個中的1個執行中
跑步	在叢集內的伺服器節點中執行的 VM 數目。	2
已停止	在叢集內的伺服器節點中停止的 VM 數目。	3
失敗	叢集內伺服器節點上失敗的虛擬機數量。	2
其他	如果 VM 處於以下其中一個狀態（未知、啟動、快照、儲存、停止、暫停、恢復中、已暫停、已掛起），則會被視為「其他」。	2

儲存空間

此檢視會顯示受監視叢集內各磁碟區的健康狀況、使用量及效能。展開叢集以查看個別磁碟區的狀態。此檢視是使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的磁碟區事件標識碼 3002 所建置。頂端的區塊提供儲存健康狀況的概覽。

計量	描述	範例
叢集磁碟區>	叢集的名稱。展開時，它會顯示叢集中的體積。	AltaylCluster1 > ClusterPerformanceHistory
上次更新	上次更新儲存的日期時間標記。	2022/4/14，下午 2：58：55
磁碟區健康情況	音量的狀態。它可以是狀況良好、警告、嚴重或其他。	健康的
大小	報告期間裝置的總容量，以位元組為單位。	25B
使用方式	報告期間可用容量的百分比。	23.54%
Iops	每秒的輸入/輸出作業數。	45/秒
趨勢	IOPS 趨勢。
輸送量	應用程式閘道每秒已服務的位元組數目。	5B/秒
趨勢（B/秒）	輸送量趨勢。
平均延遲	延遲是 I/O 要求完成所需的平均時間。	334 微秒

自定義深入解析

由於用戶體驗是以 Azure 監視器活頁簿範本為基礎所建置，因此使用者可以編輯視覺效果和查詢，並將其儲存為自定義活頁簿。

如果您使用 Azure Monitor> Insights hub> Azure Stack HCI 的視覺效果，請選取 自定義> 編輯> 另存新檔，將修改過的版本儲存為自定義活頁簿中的一個副本。

活頁簿會儲存在資源群組中。具有資源群組存取權的每個人都可以存取自定義活頁簿。

大部分的查詢都是使用 Kusto 查詢語言（KQL）撰寫的。某些查詢是使用 Resource Graph 查詢所撰寫。如需詳細資訊，請參閱下列文章：

支援

若要開啟 Insights 的支援票證，請在監視與管理下選擇Azure Stack HCI 的 Insights服務類型。

事件記錄檔通道

深入解析和監視檢視是以 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道為基礎。啟用監視時，此通道的資料會儲存至 Log Analytics 工作區。

檢視和變更匯出快取間隔

清除快取的預設間隔會設定為3600秒（1小時）。

使用下列 PowerShell Cmdlet 來檢視快取傾印間隔值：

Get-ClusterResource "sddc management" | Get-ClusterParameter

使用下列指令來變更快取記錄的頻率。如果設定為 0，則會停止發佈事件：

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

記錄通道中的 Windows 事件

此通道包含五個事件。每個事件都有叢集名稱和 Azure Resource Manager 識別符作為 EventData。

事件識別碼	事件類型
3000	伺服器
3001	磁碟機
3002	體積
3003	虛擬機器
3004	群集

伺服器事件 3000 RenderedDescription 欄位值

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

大部分變數在這份 JSON 資訊中都不言自明。不過，下表列出一些較難理解的變數。

變數	描述
m_servers	伺服器節點的陣列。
m_statusCategory	伺服器的健全狀態。
m_status	伺服器的狀態。這是一個陣列，可以包含一或兩個值。第一個值是必要值（0-4）。第二個值是選擇性的（5-9）。

m_statusCategory變數的值如下所示：

價值	意義
0	健康
1	警告
2	不健康
255	其他

m_status變數的值如下所示：

價值	意義
0	上
1	向下
2	在維護中
3	加入
4	正常
5	孤立
6	已隔離
7	排水
8	清空已完成
9	清空失敗
0xffff	Unknown

驅動事件 3001 RenderedDescription 欄位值

磁碟驅動器事件 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

Volume 事件 3002 RenderedDescription 數據行值

磁碟區事件 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

大部分變數依據上述 JSON 資訊是不言自明的。不過，下表列出一些較難理解的變數。

變數	描述
音量列表	卷的陣列。
狀態類別	磁碟區的健全狀態。
m_Status	體積的狀態。這是一個陣列，可以包含一或兩個值。第一個值是必要值（0-4）。第二個值是選擇性的（5-9）。

m_statusCategory變數的值如下所示：

值	意義
0	健康
1	警告
2	不健康的
255	其他

m_status變數的值如下所示：

值	意義
0	未知
1	其他
2	[確定]
3	需要修復
4	壓力大
5	預料中的故障
6	錯誤
7	無法復原的錯誤
8	啟動中
9	停止
10	已停止
11	服務中
12	沒有聯繫人
13	失去通訊
14	已中止
15	休眠
16	支援發生錯誤的實體
17	已完成
18	電源模式
19	搬遷
0xD002	向下
0xD003	需要重新同步

虛擬機事件 3003 RenderedDescription 欄位值

虛擬機事件 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

叢集事件 3004 RenderedDescription 欄位值

叢集事件 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

如需所收集數據的詳細資訊，請參閱健康服務故障。

下一步

如需相關資訊，請參閱：

設定 Azure 入口網站以監視 Azure Stack HCI 叢集
從 Windows Admin Center 監視 Azure Stack HCI 叢集
針對基於活頁簿的分析進行疑難排解

共用方式為