使用 Insights 監視多個 Azure Stack HCI 叢集
適用於:Azure 本機版本 22H2
重要
Azure Stack HCI 現在是 Azure 本機的一部分。 產品檔案重新命名正在進行中。 不過,舊版的 Azure Stack HCI,例如 22H2 會繼續參考 Azure Stack HCI,而且不會反映名稱變更。 深入了解。
本文說明如何使用 Insights 來監視多個 Azure Stack HCI 叢集。 如需單一 Azure Stack HCI 叢集,請參閱 使用深入解析監視 Azure Stack HCI。
重要
如果您在 2023 年 11 月之前註冊 Azure Stack HCI 叢集並設定深入解析,則某些使用 Azure 監視器代理程式 (AMA) 的功能,例如 Arc for Servers、VM Insights、適用於雲端的 Defender 或 Sentinel 可能無法正確收集記錄和事件數據。 如需疑難解答指引,請參閱 針對 2023 年 11 月之前註冊的叢集進行疑難解答一節。
如需優點、必要條件以及如何在每個叢集上啟用深入解析的資訊,請參閱 權益、 必要條件和 啟用深入解析。
觀看影片以取得快速簡介:
檢視健康情況、效能和使用方式深入解析
Insights 會將其數據儲存在Log Analytics工作區中,讓其能夠提供強大的匯總和篩選,並隨時間分析數據趨勢。 深入解析沒有直接成本。 用戶會根據擷取的數據量和其Log Analytics工作區的數據保留設定來計費。
您可以從 Azure 監視器>深入解析中樞 > Azure Stack HCI 存取深入解析。 您會看到下列索引標籤,以在檢視之間切換: 新增至監視、叢集健康情況、伺服器、虛擬機、記憶體。
篩選結果
視覺效果可以跨訂用帳戶進行篩選。 您可以根據下列下拉選單來篩選結果:
- 時間範圍: 此篩選可讓您選取趨勢檢視的範圍。 默認值為 [過去 24 小時]。
- 訂用帳戶: 顯示已註冊 Azure Stack HCI 叢集的訂用帳戶。 您可以在此篩選條件中選取多個訂用帳戶。
- HCI 叢集: 列出已在所選時間範圍內啟用記錄和監視功能的已註冊 Azure Stack HCI 叢集。 您可以從此篩選選取多個叢集。
- 資源群組: 此篩選可讓您選取資源群組內的所有叢集。
新增至監視
此功能提供使用者未監視的叢集詳細數據。 若要開始監視叢集,請選取它以開啟該叢集,然後選取 [ 功能 > 深入解析]。 如果您沒有看到叢集,請確定它最近已連線到 Azure。
資料行 | 描述 | 範例 |
---|---|---|
Cluster | 叢集的名稱。 | 27cls1 |
Azure 連線狀態 | HCI 資源狀態。 | Connected |
作業系統版本 | 操作系統會建置在伺服器上。 | 10.0.20348.10131 |
根據預設,方格檢視會顯示前250個數據列。 您可以編輯格線資料列來設定值,如下圖所示:
您可以選取 [導出至 Excel] 來匯出 Excel 中的詳細數據,如下圖所示:
Excel 將提供 Azure 連線狀態,如下所示:
- 0:未註冊
- 1:已中斷連線
- 2:最近沒有
- 3:已連線
叢集健康情況
此檢視提供叢集健康情況的概觀。
資料行 | 描述 | 範例 |
---|---|---|
Cluster | 叢集的名稱。 | 27cls1 |
上次更新 | 上次更新伺服器時的時間戳。 | 2022/4/9,下午 12:15:42 |
狀態 | 提供叢集中伺服器資源的健康情況。 它可以是狀況良好、警告、重大或其他。 | Healthy |
錯誤資源 | 造成錯誤的資源描述。 | 伺服器、StoragePool、子系統 |
伺服器總數 | 叢集中的伺服器數目。 | 4 |
如果您的叢集遺失或顯示 [其他] 狀態,請移至用於叢集的Log Analytics工作區,並確定Agent組態是從 microsoft-windows-health/operational 記錄擷取數據。 此外,請確定叢集最近已連線到 Azure,並檢查此活頁簿中未篩選出叢集。
伺服器
此檢視提供伺服器健康情況和效能的概觀,以及所選叢集的使用方式。 此檢視是使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的伺服器事件標識碼 3000 來建置。 每個數據列都可以進一步展開,以查看節點健全狀況狀態。 您可以與叢集和伺服器資源互動,以流覽至個別的資源頁面。
虛擬機器
此檢視提供所選叢集中所有 VM 的狀態。 此檢視是使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的虛擬機事件標識碼 3003 所建置。 您可以進一步擴充每個數據列,以檢視叢集中伺服器之間的 VM 分佈。 您可以與叢集和節點資源互動,以流覽至個別的資源頁面。
計量 | 描述 | 範例 |
---|---|---|
叢集 > 伺服器 | 叢集的名稱。 在擴充時,它會顯示叢集內的伺服器。 | Sample-VM-1 |
上次更新 | 上次更新伺服器時的 datetimestamp。 | 2022/4/9,下午 12:24:02 |
VM 總數 | 叢集中伺服器節點中的 VM 數目。 | 2 個執行中的1個 |
執行中 | 在叢集內的伺服器節點中執行的 VM 數目。 | 2 |
已停止 | 在叢集內的伺服器節點中停止的 VM 數目。 | 3 |
失敗 | 叢集中伺服器節點中的 VM 數目失敗。 | 2 |
其他 | 如果 VM 處於下列其中一個狀態(未知、啟動、快照集、儲存、停止、暫停、暫停),則會被視為「其他」。 | 2 |
儲存體
此檢視會顯示跨受監視叢集的磁碟區、使用量和效能健康情況。 展開叢集以查看個別磁碟區的狀態。 此檢視是使用 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道的磁碟區事件標識碼 3002 所建置。 頂端的圖格提供記憶體健康情況的概觀。
計量 | 描述 | 範例 |
---|---|---|
叢集磁碟區> | 叢集的名稱。 在擴充時,它會顯示叢集中的磁碟區。 | AltaylCluster1 > ClusterPerformanceHistory |
上次更新 | 上次更新記憶體的 datetimestamp。 | 2022/4/14,下午 2:58:55 |
磁碟區健康情況 | 磁碟區的狀態。 它可以是狀況良好、警告、重大或其他。 | Healthy |
大小 | 報告期間裝置的總容量,以位元組為單位。 | 25B |
使用方式 | 報告期間可用容量的百分比。 | 23.54% |
Iops | 每秒的輸入/輸出作業數。 | 45/秒 |
趨勢 | IOPS 趨勢。 | |
輸送量 | 應用程式閘道每秒已服務的位元組數目。 | 5B/秒 |
趨勢 (B/秒) | 輸送量趨勢。 | |
平均延遲 | 延遲是 I/O 要求完成所需的平均時間。 | 334 個 334 個 |
自定義深入解析
由於用戶體驗是以 Azure 監視器活頁簿範本為基礎所建置,因此使用者可以編輯視覺效果和查詢,並將其儲存為自定義活頁簿。
如果您使用 Azure 監視器>深入解析中樞 > Azure Stack HCI 的視覺效果,請選取 [自定義>編輯>另存新檔],將修改過的版本複本儲存至自定義活頁簿。
活頁簿會儲存在資源群組中。 具有資源群組存取權的每個人都可以存取自定義活頁簿。
大部分的查詢都是使用 Kusto 查詢語言 (KQL) 撰寫的。 某些查詢是使用 Resource Graph 查詢所撰寫。 如需詳細資訊,請參閱下列文章:
支援
若要開啟 Insights 的支援票證,請使用監視與管理下的 Azure Stack HCI 服務類型 Insights。
事件記錄檔通道
深入解析和監視檢視是以 Microsoft-Windows-SDDC-Management/Operational Windows 事件記錄通道為基礎。 啟用監視時,此通道的資料會儲存至 Log Analytics 工作區。
檢視和變更傾印快取間隔
傾印快取的預設間隔會設定為3600秒(1小時)。
使用下列 PowerShell Cmdlet 來檢視快取傾印間隔值:
Get-ClusterResource "sddc management" | Get-ClusterParameter
使用下列 Cmdlet 來變更快取傾印的頻率。 如果設定為 0,則會停止發佈事件:
Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>
記錄通道中的 Windows 事件
此通道包含五個事件。 每個事件都有叢集名稱和 Azure Resource Manager 識別符作為 EventData。
事件識別碼 | 事件類型 |
---|---|
3000 | 伺服器 |
3001 | 磁碟機 |
3002 | 體積 |
3003 | 虛擬機器 |
3004 | Cluster |
伺服器事件 3000 RenderedDescription 數據行值
{
"m_servers":[
{
"m_statusCategory":"Integer",
"m_status":[
"Integer",
"…"
],
"m_id":"String",
"m_name":"String",
"m_totalPhysicalMemoryInBytes":"Integer",
"m_usedPhysicalMemoryInBytes":"Integer",
"m_totalProcessorsUsedPercentage":"Integer",
"m_totalClockSpeedInMHz":"Integer",
"m_uptimeInSeconds":"Integer",
"m_InboundNetworkUsage":"Double (Bits/sec)",
"m_OutboundNetworkUsage":"Double (Bits/sec)",
"m_InboundRdmaUsage":"Double (Bits/sec)",
"m_OutboundRdmaUsage":"Double (Bits/sec)",
"m_site":"String",
"m_location":"String",
"m_vm":{
"m_totalVmsUnknown":"Integer",
"m_totalVmsRunning":"Integer",
"m_totalVmsStopped":"Integer",
"m_totalVmsFailed":"Integer",
"m_totalVmsPaused":"Integer",
"m_totalVmsSuspended":"Integer",
"m_totalVmsStarting":"Integer",
"m_totalVmsSnapshotting":"Integer",
"m_totalVmsSaving":"Integer",
"m_totalVmsStopping":"Integer",
"m_totalVmsPausing":"Integer",
"m_totalVmsResuming":"Integer"
},
"m_osVersion":"String",
"m_buildNumber":"String",
"m_totalPhysicalProcessors":"Integer",
"m_totalLogicalProcessors":"Integer"
},
"…"
],
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
大部分變數都是此 JSON 資訊的自我說明。 不過,下表列出一些較難理解的變數。
變數 | 描述 |
---|---|
m_servers | 伺服器節點的陣列。 |
m_statusCategory | 伺服器的健全狀態。 |
m_status | 伺服器的狀態。 這是一個陣列,可以包含一或兩個值。 第一個值是必要值 (0-4)。 第二個值是選擇性的 (5-9)。 |
m_statusCategory變數的值如下所示:
值 | 意義 |
---|---|
0 | Healthy |
1 | 警告 |
2 | Unhealthy |
255 | 其他 |
m_status變數的值如下所示:
值 | 意義 |
---|---|
0 | Up |
1 | 向下 |
2 | 在維護中 |
3 | 聯結 |
4 | 正常 |
5 | 隔離式方案 |
6 | 已隔離 |
7 | 排水 |
8 | 清空已完成 |
9 | 清空失敗 |
0xffff | Unknown |
磁碟驅動器事件 3001 RenderedDescription 數據行值
磁碟驅動器事件 3001
{
"m_drives":[
{
"m_uniqueId":"String",
"m_model":"String",
"m_type":"Integer",
"m_canPool":"Boolean",
"m_sizeInBytes":"Integer",
"m_sizeUsedInBytes":"Integer",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
},
"…"
],
"m_correlationId":"String",
"m_isLastElement":"Boolean"
}
Volume 事件 3002 RenderedDescription 數據行值
磁碟區事件 3002
{
"VolumeList":[
{
"m_Id":"String",
"m_Label":"String",
"m_Path":"String",
"m_StatusCategory":"Integer",
"m_Status":[
"Integer",
"…"
],
"m_Size":"Integer (Bytes)",
"m_SizeUsed":"Integer (Bytes)",
"m_TotalIops":"Double (Count/second)",
"m_TotalThroughput":"Double (Bytes/Second)",
"m_AverageLatency":"Double (Seconds)",
"m_Resiliency":"Integer",
"m_IsDedupEnabled":"Boolean",
"m_FileSystem":"String"
},
"…"
],
"m_Alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
大部分變數都是上述 JSON 資訊的自我說明。 不過,下表列出一些較難理解的變數。
變數 | 描述 |
---|---|
VolumeList | 磁碟區的陣列。 |
m_StatusCategory | 磁碟區的健全狀態。 |
m_Status | 磁碟區的狀態。 這是一個陣列,可以包含一或兩個值。 第一個值是必要值 (0-4)。 第二個值是選擇性的 (5-9)。 |
m_statusCategory變數的值如下所示:
值 | 意義 |
---|---|
0 | Healthy |
1 | 警告 |
2 | Unhealthy |
255 | 其他 |
m_status變數的值如下所示:
值 | 意義 |
---|---|
0 | Unknown |
1 | 其他 |
2 | [確定] |
3 | 需要修復 |
4 | 強調 |
5 | 預料中的故障 |
6 | 錯誤 |
7 | 無法復原的錯誤 |
8 | 啟動中 |
9 | 正在停止 |
10 | 已停止 |
11 | 服務中 |
12 | 沒有聯繫人 |
13 | 失去通訊 |
14 | 已中止 |
15 | 睡眠狀態的 |
16 | 支援發生錯誤的實體 |
17 | 已完成 |
18 | 電源模式 |
19 | 搬遷 |
0xD002 | 向下 |
0xD003 | 需要重新同步 |
虛擬機事件 3003 RenderedDescription 數據行值
虛擬機事件 3003
{
"m_totalVmsUnknown":"Integer",
"m_totalVmsRunning":"Integer",
"m_totalVmsStopped":"Integer",
"m_totalVmsFailed":"Integer",
"m_totalVmsPaused":"Integer",
"m_totalVmsSuspended":"Integer",
"m_totalVmsStarting":"Integer",
"m_totalVmsSnapshotting":"Integer",
"m_totalVmsSaving":"Integer",
"m_totalVmsStopping":"Integer",
"m_totalVmsPausing":"Integer",
"m_totalVmsResuming":"Integer",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
叢集事件 3004 RenderedDescription 數據行值
叢集事件 3004
{
"m_cpuUsage":"Double (%)",
"m_totalVolumeIops":"Double",
"m_averageVolumeLatency":"Double (Seconds)",
"m_totalVolumeThroughput":"Double (Bytes/Second)",
"m_totalVolumeSizeInBytes":"Integer",
"m_usedVolumeSizeInBytes":"Integer",
"m_totalMemoryInBytes":"Integer",
"m_usedMemoryInBytes":"Integer",
"m_isStretch":"Boolean",
"m_QuorumType":"String",
"m_QuorumMode":"String",
"m_QuorumState":"String",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
如需所收集數據的詳細資訊,請參閱 健全狀況服務 錯誤。
下一步
如需相關資訊,請參閱: