Insights を使用して複数の Azure Stack HCI クラスターを監視する
適用対象: Azure Local バージョン 22H2
重要
Azure Stack HCI が Azure Local の一部になりました。 製品ドキュメントの名前変更が進行中です。 ただし、古いバージョンの Azure Stack HCI (22H2 など) は引き続き Azure Stack HCI を参照し、名前の変更は反映されません。 詳細情報。
この記事では、Insights を使用して複数の Azure Stack HCI クラスターを監視する方法について説明します。 1 つの Azure Stack HCI クラスターについては、「 Monitor Azure Stack HCI with Insights」を参照してください。
重要
Azure Stack HCI クラスターを登録し、2023 年 11 月より前に Insights を構成した場合、Arc for Servers、VM Insights、Defender for Cloud、Sentinel など、 Azure Monitor Agent (AMA) を使用する特定の機能では、ログとイベント データが正しく収集されない可能性があります。 トラブルシューティングのガイダンスについては、「 2023 年 11 月より前に登録されたクラスターのトラブルシューティング 」セクションを参照してください。
各クラスターで Insights を有効にする利点、前提条件、および方法については、「 Benefits、 Prerequisites、および Enable Insights を参照してください。
概要紹介のビデオを見る:
正常性、パフォーマンス、および使用状況の分析情報を表示する
Insights は、そのデータを Log Analytics ワークスペースに格納します。これにより、強力な集計とフィルター処理を提供し、時間の経過に伴うデータの傾向を分析できます。 Insights には直接のコストはかかっていません。 ユーザーは、取り込むデータ量と Log Analytics ワークスペースのデータ保有の設定に基づいて課金されます。
Azure Monitor > Insights ハブから Azure Stack HCI > Insights にアクセス。 ビューを切り替えるための次のタブが表示されます: [監視への追加]、[クラスターの正常性]、[サーバー]、[仮想マシン]、[ストレージ]。
結果のフィルター処理
視覚化は、サブスクリプション間でフィルター処理できます。 次のドロップダウン メニューに基づいて、結果をフィルター処理できます。
- 時間範囲: このフィルターを使用すると、傾向ビューの範囲を選択できます。 既定値は [過去 24 時間] です。
- サブスクリプション: Azure Stack HCI クラスターを登録したサブスクリプションが表示されます。 このフィルターでは、複数のサブスクリプションを選択できます。
- HCI クラスター: 選択した時間範囲でログと監視機能が有効になっている、登録済みの Azure Stack HCI クラスターを一覧表示します。 このフィルターから複数のクラスターを選択できます。
- リソース グループ: このフィルターを使用すると、リソース グループ内のすべてのクラスターを選択することができます。
監視への追加
この機能は、ユーザーによって監視されていないクラスターの詳細を提供します。 クラスターの監視を開始するには、選択してそのクラスターを開き、[Capabilities > Insights]\(機能と分析情報\) を選択します。 クラスターが表示されない場合は、それが Azure に最近接続されたかどうかを確認してください。
列 | 説明 | 例 |
---|---|---|
クラスター | クラスターの名前です。 | 27cls1 |
Azure 接続の状態 | HCI リソースの状態。 | 接続済み |
OS バージョン | サーバー上のオペレーティング システムのビルド。 | 10.0.20348.10131 |
既定では、グリッド ビューに最初の 250 行が表示されます。 値を設定するには、次の図に示すようにグリッド行を編集します。
詳細を Excel にエクスポートするには、次の図に示すように [Export にエクスポート] を選択します。
Excel で、次のように Azure 接続の状態が指定されます。
- 0: 未登録
- 1: 切断
- 2: Not Recently (最近接続されていない)
- 3: 接続
クラスターの正常性
このビューには、クラスターの正常性の概要が表示されます。
列 | 説明 | 例 |
---|---|---|
クラスター | クラスターの名前です。 | 27cls1 |
最終更新日 | サーバーの最終更新時のタイムスタンプ | 2022/4/9、午後 12:15:42 |
状態 | クラスター内のサーバー リソースの正常性を指定します。 [正常]、[警告]、[重大]、または [その他] になります。 | Healthy |
障害が発生しているリソース | エラーの原因となったリソースの説明。 | サーバー、記憶域プール、サブシステム |
合計サーバー数 | クラスター内のサーバーの数。 | 4 |
クラスターがないか、[その他] の状態が表示される場合は、クラスターに使用されている [Log Analytics ワークスペース] に移動し、[エージェントの構成] で [microsoft-windows-health/operational] ログからデータがキャプチャされていることを確認してください。 最近クラスターが Azure に接続されていることと、このブック内でクラスターがフィルターで除外されていないことも確認してください。
[サーバー]
このビューには、サーバーの正常性とパフォーマンス、および選択したクラスターの使用状況の概要が表示されます。 このビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベント ログ チャネルのサーバー イベント ID 3000 を使用して作成されます。 各行をさらに展開して、ノードの正常性状態を確認できます。 クラスターおよびサーバー リソースとやり取りして、それぞれのリソース ページに移動できます。
仮想マシン
このビューには、選択したクラスター内のすべての VM の状態が表示されます。 このビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベント ログ チャネルの仮想マシン イベント ID 3003 を使用して作成されます。 各行をさらに展開して、クラスター内のサーバー間の VM の分散を表示できます。 クラスターおよびノード リソースとやり取りして、それぞれのリソース ページに移動できます。
メトリック | 説明 | 例 |
---|---|---|
クラスター > サーバー | クラスターの名前です。 展開時に、クラスター内のサーバーが表示されます。 | Sample-VM-1 |
最終更新日時 | サーバーの最終更新時の日時スタンプ。 | 2022/4/9、午後 12:24:02 |
[Total VMs] (VM の総数) | クラスター内のサーバー ノード内の VM の数。 | 1/2 実行中 |
実行中 | クラスター内のサーバー ノードで実行されている VM の数。 | 2 |
Stopped | クラスター内のサーバー ノードで停止されている VM の数。 | 3 |
Failed | クラスター内のサーバー ノードで失敗している VM の数。 | 2 |
その他 | VM の状態が、不明、開始中、スナップショット中、保存中、停止中、一時停止中、再開中、一時停止、中断のいずれかである場合、"その他" と見なされます。 | 2 |
Storage
このビューには、監視対象のクラスター全体のボリュームの正常性、使用状況、パフォーマンスが表示されます。 個々のボリュームの状態を表示するには、クラスターを展開します。 このビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベント ログ チャネルのボリューム イベント ID 3002 を使用して作成されます。 上部のタイルは、ストレージの正常性の概要を示します。
メトリック | 説明 | 例 |
---|---|---|
クラスター > ボリューム | クラスターの名前です。 展開時に、クラスター内のボリュームが表示されます。 | AltaylCluster1 > ClusterPerformanceHistory |
最終更新日 | ストレージの最終更新時の日時スタンプ。 | 2022/4/14、午後 2:58:55 |
ボリューム正常性 | ボリュームの状態。 [正常]、[警告]、[重大]、または [その他] になります。 | Healthy |
サイズ | レポート期間中のデバイスの合計容量 (バイト単位)。 | 25B |
使用方法 | レポート期間中の使用可能な容量のパーセンテージ。 | 23.54% |
Iops | 1 秒あたりの入出力処理。 | 45/s |
傾向 | IOPS の傾向。 | |
スループット | Application Gateway で処理された 1 秒あたりのバイト数。 | 5B/s |
傾向 (B/s) | スループットの傾向。 | |
平均待機時間 | 待機時間とは、I/O 要求の完了にかかる平均時間です。 | 334 μs |
Insights のカスタマイズ
ユーザー エクスペリエンスは Azure Monitor ブック テンプレートをベースに作成されているため、ユーザーは視覚化とクエリを編集し、カスタマイズされたブックとして保存できます。
[Azure Monitor] > [Insights hub]\(分析情報ハブ\) > [Azure Stack HCI] から視覚化を使用している場合は、[カスタマイズ] > [編集] > [名前を付けて保存] を選択して、変更したバージョンのコピーをカスタム ブックに保存します。
ブックはリソース グループ内に保存されます。 リソース グループにアクセスできるすべてのユーザーは、カスタマイズされたブックにアクセスできます。
ほとんどのクエリは、Kusto クエリ言語 (KQL) を使用して記述されます。 一部のクエリは、Resource Graph クエリを使用して記述されます。 詳細については、次の記事をご覧ください。
サポート
Insights のサポート チケットを開くには、Monitoring > Management のサービスの種類 Insights for Azure Stack HCI を使用します。
イベント ログ チャネル
分析情報と監視ビューは、Microsoft-Windows-SDDC-Management/Operational Windows イベント ログ チャネルに基づいています。 監視が有効になっている場合、このチャネルのデータは Log Analytics ワークスペースに保存されます。
ダンプ キャッシュ間隔の表示と変更
キャッシュをダンプする既定の間隔は、3,600 秒 (1 時間) に設定されます。
キャッシュ ダンプ間隔の値を表示するには、次の PowerShell コマンドレットを使用します。
Get-ClusterResource "sddc management" | Get-ClusterParameter
キャッシュ ダンプの頻度を変更するには、次のコマンドレットを使用します。 これが 0 に設定されると、イベントの発行が停止されます。
Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>
ログ チャネル内の Windows イベント
このチャネルには、5 つのイベントが含まれます。 各イベントには、クラスター名と Azure Resource Manager ID が EventData として含まれています。
イベント ID | イベントの種類 |
---|---|
3000 | [サーバー] |
3001 | ドライブ |
3002 | 体積 |
3003 | 仮想マシン |
3004 | クラスター |
サーバー イベント 3000 RenderedDescription 列の値
{
"m_servers":[
{
"m_statusCategory":"Integer",
"m_status":[
"Integer",
"…"
],
"m_id":"String",
"m_name":"String",
"m_totalPhysicalMemoryInBytes":"Integer",
"m_usedPhysicalMemoryInBytes":"Integer",
"m_totalProcessorsUsedPercentage":"Integer",
"m_totalClockSpeedInMHz":"Integer",
"m_uptimeInSeconds":"Integer",
"m_InboundNetworkUsage":"Double (Bits/sec)",
"m_OutboundNetworkUsage":"Double (Bits/sec)",
"m_InboundRdmaUsage":"Double (Bits/sec)",
"m_OutboundRdmaUsage":"Double (Bits/sec)",
"m_site":"String",
"m_location":"String",
"m_vm":{
"m_totalVmsUnknown":"Integer",
"m_totalVmsRunning":"Integer",
"m_totalVmsStopped":"Integer",
"m_totalVmsFailed":"Integer",
"m_totalVmsPaused":"Integer",
"m_totalVmsSuspended":"Integer",
"m_totalVmsStarting":"Integer",
"m_totalVmsSnapshotting":"Integer",
"m_totalVmsSaving":"Integer",
"m_totalVmsStopping":"Integer",
"m_totalVmsPausing":"Integer",
"m_totalVmsResuming":"Integer"
},
"m_osVersion":"String",
"m_buildNumber":"String",
"m_totalPhysicalProcessors":"Integer",
"m_totalLogicalProcessors":"Integer"
},
"…"
],
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
ほとんどの変数は、この JSON 情報でわかりやすく記述されています。 ただし、次の表に、理解しづらい変数をいくつか示します。
Variable | 説明 |
---|---|
m_servers | サーバー ノードの配列。 |
m_statusCategory | サーバーの正常性状態。 |
m_status | サーバーの状態。 これは、1 つまたは 2 つの値を含むことができる配列です。 最初の値は必須です (0-4)。 2 番目の値は省略可能です (5-9)。 |
m_statusCategory 変数の値は次のとおりです。
値 | 意味 |
---|---|
0 | Healthy |
1 | 警告 |
2 | 異常 |
255 | その他 |
m_status 変数の値は次のとおりです。
値 | 意味 |
---|---|
0 | Up |
1 | [下へ] |
2 | メンテナンス中 |
3 | 結合 |
4 | 標準 |
5 | Isolated |
6 | 検疫済み |
7 | ドレイン中 |
8 | ドレインが完了しました |
9 | ドレインに失敗しました |
0xffff | Unknown |
ドライブ イベント 3001 RenderedDescription 列の値
ドライブ イベント 3001
{
"m_drives":[
{
"m_uniqueId":"String",
"m_model":"String",
"m_type":"Integer",
"m_canPool":"Boolean",
"m_sizeInBytes":"Integer",
"m_sizeUsedInBytes":"Integer",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
},
"…"
],
"m_correlationId":"String",
"m_isLastElement":"Boolean"
}
ボリューム イベント 3002 RenderedDescription 列の値
ボリューム イベント 3002
{
"VolumeList":[
{
"m_Id":"String",
"m_Label":"String",
"m_Path":"String",
"m_StatusCategory":"Integer",
"m_Status":[
"Integer",
"…"
],
"m_Size":"Integer (Bytes)",
"m_SizeUsed":"Integer (Bytes)",
"m_TotalIops":"Double (Count/second)",
"m_TotalThroughput":"Double (Bytes/Second)",
"m_AverageLatency":"Double (Seconds)",
"m_Resiliency":"Integer",
"m_IsDedupEnabled":"Boolean",
"m_FileSystem":"String"
},
"…"
],
"m_Alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
ほとんどの変数は、上記の JSON 情報でわかりやすく記述されています。 ただし、次の表に、理解しづらい変数をいくつか示します。
Variable | 説明 |
---|---|
VolumeList | ボリュームの配列。 |
m_StatusCategory | ボリュームの正常性状態。 |
m_Status | ボリュームの状態。 これは、1 つまたは 2 つの値を含むことができる配列です。 最初の値は必須です (0-4)。 2 番目の値は省略可能です (5-9)。 |
m_statusCategory 変数の値は次のとおりです。
値 | 意味 |
---|---|
0 | Healthy |
1 | 警告 |
2 | 異常 |
255 | その他 |
m_status 変数の値は次のとおりです。
値 | 意味 |
---|---|
0 | Unknown |
1 | その他 |
2 | [OK] |
3 | 修復が必要 |
4 | Stressed |
5 | 予測される障害 |
6 | エラー |
7 | 回復不可能なエラー |
8 | 開始中 |
9 | Stopping |
10 | Stopped |
11 | サービス中 |
12 | 連絡先なし |
13 | 通信の切断 |
14 | Aborted |
15 | Dormant |
16 | サポートするエンティティでエラー |
17 | 完了済み |
18 | 電源モード |
19 | 再配置中 |
0xD002 | [下へ] |
0xD003 | 再同期が必要 |
仮想マシン イベント 3003 RenderedDescription 列の値
仮想マシン イベント 3003
{
"m_totalVmsUnknown":"Integer",
"m_totalVmsRunning":"Integer",
"m_totalVmsStopped":"Integer",
"m_totalVmsFailed":"Integer",
"m_totalVmsPaused":"Integer",
"m_totalVmsSuspended":"Integer",
"m_totalVmsStarting":"Integer",
"m_totalVmsSnapshotting":"Integer",
"m_totalVmsSaving":"Integer",
"m_totalVmsStopping":"Integer",
"m_totalVmsPausing":"Integer",
"m_totalVmsResuming":"Integer",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
クラスター イベント 3004 RenderedDescription 列の値
クラスター イベント 3004
{
"m_cpuUsage":"Double (%)",
"m_totalVolumeIops":"Double",
"m_averageVolumeLatency":"Double (Seconds)",
"m_totalVolumeThroughput":"Double (Bytes/Second)",
"m_totalVolumeSizeInBytes":"Integer",
"m_usedVolumeSizeInBytes":"Integer",
"m_totalMemoryInBytes":"Integer",
"m_usedMemoryInBytes":"Integer",
"m_isStretch":"Boolean",
"m_QuorumType":"String",
"m_QuorumMode":"String",
"m_QuorumState":"String",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
収集されるデータの詳細については、「ヘルス サービスの障害」を参照してください。
次のステップ
関連情報については、以下をご覧ください。