System Center Operations Manager でのグレーエージェントの状態のトラブルシューティング

[アーティクル]
12/14/2024

この記事では、System Center Operations Manager (OpsMgr) でエージェント、管理サーバー、またはゲートウェイが使用できない、または が取り消される 問題をトラブルシューティングする方法について説明します。

元の製品バージョン: Microsoft System Center 2012 Operations Manager
元の KB 番号: 2288515

エージェント、管理サーバー、またはゲートウェイは、 Monitoring ペインのエージェント名とアイコンの色で示されているように、次のいずれかの状態にすることができます。

状態コード	外観	説明
Healthy	緑のチェックマーク	エージェントまたはManagement サーバーは正常に実行されています。
緊急	赤いチェックマーク	エージェントまたはManagement サーバーに問題があります。
Unknown	灰色のエージェント名、灰色のチェックマーク	監視対象のコンピューター上のヘルスサービスを監視するManagement サーバーのヘルスサービスウォッチャーが、エージェントからのハートビートを受信しなくなったことを意味します。それ以前はハートビートを受信し、状態は健全でした。これはまた、管理サーバーがエージェントからの情報を一切受信しなくなったことを意味します。この問題は、エージェントを実行しているコンピューターが実行されていない場合、または接続の問題がある場合に発生する可能性があります。
Unknown	緑の円、チェックマークなし	検出された項目の状態が不明です。この特定の検出された品目に対して使用できる監視はありません。

灰色の状態の原因

エージェント、Management サーバー、またはゲートウェイは、次のいずれかの理由で使用できなくなる可能性があります：

ハートビートエラー
構成が無効です
システムワークフローエラー
Operations Manager データベースまたはデータウェアハウスのパフォーマンスの問題
Management サーバーまたはゲートウェイサーバーのパフォーマンス問題
ネットワークまたは認証の問題
ヘルスサービスが実行されていない

問題のスコープ

エージェントの灰色表示の問題のトラブルシューティングを開始する前に、まず Operations Manager トポロジを理解してから、問題の範囲を定義する必要があります。次の質問は、問題の範囲を定義するのに役立つ場合があります。

影響を受けるエージェントの数
エージェントで同じネットワークセグメントで問題が発生していますか?
エージェントは同じ管理サーバーにレポートしますか?
エージェントはどのくらいの頻度でグレーの状態になりますか?
通常、このような状況からどのように復旧しますか (たとえば、エージェントの正常性サービスを再起動し、キャッシュをクリアし、自動回復に依存します)。
これらのエージェントに対してハートビートエラーアラートは生成されますか?
この問題は、特定の時間帯に発生しますか?
これらのエージェントを別の管理サーバーまたはゲートウェイにフェールオーバーした場合、この問題は解決しませんか?
問題はいつ発生しましたか?
エージェント、管理サーバー、またはゲートウェイまたは管理グループに変更が加えられましたか?
影響を受けるエージェントは Windows クラスター化システムですか?
ヘルスサービス状態フォルダーはウイルス対策スキャンから除外されていますか?

トラブルシューティングの戦略

トラブルシューティング戦略は、どのコンポーネントが非アクティブであるか、そのコンポーネントがトポロジ内にあり、問題がどの程度広がっているかによって決まります。次の条件を考慮してください。

特定の管理サーバーまたはゲートウェイに報告するエージェントが使用できない場合は、管理サーバーまたはゲートウェイレベルでトラブルシューティングを開始する必要があります。
特定の管理サーバーに報告するゲートウェイが使用できない場合は、管理サーバーレベルでトラブルシューティングを開始する必要があります。
エージェントレスシステム、ネットワークデバイス、Unix および Linux サーバーの場合は、これらのオブジェクトを監視しているエージェント、管理サーバー、またはゲートウェイからトラブルシューティングを開始する必要があります。
通常、トラブルシューティングは、使用できないコンポーネントのすぐ上のレベルから開始されます。

シナリオ 1

この問題の影響を受けるエージェントはごくわずかです。これらのエージェントは、さまざまな管理サーバーに報告します。エージェントは定期的に使用できません。エージェントキャッシュをクリアして問題を一時的に解決することはできますが、問題は数日後に繰り返されます。

シナリオ 1 の解決策

このシナリオの問題を解決するには、次の手順に従います。

影響を受けるオペレーティングシステムに適切な修正プログラムを適用します。
ウイルス対策スキャンからエージェントキャッシュを除外します。詳細については、「 Operations Manager に関連するウイルス対策の除外についてを参照してください。
正常性サービスを停止します。
エージェントキャッシュをクリアします。
正常性サービスを開始します。

シナリオ 2

この問題の影響を受けるエージェントはごくわずかです。これらのエージェントは、さまざまな管理サーバーに報告します。エージェントは常に非アクティブなままです。エージェントキャッシュをクリアすることはできますが、この問題は解決しません。

シナリオ 2 の解決策

このシナリオの問題を解決するには、次の手順に従います。

ヘルスサービスが有効になっていて、現在管理サーバーまたはゲートウェイで実行されているかどうかを確認します。正常性サービスが応答を停止した場合は、問題の原因を特定するために、サービスハングモードで ADPlus ダンプを生成します。詳細については、「 ADPlus.vbs を使用して "ハング" と "クラッシュ" のトラブルシューティングを行う方法を参照してください。
エージェントの Operations Manager イベントログを調べて、次のいずれかのイベントを見つけます。

イベント ID: 1102
イベントソース: HealthService
イベントの説明:
id:"%2" のインスタンス "%3" に対して実行されているルール/モニター "%4" は初期化できず、読み込まれません。管理グループ "%1"

イベント ID: 1103
イベントソース: HealthService
イベントの説明:
概要: %2 ルール/モニターが失敗してアンロードされました。%3 が、自動再読み込みを妨げるエラー制限に達しました。管理グループ "%1"。これは概要のみのイベントです。アンロードされたルール/モニターの説明を含む他のイベントを参照してください。

イベント ID: 1104
イベントソース: HealthService
イベントの説明:
id:"%2" のインスタンス "%3" に対して実行されているワークフロー "%4" の RunAs プロファイルは解決できません。ワークフローは読み込まれません。管理グループ "%1"

イベント ID: 1105
イベントソース: HealthService
イベントの説明:
ワークフロー "%4" の RunAs プロファイルの種類が一致しません。id:"%2" のインスタンス "%3" に対して実行されています。ワークフローは読み込まれません。管理グループ "%1"

イベント ID: 1106
イベントソース: HealthService
イベントの説明:
id:"%2" のインスタンス "%3" で実行されている、ワークフロー "%4" のプレーンテキストの RunAs プロファイルにアクセスできません。ワークフローは読み込まれません。管理グループ "%1"

イベント ID: 1107
イベントソース: HealthService
イベントの説明:
ワークフロー "%4" の RunAs プロファイルのアカウント。id:"%2" のインスタンス "%3" に対して実行されているアカウントは定義されていません。ワークフローは読み込まれません。アカウントをプロファイルに関連付けてください。管理グループ "%1"

イベント ID: 1108
イベントソース: HealthService
イベントの説明:
実行プロファイル "%7" で指定されたアカウントを解決できません。具体的には、アカウントがセキュリティで保護された参照オーバーライド "%6" で使用されています。 %n%n このような状況が発生した原因として、アカウントがこのコンピューターに分散されるように構成されていないことが考えられます。この問題を解決するにはまず、次に指定された実行アカウントを開き、その SSID で指定されているとおりにアカウントエントリを見つけます。そして、アカウントをこのコンピュータに分散することが適切な場合はそれを行い、それ以外の場合はターゲットオブジェクトが指定されたアカウントを使用しないようにプロファイルの設定を変更します。 %n%n管理グループ: %1 %n 実行プロファイル: %7 %nSecureReferenceOverride 名: %6 %nSecureReferenceOverride ID: %4 %nオブジェクト名: %3 %nオブジェクト ID: %2 %n アカウント SSID: %5

イベント ID: 4000
イベントソース: HealthService
イベントの説明:
監視ホストが応答しないか、クラッシュしました。ホストエラーの状態コードは %1 でした。

イベント ID: 21016
イベントソース: OpsMgr コネクタ
イベントの説明:
OpsMgr は %1 への通信チャネルを設定できず、フェールオーバーホストがありません。 %1 が使用可能で、このコンピューターからの通信が許可されると、通信が再開されます。

イベント ID: 21006
イベントソース: OpsMgr コネクタ
イベントの説明:
OpsMgr コネクタが %1:%2 に接続できませんでした。エラーコードは %3(%4) です。ネットワーク接続があり、サーバーが実行されていて、そのリッスンポートが登録されており、宛先へのトラフィックをブロックしているファイアウォールがないことを確認してください。

イベント ID: 20070
イベントソース: OpsMgr コネクタ
イベントの説明:
%1 に接続されている OpsMgr コネクタが、認証が発生した直後に接続が閉じられました。このエラーの原因として、エージェントのサーバーとの通信が許可されていないか、サーバーが構成を受信していないかのどちらかが考えられます。サーバーのイベントログに 20000 イベントがないか確認してください。このイベントは、承認されていないエージェントが接続を試みたことを示します。

イベント ID: 20051
イベントソース: OpsMgr コネクタ
イベントの説明:
証明書が現在有効ではないため、指定された証明書を読み込めませんでした。システム時刻が正しいことを確認し、必要に応じて証明書を再発行します%n 証明書の有効な開始時刻: %1%n 証明書の有効な終了時刻: %2

イベントソース: ESE
イベントカテゴリ: トランザクションマネージャー
イベント ID: 623
説明: HealthService (<PID>) インスタンス <instance>("<name>") のバージョンストアが、最大サイズの <value> Mb に達しました。実行時間の長いトランザクションによって、バージョンストアのクリーンアップが妨げられ、サイズが増える可能性があります。実行時間の長いトランザクションが完全にコミットまたはロールバックされるまで、更新は拒否されます。実行時間の長いトランザクションの可能性:
SessionId: <value>
セッションコンテキスト: <value>
セッションコンテキスト ThreadId: <value>。
クリーンアップ: <value>
次の特定のイベントを見つけた場合は、次のガイドラインに従ってください。
- イベント 1102 および 1103: これらのイベントは、一部のワークフローの読み込みに失敗したことを示します。これらがコアシステムワークフローの場合、これらのイベントによって問題が発生する可能性があります。この場合は、これらのイベントの解決に重点を置きます。
- イベント 1104、1105、1106、1107、1108: これらのイベントにより、イベント 1102 と 1103 が発生する可能性があります。通常、これは、正しく構成されていない実行アカウントが原因で発生します。たとえば、実行アカウントが、間違ったクラスで使用するように構成されているか、エージェントに配布するように構成されていません。
- イベント 4000: このイベントは、Monitoringhost.exe プロセスがクラッシュしたことを示します。 DLL の不一致またはレジストリキーの不足が原因でこの問題が発生した場合は、エージェントを再インストールすることで問題を解決できる可能性があります。問題が解決しない場合は、次の方法を使用して解決してみてください。
  - プロセスがクラッシュするまでプロセスモニターキャプチャを実行します。詳細については、「 Process Monitor v3.53」を参照してください。
  - クラッシュモードで ADPlus ダンプを生成します。詳細については、「 ADPlus.vbs を使用して "ハング" と "クラッシュ" のトラブルシューティングを行う方法を参照してください。
- イベント ID 21006: このイベントは、エージェントと管理サーバーの間に通信の問題が存在することを示します。エージェントが相互認証に証明書を使用している場合は、証明書の有効期限が切れていないことを確認し、エージェントが正しい証明書を使用していることを確認します。 Kerberos が使用されている場合は、エージェントが Active Directory と通信できることを確認します。認証が正しく機能している場合は、エージェントからのパケットが管理サーバーまたはゲートウェイに到達していない可能性があります。エージェントから管理サーバーへのポート 5723 への telnet の確立を試みます。さらに、通信エラーを再現しながら、エージェントと管理サーバーの間で同時にネットワークトレースを実行します。これは、パケットが管理サーバーに到達しているかどうか、および 2 つのコンポーネント間の任意のデバイスがトラフィックを最適化しようとしているか、パケットをドロップしているかを判断するのに役立ちます。詳細については、「ネットワークモニターを使用してデータを収集するを参照してください。
- イベント ID 623: このイベントは通常、管理サーバーまたはエージェントコンピューターが多数のワークフローを管理する大規模な Operations Manager 環境で発生します。詳細については、「 Operations Manager コンソールで 1 つ以上の管理サーバーとその管理対象デバイスが淡色表示されるを参照してください。

シナリオ 3

特定の管理サーバーまたはゲートウェイに報告するすべてのエージェントは使用できません。

シナリオ 3 の解決策

このシナリオの問題を解決するには、次の手順に従います。

管理サーバーまたはゲートウェイが監視しているワークロードの種類を特定してみてください。このようなワークロードには、ネットワークデバイス、クロスプラットフォームエージェント、代理トランザクション、Windows エージェント、エージェントレスコンピューターなどがあります。
ヘルスサービスが管理サーバーとゲートウェイのどちらで実行されているかを判断します。
管理サーバーがメンテナンスモードで実行されているかどうかを確認します。必要に応じて、メンテナンスモードからサーバーを削除します。
エージェントの Operations Manager イベントログで、 Scenario 2 に一覧表示されているイベントを調べます。イベント ID 21006 がある場合は、シナリオ 2 の Resolution で説明されているのと同じガイドラインに従。さらに、このイベントは、管理サーバーまたはゲートウェイが親サーバーと通信できないことを示します。ゲートウェイの場合、親サーバーは任意の管理サーバーにすることができます。 ( の手順 3 を参照してください。シナリオ 2 の解決策。
Operations Manager イベントログで次のイベントを確認します。これらのイベントは、通常、 OperationsManager または OperationsManagerDW データベースをホストしている管理サーバーまたは Microsoft SQL Server にパフォーマンスの問題が存在することを示します。

イベント ID: 2115
イベントソース: HealthService
イベントの説明:
管理グループ %1 のバインドデータソースがワークフローにアイテムを投稿しましたが、%5 秒で応答を受信していません。これは、ワークフローのパフォーマンスまたは機能の問題を示します。%n ワークフロー ID : %2%n インスタンス: %3%n インスタンス ID : %4%n

イベント ID: 5300
イベントソース: HealthService
イベントの説明:
ローカルヘルスサービスは正常ではありません。エンティティ状態の変更フローは、保留中の受信確認でストールしています。 %n%n管理グループ: %2 %n管理グループ ID: %1

イベント ID: 4506
イベントソース: HealthService
イベントの説明: Operations Manager
管理グループ "%1" の id:"%4" のインスタンス "%3" で実行されているルール "%2" の未処理のデータが多すぎるため、データが削除されました。

イベント ID: 31551
イベントソース: ヘルスサービスモジュール
イベントの説明:
データウェアハウスにデータを格納できませんでした。操作は再試行されます。%rException '%5': %6 %n%nOne 以上のワークフローがこの影響を受けます。 %n%nワークフロー名: %2 %nInstance name: %3 %nInstance ID: %4 %n管理グループ: %1

イベント ID: 31552
イベントソース: ヘルスサービスモジュール
イベントの説明:
データウェアハウスにデータを格納できませんでした。%rException '%5': %6 %n%n1 以上のワークフローがこの影響を受けます。 %n%nワークフロー名: %2 %nInstance name: %3 %nInstance ID: %4 %n管理グループ: %1

イベント ID: 31553
イベントソース: ヘルスサービスモジュール
イベントの説明:
データは Data Warehouse ステージング領域に書き込まれたが、後続のいずれかの操作で処理に失敗しました。%rException '%5': %6 %n%n1 以上のワークフローがこの影響を受けています。 %n%nワークフロー名: %2 %nInstance name: %3 %nInstance ID: %4 %n管理グループ: %1

イベント ID: 31557
イベントソース: ヘルスサービスモジュール
イベントの説明:
Data Warehouse データベースから同期プロセスの状態情報を取得できませんでした。操作は再試行されます。%rException '%5': %6 %n%nOne 以上のワークフローがこの影響を受けます。 %n%nワークフロー名: %2 %nInstance name: %3 %nInstance ID: %4 %n管理グループ: %1
実行アカウントの構成が正しくないか、実行アカウントのアクセス許可が不足しているため、イベント ID 3155X もログに記録される可能性があります。

Note

管理サーバーまたはゲートウェイのパフォーマンスと SQL Server のパフォーマンスをトラブルシューティングするには、シナリオ 4 の Resolution セクションを参照してください。

シナリオ 4

特定の管理サーバーに報告するすべてのエージェントは、正常な状態と灰色の状態の間で断続的に切り替わります。または、環境内のすべてのエージェントが、正常な状態と灰色の状態の間で断続的に交互に行われます。

シナリオ 4 の解決策

問題を解決するには、まず問題の原因を特定します。一時的なサーバーが使用できない一般的な原因は次のとおりです。

エージェントの親サーバーが一時的にオフラインになっています。
エージェントは、アラート、状態、検出などの運用データで管理サーバーをあふれさせます。これにより、Operations Manager データベースと Operations Manager サーバー上のシステムリソースの使用が増える可能性があります。
ネットワークの停止により、親サーバーとエージェントの間で一時的な通信エラーが発生しました。
管理パック (MP) の変更が発生しました。 Operations Manager コンソールでこれらの変更を行うには、Operations Manager の構成と、エージェントへの MP 再配布が必要です。変更が大きなエージェントベースに影響する場合は、Operations Manager データベースと Operations Manager サーバーでのシステムリソースの使用が増加する可能性があります。

これらのシナリオのトラブルシューティングの鍵となるのは、サーバーが使用できない期間と、サーバーが発生した時刻を把握することです。これにより、問題の範囲をすばやく絞り込むのに役立ちます。

Management サーバーとゲートウェイのパフォーマンスのトラブルシューティング

管理サーバー

構成更新プログラムのバースト中 (MP のインポートと検出によって発生します)、一般的なボトルネックは、最初に CPU、2 番目に Operations Manager インストールディスク I/O です。管理サーバーでは、構成ファイルをターゲットエージェントに転送します。

オペレーショナルデータの収集の場合、通常、ボトルネックは CPU によって引き起こされます。ディスク I/O が最大容量になっていることも考えられますが、あまり可能性はありません。管理サーバーでは、受信したオペレーショナルデータの圧縮解除と暗号化解除を行い、それをオペレーションデータベースに挿入します。また、オペレーショナルデータを受信した後に、確認応答 (ACK) をエージェントまたはゲートウェイに返信し、ディスクキューを使用してこれらの送信 ACK を一時的に格納します。

ゲートウェイ

ゲートウェイは、CPU バインドと I/O バインドの両方です。ゲートウェイが大量のデータを中継している場合、CPU 操作と I/O 操作の両方で使用率が高くなる可能性があります。ほとんどの CPU 使用率は、受信データの圧縮解除、圧縮、暗号化解除、復号化、およびデータの転送によって発生します。ゲートウェイおよびエージェントから受信されるすべてのデータは、ゲートウェイ正常性サービスによって管理サーバーに読み取られ、転送されるディスク上の永続的なキューに格納されます。これにより、ディスクの使用率が高くなることがあります。この使用は、ゲートウェイが一時的にオフラインになったときに重要になる可能性があり、その後、ゲートウェイがまだオフラインのときにエージェントが生成して送信しようとした蓄積されたエージェントデータを処理する必要があります。

この状況で問題をトラブルシューティングするには、影響を受ける各管理サーバーまたはゲートウェイに関して次の情報を収集します。

Windows の正確なバージョン、エディション、ビルド番号
プロセッサの数
RAM の容量
ヘルスサービス State フォルダーを含むドライブ
ヘルスサービスストアを除外するようにウイルス対策ソフトウェアが構成されているかどうか

Note

詳細については、「 Operations Manager に関連するウイルス対策の除外についてを参照してください。
ヘルスサービス状態で使用されるドライブの RAID レベル (0、1、5、0+1、または1+0)
RAID に使用されるディスクの数
バッテリベースの書き込みキャッシュがアレイコントローラーで有効になっているかどうか

SQL Server パフォーマンスに関する問題のトラブルシューティング

オペレーションデータベース (OperationsManager)

OperationsManager データベースの場合、最も可能性の高いボトルネックはディスクアレイです。ディスクアレイが最大 I/O 容量になっていない場合、次に最も可能性の高いボトルネックは CPU です。データベースでは時折、速度低下やオペレーショナルデータストーム (イベント、アラート、パフォーマンスデータまたは状態の変化の発生頻度が高くなり、それが比較的長く持続すること) が発生する場合があります。通常、短いバーストでは、長期間にわたる大幅な遅延は発生しません。

オペレーショナルデータの挿入中、データベースディスクは主に書き込みに使用されます。 CPU が使用される原因は、SQL Server のチャーンです。これは、大規模で複雑なクエリ、大量のデータ挿入、大規模なテーブルのクリーンアップ (既定では、午前 0 時に実施) が行われているときに発生する可能性があります。通常は、より大規模なイベントやパフォーマンスデータテーブルのクリーンアップでも、CPU やディスクリソースが過剰に消費されることはありません。しかし、アラートと状態変更のテーブルのクリーンアップの場合、大規模なテーブルでは CPU 負荷が高くなるおそれがあります。

データベースも、構成の再配布バースト (MP インポートや大規模なインスタンススペースの変更によって引き起こされます) の処理時に CPU バウンドになります。このような場合、構成サービスでは、データベースに対して新しいエージェント構成に関するクエリを実行します。通常はこれによって、サービスからエージェントに構成の更新プログラムが送信される前にデータベースで CPU スパイクが発生します。

データウェアハウス (OperationsManagerDW)

OperationsManagerDW データベースの場合、最も可能性の高いボトルネックはディスクアレイです。通常これは、大規模なオペレーショナルデータの挿入が原因で発生します。このような場合、ディスクは普通、書き込みの実行でビジー状態になっています。通常、ディスクでは、手動で生成されたレポートビューを処理する以外、ほとんど読み取りを行いません。これらの場合は、データウェアハウスに対してクエリを実行するからです。

CPU が使用される原因は、SQL Server のチャーンです。 CPU スパイクが起こる可能性があるのは、大量のパーティション分割アクティビティ (テーブルが大きくなり、パーティションに分割される場合) の発生時、複雑なレポートの生成時、データベース (データウェアハウスを常に同期する必要があります) 内での大量のアラートの生成時です。

一般的なトラブルシューティング

この状況で問題をトラブルシューティングするには、影響を受ける各管理サーバーまたはゲートウェイに関して次の情報を収集します。

Windows の正確なバージョン、エディション、ビルド番号
プロセッサの数
RAM の容量
SQL Server に割り当てられているメモリの量
SQL Server が 32 ビットであり、AWE が有効になっているかどうか

この情報のほとんどは、SQL Server Management Studio または SQL Server Enterprise Manager で確認できます。これを行うには、サーバーの [プロパティ] ウィンドウを開き、 [全般] と [メモリ] のタブを選択します。 [全般] タブには、SQL Server のバージョン、Windows のバージョン、プラットフォーム、RAM の容量、プロセッサの数が含まれます。 [メモリ] タブには、SQL Server に割り当てられているメモリが含まれます。 Microsoft SQL Server 2008 では、 [メモリ] タブに AWE オプションも含まれています。

OS が 32 ビットで、RAM が 4 GB 以上の場合は、Boot.ini に /pae または /3gb スイッチが存在するかどうかを確認します。ファイルの SSDL セクションに次の要素を追加します。これらのオプションは、サーバーが当初 4 GB 以下の RAM を使用してインストールされた場合、および RAM が後でアップグレードされた場合は正しく構成されない可能性があります。

4 GB の RAM を持つ 32 ビットサーバーの場合、Boot.ini の /3gb スイッチにより、SQL Server で対応できるメモリの量が増えます (2 GB から 3 GB)。 4 GB を超える RAM を持つ 32 ビットサーバーの場合は、Boot.ini の /3gb スイッチにより、SQL Server で対応できるメモリの量が実際に制限される可能性があります。これらのシステムの場合は、Boot.ini に /pae スイッチを追加し、SQL Server で AWE を有効にします。

マルチプロセッサシステムで、 [Max Degree of Parallelism (MAXDOP)] (並列処理の最大限度 (MAXDOP)) の設定を確認します。 SQL Server 2008 では、このオプションはサーバーの [プロパティ] ダイアログボックスの [詳細設定] タブにあります。

既定値は 0 (使用可能なすべてのプロセッサが使用されます) です。プロセッサが 8 つ以下のサーバーでは 0 を設定しても問題ありません。プロセッサが 8 つを超えるサーバーの場合、SQL Server ですべてのプロセッサの使用の調整にかかる時間が非生産的な長さになるおそれがあります。そのため、プロセッサが 8 つを超えるサーバーの場合、通常は並列処理の最大限度の値を 8 に設定してください。これを行うには、SQL クエリアナライザーで次のコマンドを実行します。
```
sp_configure 'show advanced options', 1
GO
RECONFIGURE WITH OVERRIDE
GO
sp_configure 'max degree of parallelism', 8
GO
RECONFIGURE WITH OVERRIDE
GO
```
データウェアハウス、Operations Manager DB、Tempdb ファイルを含むドライブ文字
ウイルス対策ソフトウェアが SQL データファイルとログファイルを除外するように構成されているかどうか (ウイルス対策ソフトウェアを使用して SQL Server データベースファイルをスキャンすると、パフォーマンスが低下するおそれがあります)。
データウェアハウス、Operations Manager DB、および Tempdb ファイルを含むドライブの空き領域の量
ストレージの種類 (SAN またはローカル)
SQL Server で使用されているドライブの RAID レベル (0、1、5、0+1 または 1+0)
SAN ストレージが使用されている場合: SQL Server によって使用されている各 LUN 上のスピンドルの数
変換された Exchange 2007 管理パックが使用されている場合、または使用されたことがある場合: Operations Manager データベースの LocalizedText テーブルとデータウェアハウスデータベースの EventPublisher テーブル内の行数

行数を確認するには、次のコマンドを実行します。
```
USE OperationsManager SELECT COUNT(*) FROM LocalizedText
USE OperationsManagerDW SELECT COUNT(*) FROM EventPublisher
```

メモリ負荷を識別するカウンター

パフォーマンスカウンター名	説明
MSSQL$<instance>: バッファーマネージャー: ページの平均寿命	ページがバッファープールに保持される期間。この値が 300 秒未満の場合は、サーバーがより多くのメモリを使用できることを示している可能性があります。また、インデックスの断片化によってこれが起こる可能性もあります。
MSSQL$<instance>: Buffer Manager: Lazy writes/sec	レイジーライターでは、ページをディスクに移動してバッファー内のスペースを解放します。通常は、この値が常時 20 書き込み/秒を超えることがないようにしてください。 0 に近いことが理想です。
メモリ: 使用可能な MB	100 MB 未満の値は、メモリ負荷を示している可能性があります。この数値が 10 MB 未満の場合、明らかにメモリ負荷が存在します。
プロセス: プライベートバイト: _Total	これは、すべてのプロセス全体で使用されているメモリ (物理とページ) の量です。
プロセス: 作業セット: _Total	これは、すべてのプロセス全体で使用されている物理メモリの量です。このカウンターの値が `Process: Private Bytes: _Total` の値を大幅に下回っている場合、プロセスのページングが多すぎることを示します。 10% を超える差は重大であると考えられます。

ディスク負荷を識別するカウンター

SQL データまたはログファイルを含むすべてのドライブについて、次の物理ディスクカウンターをキャプチャします。

% Idle Time: 報告されているディスクアイドル時間。 50% 未満の場合は、ディスクのボトルネックを示している可能性があります。
平均ディスクキュー長: この値は、LUN 上にあるスピンドルの数の 2 倍を超えないようにする必要があります。たとえば、LUN に 25 個のスピンドルがある場合、値 50 は許容されます。しかし、LUN に 10 個のスピンドルがある場合、値 25 は高すぎます。 RAID 構成の RAID レベルとディスク数に基づいて、次の式を使用できます。
- RAID 0: すべてのディスクが RAID 0 セットで動作しています
- 平均ディスクキュー長<= # (アレイ内のディスク) *2
- RAID 1: ディスクの半分が動作しています。したがって、ディスクキューにカウントできるのは、その半分だけです
- 平均ディスクキュー長<= # (アレイ内のディスク/2) *2
- RAID 10: ディスクの半分が "動作しています"。したがって、ディスクキューにカウントできるのは、その半分だけです
- 平均ディスクキュー長<= # (アレイ内のディスク/2) *2
- RAID 5: すべてのディスクが RAID 5 セットで動作しています
- 平均ディスクキュー長<= # 配列内のディスク *2
- 平均ディスク転送 (秒) : 1 つのディスク I/O を完了するためにかかる秒数
- 平均ディスク読み取り (秒) : ディスクからデータを読み取る平均時間 (秒単位)
- 平均ディスク書き込み (秒) : ディスクにデータを書き込む平均時間 (秒単位)
  
  このリストの最後の 3 つのカウンターは、一貫して約 .020 (20 ミリ秒) 以下の値である必要があり、 .050 (50 ミリ秒) を超えてはなりません。以下は SQL Server パフォーマンスのトラブルシューティングガイドに記載されているしきい値です。
  - 10 ミリ秒未満: 非常に良い
  - 10 から 20 ミリ秒の間: 問題なし
  - 20 から 50 ミリ秒の間: 遅い、注意が必要
  - 50 ミリ秒を超える: 重大な I/O のボトルネック
- ディスクバイト数/秒: 1 秒あたりにディスク間で転送されるバイト数
- ディスク転送数/秒: 1 秒あたりの入出力操作の数 (IOPS)
アイドル時間 (%) が低い (10% 以下) 場合は、ディスクがフル活用されていることを意味します。この場合、このリストの最後の 2 つのカウンター (ディスクバイト数/秒とディスク転送数/秒) は、ドライブの最大スループットをそれぞれバイト単位と IOPS 単位で適切に示します。 SAN ドライブのスループットは、スピンドルの数、ドライブの速度、チャネルの速度によって大きく異なります。最善の方法として、ドライブが対応する必要があるバイト数と IOPS 数を SAN ベンダーに確認してください。 アイドル時間 (%) が低く、これら 2 つのカウンターの値がドライブの予想スループットを満たしていない場合は、SAN ベンダーにトラブルシューティングを依頼してください。

SQL Server パフォーマンスのトラブルシューティングガイドは、SQL Server パフォーマンスのトラブルシューティングに関する詳細な分析情報を示します。

Operations Manager のパフォーマンスカウンター

次のセクションでは、Operations Manager のパフォーマンスの監視とトラブルシューティングに使用できるパフォーマンスカウンターについて説明します。

ゲートウェイサーバーの役割

全体的なパフォーマンスカウンター

これらのカウンターは、ゲートウェイの全体的なパフォーマンスを示します。

パフォーマンスカウンター名
Processor(_Total)\% プロセッサ時間
Memory\% Committed Bytes In Use
Network Interface(*)\Bytes Total/sec
LogicalDisk(*)\% アイドル時間
LogicalDisk(*)\Avg. Disk Queue Length

Operations Manager プロセスの汎用パフォーマンスカウンター

これらのカウンターは、ゲートウェイでの Operations Manager プロセスの全体的なパフォーマンスを示します。

パフォーマンスカウンター名	説明
Process(HealthService)\% プロセッサ時間
Process(HealthService)\Private Bytes	このゲートウェイが管理しているエージェントの数によっては、この数が異なる場合があり、数百メガバイトになる場合があります。
プロセス(HealthService)\スレッド数
プロセス(HealthService)\仮想バイト
プロセス(HealthService)\作業セット
Process(MonitoringHost*)\% プロセッサ時間
Process(MonitoringHost*)\Private Bytes
プロセス(MonitoringHost*)\スレッド数
プロセス(MonitoringHost*)\仮想バイト
プロセス(MonitoringHost*)\作業セット

Operations Manager 固有のパフォーマンスカウンター

これらのカウンターは、ゲートウェイ上の Operations Manager の特定の側面のパフォーマンスを示す Operations Manager 固有のカウンターです。

パフォーマンスカウンター名	説明
Health Service\Workflow Count
ヘルスサービス管理グループ(*)\アクティブファイルアップロード	このゲートウェイが処理しているファイル転送の数。これは、エージェントにアップロードされる管理パックファイルの数を表します。この値が長い間高いレベルにとどまっていて、特定の時点で管理パックのインポートがあまり行われていない場合、これらの状態によってファイル転送に影響する問題が発生するおそれがあります。
Health Service Management Groups(*)\Send Queue % Used	永続キューのサイズ。この値が長い間 10 を超えたままになっていて、そこから下がらない場合は、キューがバックアップされていることを示します。この状態は、管理サーバーまたはデータベースがビジー状態であるか、オフラインになっているために、Operations Manager システムが過負荷になっていることが原因で発生します。
OpsMgr コネクタ\受信バイト数	ゲートウェイが受信したネットワークバイト数 (つまり、展開前の受信バイト数)。
OpsMgr コネクタ\送信バイト数	ゲートウェイによって送信されたネットワークバイト数 (つまり、圧縮後の送信バイト数)。
OpsMgr コネクタ\受信データバイト数	ゲートウェイが受信したデータバイト数 (つまり、展開後の受信データの量)。
OpsMgr コネクタ\送信データバイト数	ゲートウェイによって送信されたデータバイト数 (つまり、圧縮前の送信データの量)。
OpsMgr コネクタ\オープンコネクタ	ゲートウェイで開かれている接続の数。この数は、ゲートウェイに直接接続されているエージェントまたは管理サーバーの数と同じである必要があります。

管理サーバーの役割

全体的なパフォーマンスカウンター

これらのカウンターは、管理サーバーの全体的なパフォーマンスを示します。

パフォーマンスカウンター名
Processor(_Total)\% プロセッサ時間
Memory\% Committed Bytes In Use
Network Interface(*)\Bytes Total/sec
LogicalDisk(*)\% アイドル時間
LogicalDisk(*)\Avg. Disk Queue Length

Operations Manager プロセスの汎用パフォーマンスカウンター

これらのカウンターは、管理サーバー上の Operations Manager プロセスの全体的なパフォーマンスを示します。

パフォーマンスカウンター名	説明
Process(HealthService)\% プロセッサ時間
Process(HealthService)\Private Bytes	この管理サーバーが管理しているエージェントの数に応じて、この数値が変動する可能性があり、数百メガバイトになる場合があります。
プロセス(HealthService)\スレッド数
プロセス(HealthService)\仮想バイト
プロセス(HealthService)\作業セット
Process(MonitoringHost*)\% プロセッサ時間
Process(MonitoringHost*)\Private Bytes
プロセス(MonitoringHost*)\スレッド数
プロセス(MonitoringHost*)\仮想バイト
プロセス(MonitoringHost*)\作業セット

Operations Manager 固有のパフォーマンスカウンター

これらのカウンターは、Operations Manager 固有のカウンターであり、管理サーバー上の Operations Manager の特定の側面のパフォーマンスを示します。

パフォーマンスカウンター名	説明
Health Service\Workflow Count	この管理サーバーで実行されているワークフローの数。
ヘルスサービス管理グループ(*)\アクティブファイルアップロード	この管理サーバーによって処理しているファイル転送の数。これは、エージェントにアップロードされる管理パックファイルの数を表します。この値が長い間高いレベルにとどまっていて、特定の時点で管理パックのインポートがあまり行われていない場合、これらの状態によってファイル転送に影響する問題が発生するおそれがあります。
Health Service Management Groups(*)\Send Queue % Used	永続キューのサイズ。この値が長い間 10 を超えたままになっていて、そこから下がらない場合は、キューがバックアップされていることを示します。この状態の原因は、Operations Manager システム (ルート管理サーバーなど) がビジー状態であるかオフラインであるために Operations Manager システムが過負荷になっていることです。
ヘルスサービス管理グループ(*)\バインドデータソース項目削除率	データベースまたはデータウェアハウスのデータ収集書き込みアクションで管理サーバーによって削除されたデータ項目の数。このカウンター値が `0`されていない場合、管理サーバーまたはデータベースは、受信データ項目を十分に高速に処理できないか、データ項目バーストが発生しているためにオーバーロードされます。削除されたデータ項目は、エージェントによって再送信されます。過負荷またはバーストの状況が終了すると、これらのデータ項目がデータベースまたはデータウェアハウスに挿入されます。
ヘルスサービス管理グループ(*)\バインドデータソース項目受信率	データベースまたはデータウェアハウスのデータ収集書き込みアクションで管理サーバーによって受信されたデータ項目の数。
ヘルスサービス管理グループ(*)\バインドデータソース項目書き込み率	データ収集書き込みアクションで、管理サーバーによってデータベースまたはデータウェアハウスに書き込まれたデータ項目の数。
OpsMgr コネクタ\受信バイト数	管理サーバーによって受信されたネットワークバイト数 (つまり、圧縮解除前の受信バイトのサイズ)。
OpsMgr コネクタ\送信バイト数	管理サーバーによって送信されたネットワークバイト数 (つまり、圧縮後の送信バイトのサイズ)。
OpsMgr コネクタ\受信データバイト数	管理サーバーが受信したデータバイト数 (展開後の受信データのサイズ)。
OpsMgr コネクタ\送信データバイト数	管理サーバーによって送信されたデータバイト数 (つまり、圧縮前の送信データのサイズ)。
OpsMgr コネクタ\オープンコネクタ	管理サーバーで開かれている接続の数。これは、そこに直接接続されているエージェントまたはルート管理サーバーの数と同じでなければなりません。
OpsMgr データベース書き込みアクションモジュール(*)\平均バッチサイズ	データベース書き込みアクションモジュールによって受信されたデータ項目またはバッチの数。この数が 5,000 の場合、データ項目のバーストが発生しています。
OpsMgr DB 書き込みアクションモジュール(*)\平均処理時間	データベース書き込みアクションモジュールによってバッチがデータベースに挿入されるのにかかった秒数。この数が 60 を超える頻度が高い場合、データベース挿入のパフォーマンスの問題が発生しています。
OpsMgr DW ライターモジュール(*)\平均バッチ処理時間 (ミリ秒)	データウェアハウス書き込みアクションで、データウェアハウスにデータ項目のバッチを挿入するときのミリ秒数。
OpsMgr DW ライターモジュール(*)\平均バッチサイズ	データウェアハウス書き込みアクションモジュールによって受信されたデータ項目またはバッチの平均数。
OpsMgr DW ライターモジュール(*)\バッチ数/秒	1 秒あたりにデータウェアハウス書き込みアクションモジュールによって受信されたバッチの数。
OpsMgr DW ライターモジュール(*)\データ項目数/秒	1 秒あたりにデータウェアハウス書き込みアクションモジュールによって受信されたデータ項目の数。
OpsMgr DW ライターモジュール(*)\削除されたデータ項目の数	データウェアハウス書き込みアクションモジュールによって削除されたデータ項目の数。
OpsMgr DW ライターモジュール(*)\合計エラー数	データウェアハウス書き込みアクションモジュールで発生したエラーの数。

次の方法で共有

System Center Operations Manager でのグレーエージェントの状態のトラブルシューティング

灰色の状態の原因

問題のスコープ

トラブルシューティングの戦略

シナリオ 1

シナリオ 1 の解決策

シナリオ 2

シナリオ 2 の解決策

シナリオ 3

シナリオ 3 の解決策

シナリオ 4

シナリオ 4 の解決策

Management サーバーとゲートウェイのパフォーマンスのトラブルシューティング

管理サーバー

ゲートウェイ

SQL Server パフォーマンスに関する問題のトラブルシューティング

オペレーションデータベース (OperationsManager)

データウェアハウス (OperationsManagerDW)

一般的なトラブルシューティング

メモリ負荷を識別するカウンター

ディスク負荷を識別するカウンター

Operations Manager のパフォーマンスカウンター

ゲートウェイサーバーの役割

全体的なパフォーマンスカウンター

Operations Manager プロセスの汎用パフォーマンスカウンター

Operations Manager 固有のパフォーマンスカウンター

管理サーバーの役割

全体的なパフォーマンスカウンター

Operations Manager プロセスの汎用パフォーマンスカウンター

Operations Manager 固有のパフォーマンスカウンター

フィードバック

その他のリソース

次の方法で共有

System Center Operations Manager でのグレーエージェントの状態のトラブルシューティング

灰色の状態の原因

問題のスコープ

トラブルシューティングの戦略

シナリオ 1

シナリオ 1 の解決策

シナリオ 2

シナリオ 2 の解決策

シナリオ 3

シナリオ 3 の解決策

シナリオ 4

シナリオ 4 の解決策

Management サーバーとゲートウェイのパフォーマンスのトラブルシューティング

管理サーバー

ゲートウェイ

SQL Server パフォーマンスに関する問題のトラブルシューティング

オペレーション データベース (OperationsManager)

データ ウェアハウス (OperationsManagerDW)

一般的なトラブルシューティング

メモリ負荷を識別するカウンター

ディスク負荷を識別するカウンター

Operations Manager のパフォーマンス カウンター

ゲートウェイ サーバーの役割

全体的なパフォーマンス カウンター

Operations Manager プロセスの汎用パフォーマンス カウンター

Operations Manager 固有のパフォーマンス カウンター

管理サーバーの役割

全体的なパフォーマンス カウンター

Operations Manager プロセスの汎用パフォーマンス カウンター

Operations Manager 固有のパフォーマンス カウンター

フィードバック

その他のリソース

オペレーションデータベース (OperationsManager)

データウェアハウス (OperationsManagerDW)

Operations Manager のパフォーマンスカウンター

ゲートウェイサーバーの役割

全体的なパフォーマンスカウンター

Operations Manager プロセスの汎用パフォーマンスカウンター

Operations Manager 固有のパフォーマンスカウンター

全体的なパフォーマンスカウンター

Operations Manager プロセスの汎用パフォーマンスカウンター

Operations Manager 固有のパフォーマンスカウンター