ライブパフォーマンスの問題への対応に関する推奨事項

[アーティクル]
06/12/2024

この Power Platform Well-Architected Performance Efficiencyチェックリストの推奨事項に適用されます:

ライブパフォーマンスの問題に対応します。明確なコミュニケーションと責任を組み込むことで、パフォーマンスの問題に対処する方法を計画します。問題のある状況が発生した場合は、学習した内容を使用して予防策を特定し、それを作業負荷に組み込みます。同様の状況が発生した場合に、より早く通常の運用に戻るための方法を実装します。

このガイドでは、ライブパフォーマンスの問題に対応するためのベストプラクティスについて説明します。ライブパフォーマンスの問題とは、ワークロードの最適な機能を妨げる可能性のあるリアルタイムの課題とボトルネックを指します。これらの問題に迅速に対処することで、パフォーマンスの中断をすぐに検出して修正できるだけでなく、ワークロードがパフォーマンスベンチマークを一貫して満たすことも保証されます。これらに対処しないと、速度低下、クラッシュ、システムの応答停止などの複雑な問題が発生し、ユーザーエクスペリエンスが低下する可能性があります。また、ユーザーがタスクを効率的に完了できなくなり、組織の評判が損なわれる可能性もあります。

定義

任期	Definition
データの相関	ワークロードのさまざまな部分からのログ、メトリック、イベントを調整して、根本的な原因を特定します。
根本原因分析	問題の原因となる根本的な要因を特定するプロセス。
自己治癒	人間の介入なしに問題を自動的に修復する機能。
自己予防	潜在的な問題や障害を防ぐためのワークロード内の実装。

主要な設計戦略

ライブパフォーマンスの問題が発生した場合は、適切なデータと問題に対応するための計画を準備しておく必要があります。この計画には、明確なコミュニケーションと責任が含まれている必要があります。主な目的は、パフォーマンスの問題が一時的なものか孤立したものかを判断し、パフォーマンスの問題の根本原因を特定し、通常の運用に迅速に復帰できるようにし、インシデントから洞察を提供するソリューションを実装することです。予防措置をワークフローに統合することは、極めて重要な戦略です。目標は、同じ問題が再び発生するのを防ぐか、または回避できない場合はパフォーマンスへの影響を軽減することです。

問題に備える

ライブサイトのパフォーマンスの問題に対する理想的な応答は、正確かつ高速です。パフォーマンス修復の精度とスピードには準備が必要です。ライブパフォーマンスの問題に効果的に対応するには、主要なパフォーマンスメトリックを監視し、問題の根本原因を特定し、適切なソリューションや最適化を実装することが重要です。これらの手順を実行するには、ワークロードログを分析し、パフォーマンステストを実施し、コードまたは構成を最適化する必要がある場合があります。

次の例は、準備の重要な領域をいくつか概説しています。

正確なアーキテクチャ図を用意します。 アーキテクチャ図にはすべてのコンポーネントが含まれ、それらがどのように相互作用するかが示されている必要があります。視覚的な表現は、パフォーマンスの低下や使用不可につながるボトルネックや単一障害点を特定するのに役立ちます。理想的には、問題が発生する前にこれらの問題を検出して除去しますが、最新の図があると、ストレスの高い瞬間に問題を正確に特定するのに役立ちます。
データアクセスを確認します。 監視プロセスからのデータとログは、パフォーマンスの問題にリアルタイムで対応し、根本原因分析を実行するために重要です。しかし、データの完全性と機密性を維持することが重要です。ライブサイトのパフォーマンスの問題に対応するには、通常はアクセスできない基礎データにアクセスする必要があることがよくあります。問題が発生した場合に、担当者が必要なデータにアクセスできるようにする必要があります。ただし、時間制限のある最小限の権限のアクセスのみを許可し、そのアクセスを許可された担当者に制限する必要があります。
自動アラートを設定します。 アラートは、問題が発生したらすぐにそれを特定して対処するのに役立ちます。ワークロードのパフォーマンスがパフォーマンスベースラインから逸脱すると、アラートによって通知が生成されます。時間の経過とともに、通知が多すぎたり少なすぎたりしないようにアラート設定を微調整する必要があります。使用する監視ソリューションでは、アラートを生成するために十分なデータを収集する必要があります。これらのアラートは、パフォーマンス目標と確立されたベースラインと連動している必要があります。目標に関連しない問題についてはアラートを生成しないでください。アラートの例には、応答時間の低下、API呼び出しまたはプラグインのパフォーマンス、ページの読み込みなどがあります。 Dataverse

トリアージ計画を作成する

トリアージプランを作成するには、ライブサイトのパフォーマンスの問題を特定、エスカレーション、分析、優先順位付け、伝達するための構造化されたアプローチを考案する必要があります。トリアージプランは、ライブパフォーマンスの問題に対応するための戦略です。明確な役割と手順により、パフォーマンスの中断が迅速かつ効果的に対処されることが保証されます。ほとんどのパフォーマンスの問題は災害復旧プロトコルに値しませんが、トリアージ計画を必要とするほどワークロードの機能に影響を与える可能性があります。適切に文書化されたトリアージ計画により、すべてのチームメンバーが連携して迅速に行動できるようになり、ユーザーとワークロードへの影響を最小限に抑えることができます。トリアージ計画には次の要素を含める必要があります。

識別と監視: パフォーマンスの問題をリアルタイムで識別して監視するシステムを実装します。意思決定を行ったり、問題を上位レベルにエスカレーションしたりできる人の連絡先情報のリストを用意しておく必要があります。計画では役割と責任も特定する必要があります。どのアカウントが保護された情報にアクセスできるのか、またその期間はどのくらいなのかを文書化する必要があります。
エスカレーションプロセス: パフォーマンスの問題が適切なチームまたは個人にタイムリーにエスカレーションされるように、明確なエスカレーションプロセスを定義します。プロセス定義には、連絡先情報と問題をエスカレーションするためのガイドラインを含める必要があります。
根本原因分析: 各パフォーマンスの問題の根本的な原因を特定するために、根本原因分析を実行するプロセスを開発します。このプロセスには、ログとパフォーマンスメトリックの分析、および各問題の原因を特定するための診断テストの実施が含まれます。
優先順位: パフォーマンスの問題の重大度を判断し、ワークロードとユーザーへの影響に基づいて優先順位を付ける優先順位付けフレームワークを確立します。
コミュニケーション: パフォーマンスの問題の状況と解決の進捗状況を関係者に知らせるためのコミュニケーションプランを作成します。定期的な更新、ステータスレポート、明確なコミュニケーションチャネルを検討してください。
ドキュメント: すべての手順、プロセス、ベストプラクティスを含むトリアージプランを文書化します。このドキュメントは、パフォーマンスの問題への対応に関与するチームメンバーが簡単にアクセスできる必要があります。

問題を特定し解決する方法を開発する

ライブパフォーマンスの問題を解決するには、ライブワークロードでパフォーマンスの低下や非効率性を引き起こす可能性のある要因を特定して対処する必要があります。監視中に収集したデータは、パフォーマンス関連のインシデントの調査と解決に非常に役立ちます。このデータは、パフォーマンスメトリックの履歴記録を提供します。監視データが利用可能になると、根本原因を分析し、寄与要因を特定できます。各パフォーマンスの問題を理解して修正するには、関連するすべての監視データを使用する必要があります。検出している一時的なスパイクの数を監視し、それに応じて位置を合わせるしきい値を設定します。

根本原因分析を使用する

根本原因分析には仮説検定が必要です。監視データを確認した後、パフォーマンスの問題の潜在的な原因をリストし、テストする必要があります。

ライブパフォーマンスの問題の根本原因分析を実行するには、次の手順に従います。

情報を収集します。 パフォーマンスの問題についてできるだけ多くの情報を収集します。例としては、エラーメッセージ、ログ、パフォーマンスメトリック、その他の関連データなどがあります。また、デバイス、ネットワーク、場所など、問題を報告したユーザーに関する情報も含めてください。
問題を定義します。 問題の症状と、問題がワークロードまたはユーザーに与える影響を特定して、問題を明確に定義します。
潜在的な原因を調査します。 パフォーマンスの問題が発生しているワークロードの特定のコンポーネントまたは領域を特定して、分析の範囲を絞り込みます。収集された情報に基づいて、パフォーマンスの問題の潜在的な原因を特定します。このプロセスには、コード、構成設定、インフラストラクチャ、または外部依存関係の分析が含まれる場合があります。
データを相関させます。 収集されたデータをさらに詳しく調べて、パフォーマンスの問題に寄与している可能性のあるパターン、異常、または相関関係を特定します。データの相関関係は、パフォーマンスの問題と原因を特定する上で重要です。これには、ログの確認、パフォーマンスメトリックの分析、テストの実施などが含まれます。
仮説をテストします。 特定した潜在的な原因に基づいて仮説を立てます。仮説を検証または反証するためのテストを実施します。エラーを再現できるかどうかを確認するには、テスト環境を使用する必要があります。
ソリューションを実装します。 根本原因を特定したら、パフォーマンスの問題に対処するためのソリューションを開発して実装します。
監視および検証します。 ソリューションを実装した後は、ワークロードを継続的に監視して、パフォーマンスの問題が解決されていることを確認します。パフォーマンスメトリックとユーザーフィードバックを監視して、ソリューションの有効性を検証します。

トレードオフ: 考えられる原因の特定、仮説のテスト、分析の文書化などの根本原因分析の手順には、時間がかかる場合があります。パフォーマンスの問題を相関させるには、データを収集して保存する必要もあります。必要な時間とインフラストラクチャにより、運用チームの作業量が大幅に増加し、作業負荷にコストがかかる可能性があります。

リスク: 適切なセキュリティガードレールなしで根本原因分析を実行すると、ログやデータへのアクセスを提供する際に機密情報が漏洩するリスクがあります。

エンゲージ Microsoft サポート

進行中のパフォーマンスの問題に対処するには、 Microsoft サポートにお問い合わせください。 Microsoft サポート担当者は、問題を解決するための専門知識、ツール、リソース、経験を備えているだけでなく、ワークロードに影響を及ぼす可能性のある現在のグローバルなパフォーマンスの問題や停止についても認識している場合があります。サポート契約によって、提供されるサポートのレベルが決まります。

多くの場合、サポートと並行して作業するのが最善です。 Microsoft たとえば、一部のチームメンバーがサポートと連携し、他のメンバーがパフォーマンスの問題のトリアージと修正を継続するという戦略を検討します。 Microsoft

サポートの連絡先情報をチームが利用できるようにすることが重要です。 Microsoft サポートでは、問題解決に効果的に取り組むためにデータへのアクセスが必要になる場合もあることに留意してください。

詳細については、「ヘルプとサポートの取得 Power Platform」を参照してください。

調査結果から学ぶ

ライブサイトのパフォーマンスの問題を修正した後、何が起こったかを確認する必要があります。目標は、問題を特定するだけでなく、パフォーマンスの問題から学ぶことです。学習する最良の方法はドキュメントを読むことです。それぞれの問題を文書化し、その解決方法を説明します。ベンダーが協力してくれた場合は、ベンダーと協力してドキュメントを強化し、チームをトレーニングし、それに応じてワークロードを変更します。

ドキュメントには、それぞれの問題が再発しないようにする方法を示す必要があります。ドキュメントに加えて、パフォーマンスの問題の指標に早期に対応するのに役立つ洗練されたアラートを作成できます。

Power Platform の促進

Power Platform Azureでは、ライブパフォーマンスの問題に対応するために役立つツールがいくつか提供されています。

Azure Monitor は、アプリケーションとインフラストラクチャのパフォーマンスと正常性に関する分析情報を提供する包括的な監視ソリューションです。 Azure Monitorは、パフォーマンスの問題を監視および診断するのに役立つメトリック、ログ、アラート、ダッシュボードなどの機能を提供します。 Power Platform アプリと自動化は、 Application Insights 機能を使用してAzure Monitorと統合できます。標準テレメトリとカスタムトレースイベントをログに記録して分析できます。
Application Insights は、開発者やDevOpsプロフェッショナルがライブアプリケーションを監視するのに役立つアプリケーションパフォーマンス管理 (APM) サービスです。パフォーマンスの異常を自動的に検出し、アプリケーションレベルのログとイベントを収集し、問題を診断するための分析ツールを提供します。 Power Platform Application Insightsと統合します。
Log Analytics は、アプリケーション、仮想マシン、Azureリソースなどのさまざまなソースからログデータを収集して分析するサービスです。 Log Analyticsを使用すると、ログデータをクエリして分析し、アプリケーションのパフォーマンスと動作に関する分析情報を得ることができます。ワークロードでAzureリソースを使用する場合は、Log Analyticsの使用を検討してください。
ソリューションチェッカーは、ベストプラクティスルールのセットに照らしてソリューションの豊富な静的分析を実行し、問題のあるパターンを特定します。ライブサイトのパフォーマンスの問題を回避するために、ソリューションを本番環境に展開する前にパフォーマンス関連の問題に対処してください。

パフォーマンス効率チェックリスト

完全なレコメンデーションのセットを参照してください。

パフォーマンス効率チェックリスト

次の方法で共有

ライブパフォーマンスの問題への対応に関する推奨事項

主要な設計戦略

問題に備える

トリアージ計画を作成する

問題を特定し解決する方法を開発する

根本原因分析を使用する

エンゲージ Microsoft サポート

調査結果から学ぶ

Power Platform の促進

パフォーマンス効率チェックリスト

フィードバック

その他のリソース