HPC ジョブがキャンセル モードで停止し、新しいジョブが開始されない
この記事では、実行中のジョブがキャンセル モードでスタックする問題の解決策を示します。また、AZURE SQL データベースが HPC PACK リモート データベースで使用されている場合、新しいジョブは実行状態に変わることはありません。
現象
実行中のジョブを取り消すと、ジョブが取り消しモードで停止し、ジョブを実行できるコンピューティング ノードがある間、送信された新しいジョブは引き続きキューに入ります。 ノードを再起動しても役に立ちません。
一方、サービスとしてのプラットフォーム (PaaS) データベースが 100% に達すると、HPC スケジューラ ログに次のエラー メッセージが表示されます。
スケジューラ サーバーがビジー状態です。 現在、クライアント要求を処理できません。 後で再度お試しください。
原因
この問題は、PaaS データベースがパフォーマンス制限に達しているため、ヘッド ノードが過剰に負荷がかかっているために発生します。
解決方法
この問題を解決するには、ワークロードに一致する Azure のスケジューラ データベースの上位 SKU にデータベース トランザクション ユニット (DTU) を増やします。 HPC スケジューラ データベースに必要な最小初期 DTU は 100 DTU です。
関連情報
詳細については、「 手順 1: リモート データベースを準備するを参照してください。
お問い合わせはこちらから
質問がある場合やヘルプが必要な場合は、サポート要求を作成するか、Azure コミュニティ サポートにお問い合わせください。 Azure フィードバック コミュニティに製品フィードバックを送信することもできます。