HPC 作业停滞在取消模式下,新作业未启动
本文提供了一个解决方案,用于解决在取消模式下运行作业的问题,当 Azure SQL 数据库用于 HPC PACK 远程数据库时,新作业无法变成运行状态。
现象
取消正在运行的作业时,它们停滞在取消模式中,提交的新作业仍在队列中,而有计算节点可用于运行作业。 重启节点无济于事。
同时,平台即服务(PaaS)数据库达到 100%,在 HPC 计划程序日志中看到以下错误消息:
计划程序服务器正忙。 它现在无法处理客户端请求。 请稍后重试。”
原因
出现此问题是因为头节点因 PaaS 数据库达到其性能限制而过于紧张。
解决方法
若要解决此问题,请将数据库事务单元(DTU)增加到与工作负荷匹配的 Azure 中计划程序数据库的更高 SKU。 HPC 计划程序数据库所需的最小初始 DTU 为 100 DTU。
参考
有关详细信息,请参阅 步骤 1:准备远程数据库。
联系我们寻求帮助
如果你有任何疑问或需要帮助,请创建支持请求或联系 Azure 社区支持。 你还可以将产品反馈提交到 Azure 反馈社区。