解决使用已启用 Azure Arc 的 AKS 时的一般问题

本文介绍使用已启用 Azure Arc 的 AKS 时发生的一些常规已知问题。还可以查看 Windows Admin Center 的已知问题以及 安装问题和错误

运行 AksHci PowerShell cmdlet 时,将显示“无法加载 DLL”错误

防病毒软件可能会阻止执行群集操作所需的 PowerShell 二进制文件,从而导致此错误。 类似错误的示例如下所示:

部署:连接到远程服务器 localhost 失败。

若要解决此问题,请验证以下进程和文件夹(执行 AKS 群集操作所需的)已从防病毒软件中排除:

流程:

  • kubectl.exe
  • kvactl.exe
  • mocctl.exe
  • nodectl.exe
  • wssdagent.exe
  • wssdcloudagent.exe
  • kubectl-adsso.exe
  • AksHciHealth.exe

文件夹:

  • C:\Program Files\WindowsPowerShell\Modules\PowerShellGet\
  • C:\Program Files\WindowsPowerShell\Modules\TraceProvider\
  • C:\Program Files\WindowsPowerShell\Modules\AksHci\
  • C:\Program Files\WindowsPowerShell\Modules\Az.Accounts\
  • C:\Program Files\WindowsPowerShell\Modules\Az.Resources\
  • C:\Program Files\WindowsPowerShell\Modules\AzureAD\
  • C:\Program Files\WindowsPowerShell\Modules\DownloadSdk\
  • C:\Program Files\WindowsPowerShell\Modules\Kva\
  • C:\Program Files\WindowsPowerShell\Modules\Microsoft.SME.CredSspPolicy\
  • C:\Program Files\WindowsPowerShell\Modules\Moc\
  • C:\Program Files\WindowsPowerShell\Modules\PackageManagement\
  • C:\Program Files\AksHci\
  • C:\AksHci\

运行 Remove-AksHciCluster 会导致错误:“错误:无法删除组 clustergroup-spdb:...”

运行 Remove-AksHciCluster 时出现以下错误,原因是可能存在死锁:

Error: unable to delete group clustergroup-spdb: failed to delete group clustergroup-spdb: rpc error: code = DeadlineExceeded desc = context deadline exceeded

要解决此问题,请重启 CloudAgent。

错误:invalid_client。 提供的客户端密钥已过期

如果在使用 PowerShell cmdlet 运行 Enable-AksHciArcConnection 时所用的服务主体 (SPN) 密码过期,通常就会发生此错误。

访问Azure 门户为服务主体(SPN)创建新机密。 还可使用证书凭据来增加安全性。 有关使用 cmdlet 的示例,请参阅 Enable-AksHciArcConnection

权限不足,无法完成操作

当用于连接 AKS 群集的服务主体(SPN)或 Azure 凭据(用户名和密码)在 Azure 订阅中没有足够的权限来执行操作时,通常会发生此错误。

查看 Azure Arc 启用的 AKS 中 Kubernetes 群集的 Azure 要求中的特权要求。

运行 Remove-AksHciCluster 会导致错误:“找不到名为”my-workload-cluster“的工作负荷群集”

XXX

如果在运行 Remove-AksHciCluster 时遇到此错误,应检查确保已使用正确的信息来删除群集。

传输:拨号 unix /var/run/moc-kms-plugin/kmsPlugin.sock 时出错:连接:没有此类文件或目录

当 AKS-HCI 目标群集上的 KMS 插件因 KMS 插件令牌过期而停止运行时,会发生此错误。

运行 Repair-AksHciCerts 以解决此问题。

在具有静态 IP 地址的工作负荷群集中,节点中的所有 Pod 都停滞在“ContainerCreating”状态

在具有静态 IP 地址和 Windows 节点的工作负荷群集中,节点(包括 daemonset Pod)中的所有 Pod 都停滞在 ContainerCreating 状态。 尝试使用 SSH 连接到该节点时,连接失败并出现 Connection timed out 错误。

若要解决此问题,请使用 Hyper-V 管理器或故障转移群集管理器关闭该节点的 VM。 5 到 10 分钟后,节点应重新创建,并运行所有 Pod。

移动 AKS Arc 资源位置。

目前不支持在 AKS Arc 中移动资源。 必须删除 Kubernetes 群集,然后将其重新部署到所需的位置。

后续步骤

如果在 Azure Arc 启用 AKS 时继续遇到问题,可以通过 GitHub 提交 bug