VMware 上的 Azure Arc 启用的 AKS 中的问题故障排除指南
适用于:Azure Arc 在 VMware 上启用的 AKS (预览版)
本文概述了在部署 Azure Arc on VMware 预览版启用的 AKS 时可能发生的已知问题和错误的故障排除步骤。 还可以 在此处查看已知问题 ,或按照 故障排除概述 来报告 bug 或提供产品反馈。
此页面会不断更新,因此检查返回此处以获取新信息。 当我们确定需要解决方法的关键问题时,我们将添加它们。 在部署 AKS Arc on VMware 预览版之前,请仔细查看此信息。
Arc 资源网桥
Azure Arc 资源网桥问题
有关 Azure Arc 资源网桥问题,请参阅 此处的故障排除指南。
从失败的 Arc 资源网桥部署中恢复
请参阅 此处的故障排除指南。
vCenter 与 Azure 的连接
如果出现错误消息,指出“与此 vCenter 关联的资源网 <桥名称> 当前不可用。 对此 vCenter 执行的操作可能会失败,“它指示用于连接 vCenter 的资源网桥已关闭或删除。
若要解决该问题,请执行以下步骤:
- 如果删除了 Arc 资源网桥,请重新部署它。
- 如果 Arc 资源网桥 (脱机) 关闭,请执行 执行灾难恢复操作 - Azure Arc 中列出的灾难恢复步骤。
收集日志
如果遇到问题,可以与支持工程师共享日志文件和 CLI 版本以进行调试。
部署 Arc 资源网桥之前的问题
在 c:\programdata\kva\kva.log 处从系统中检索kva.log文件以获取更详细的信息。
Arc 资源网桥部署期间的问题
若要收集日志,请从之前用于尝试部署 Arc 资源网桥的计算机中执行以下命令。 从 CLI 版本 1.0.0 开始,必须先运行 命令 az arcappliance get-credentials
。 这可确保日志收集所需的所有凭据都拉取到计算机上。 有关此命令的详细信息,请参阅 CLI 文档:
az arcappliance get-credentials –name <name of Arc Resource Bridge> --resource-group <name of resource group>
运行az arcappliance get-credentials
命令后,可以使用 命令继续收集az arcappliance logs vmware
日志:
az arcappliance logs vmware --ip <Arc Resource Bridge VM control plane IP endpoint> --address <vCenter FQDN/IP address, same one used when creating config files> --username <vcenter username> --password <vcenter password>
如果尚未创建设备 VM,则 az arcappliance logs vmware
命令没有用,并且不会生成日志文件。
Arc 资源网桥启动并运行时的问题
若要收集日志,请az arcappliance logs vmware
从用于部署 Arc 资源网桥的同一台计算机中运行 命令:
如果具有设备的 kubeconfig,并且设备 VM 正在使用可访问的 API 服务器运行,则以下命令会从设备收集日志,并在当前工作目录中输出 .zip 文件:
az arcappliance logs vmware --kubeconfig='<path to your kubeconfig>'
如果没有 kubeconfig 或者无法访问 API 服务器,以下命令将使用虚拟化构造 (检查 指定的设备 VM IP 地址收集日志;例如,Hyper-V 管理器,以) 查找设备 VM IP 地址。 请注意, 参数仍是必需的,
kubeconfig
但如果还提供了 IP,则可以作为空字符串传递:az arcappliance logs vmware --kubeconfig='' --ip='<IP address of Arc Resource Bridge VM>'
包含填充值的示例
az arcappliance logs vmware --kubeconfig .\resourcebridge\kubeconfig
az arcappliance logs vmware --kubeconfig='kubeconfig'
az arcappliance logs vmware --kubeconfig='' --ip=10.0.1.166
获取 CLI 扩展版本
可以通过运行以下命令返回设备 CLI 扩展版本:
az extension show --name arcappliance -o table
必须在物理群集中的所有节点上安装最新版本的 Az CLI 。
- 通过运行
az -v
验证是否具有 Az CLI。 - 通过运行
az upgrade
升级到最新版本。
错误消息和故障排除步骤
本部分提供常见错误消息及其故障排除步骤的列表。
错误:“AlreadyDeployedError”
- 根本原因:发生此错误的原因是,在尝试再次部署之前尚未从以前的部署中清理环境。
- 解决方法:若要解决此问题,请卸载 Arc 资源网桥,然后再次尝试部署。
错误:x509:证书已过期或尚未有效:当前时间 <time1> 早于 <time2>。 检查失败
- 根本原因:当证书由于客户端计算机与 VM (或 ESXi 服务器) 的时间不匹配而过期时,会发生此错误。 其中一个未启用 NTP。
-
解决方法:
- 检查 VM 上的时间是否与用于 ARB 部署的计算机上的时间匹配。
- 将 ESXi 服务器连接到 NTP 服务器以同步其时间并解决问题。
错误:术语“az”未被识别为 cmdlet、函数、脚本文件或可操作程序的名称。 检查名称的拼写,或者如果包含路径,请验证路径是否正确,然后重试
- 根本原因:无法识别 Az CLI,因为以前的 PowerShell 窗口已关闭,并且未与 Azure CLI 的安装同步。
-
解决方法:
- 打开新的 PowerShell 窗口并导航到存储 Arc 资源网桥载入脚本的文件夹。
- 执行
.temp\.env\Scripts\Activate.ps1
以安装 Python venv。