查看 Azure Stack HCI 2405.1 版本中的已知问题

适用于:Azure Local 2311.2 及更高版本

本文介绍 Azure Stack HCI 2405.1 版本中的关键已知问题和解决方法。

发行说明会持续进行更新,并且会陆续将所发现的需要解决的重要问题添加到说明中。 在部署 Azure Stack HCI 之前,请仔细查看发行说明中包含的信息。

重要

有关此版本的受支持更新路径的信息,请参阅 发布信息

有关此版本中的新功能的详细信息,请参阅 23H2中的新增功能。

版本 2405.1 的问题

此软件发布与软件版本号 2405.1.4对应。

此版本的发行说明包括此版本中修复的问题、此版本中的已知问题以及从以前版本延续下来的发行说明问题。

修复了问题

下面是此版本中的已修复问题:

功能 问题 解决方法/注释
更新 修复了更新问题。 此问题导致更新在 Cluster-Aware 更新(CAU)步骤后失败,尽管在这种情况下,CAU 重新运行会修复此问题。
可观察性 在此版本中,修复了导致安装扩展后默认禁用主动日志收集的问题。
更新 修复了代理生命周期管理器(ALM)在机密轮换后无法重启服务的问题。
更新 在此版本中,修复了使用 PowerShell 命令 Start-SolutionUpdate 重试失败的解决方案更新时出现的错误。
更新 修复了导致解决方案生成器扩展更新无法下载的问题。
更新 修复了以下问题:在基于部署服务主体名称 (SPN) 设置进行 SPN 验证期间,更新会失败。
更新 修复了 Arc 资源桥(ARB)更新需要很长时间且更新失败的问题。
更新 修复了以下问题:在预更新或每日运行状况检查中,缺少解决方案生成器更新的运行状况检查。
添加服务器
修复服务器
Add-Server期间,集群存储网络不应期望与存储 VLAN ID 相同。
网络 AzStackHci_Network_Test_Infra_IP_Connection 需要遵循终结点定义的严重性。

此版本中的已知问题

Microsoft在此版本中不知道任何已知问题。

早期版本中的已知问题

下面是以前版本中的已知问题:

功能 问题 解决方法
更新 通过 Azure 更新管理器查看 Azure Stack HCI 群集的就绪情况检查结果时,可能有多个具有相同名称的就绪情况检查。 此版本中没有已知的解决方法。 选择查看详细信息,以查看有关准备情况检查的特定信息。
Arc VM 管理 在大规模部署场景中,例如大规模 AVD 主机池部署或大规模 VM 配置,您可能会遇到由 Hyper-V 套接字外部库问题引起的可靠性问题。 按照以下步骤缓解此问题:
1.运行命令 Get-service mochostagent (\) get-process (\) kill。 检查命令的输出,并验证句柄计数是否达到了数以千计。

2.运行命令 Get-service mochostagent (\) get-process 以终止进程。

3.运行命令 restart-service mochostagent 以重启 mochostagent 服务。
部署 通过 Azure 门户部署 Azure Stack HCI 版本 23H2 时,可能会遇到以下部署验证失败:

Could not complete the operation. 400: Resource creation validation failed. Details: [{"Code":"AnswerFileValidationFailed","Message":"Errors in Value Validation:\r\nPhysicalNodesValidator found error at deploymentdata.physicalnodes[0].ipv4address: The specified for \u0027deploymentdata.physicalnodes[0].ipv4address\u0027 is not a valid IPv4 address. Example: 192.168.0.1 or 192.168.0.1","Target":null,"Details":null}].

如果转到 Azure 门户部署中的“网络”选项卡,在 网络意向 配置中,可能会看到以下错误:所选物理网络适配器未绑定到管理虚拟交换机。
请按照 Azure 门户的部署验证失败问题排查过程进行操作。
部署 通过 Azure 门户的部署失败,并出现此错误:无法从密钥保管库提取机密 LocalAdminCredential。 此版本中没有此问题的解决方法。 如果出现问题,请联系Microsoft支持部门获取后续步骤。
部署 在某些情况下,在 Azure Stack HCI 服务器的注册过程中,可能会在调试日志中看到此错误:遇到内部服务器错误。 可能未安装用于设备部署的必需扩展之一。 按照以下步骤缓解此问题:

$Settings = @{ "CloudName" = $Cloud; "RegionName" = $Region; "DeviceType" = "AzureEdge" }

New-AzConnectedMachineExtension -Name "AzureEdgeTelemetryAndDiagnostics" -ResourceGroupName $ResourceGroup -MachineName $env:COMPUTERNAME -Location $Region -Publisher "Microsoft.AzureStack.Observability" -Settings $Settings -ExtensionType "TelemetryAndDiagnostics" -EnableAutomaticUpgrade

New-AzConnectedMachineExtension -Name "AzureEdgeDeviceManagement" -ResourceGroupName $ResourceGroup -MachineName $env:COMPUTERNAME -Location $Region -Publisher "Microsoft.Edge" -ExtensionType "DeviceManagementExtension"

New-AzConnectedMachineExtension -Name "AzureEdgeLifecycleManager" -ResourceGroupName $ResourceGroup -MachineName $env:COMPUTERNAME -Location $Region -Publisher "Microsoft.AzureStack.Orchestration" -ExtensionType "LcmController"

New-AzConnectedMachineExtension -Name "AzureEdgeRemoteSupport" -ResourceGroupName $ResourceGroup -MachineName $env:COMPUTERNAME -Location $Region -Publisher "Microsoft.AzureStack.Observability" -ExtensionType "EdgeRemoteSupport" -EnableAutomaticUpgrade
更新 此版本中存在一个间歇性问题,当 Azure 门户错误地将更新状态报告为更新失败正在进行中,尽管更新已完成。 通过远程 PowerShell 会话连接到 Azure Local。 若要确认更新状态,请运行以下 PowerShell cmdlet:

$Update = get-solutionupdate| ? version -eq "<version string>"

将版本字符串替换为正在运行的版本。 例如,“10.2405.0.23”。

$Update.state

如果更新状态是 已安装,则您无需执行进一步操作。 Azure 门户会在 24 小时内正确刷新状态。
若要更快地刷新状态,请在其中一个群集节点上执行以下步骤。
重启云管理群集组。
Stop-ClusterGroup "Cloud Management"
Start-ClusterGroup "Cloud Management"
更新 在初始 MOC 更新期间,由于未在目录缓存中找到目标 MOC 版本,导致失败。 后续更新和重试在目标版本中显示 MOC,而没有更新成功,因此 Arc 资源网桥更新失败。

若要验证此问题,请使用排查 Azure Stack HCI 版本 23H2 解决方案更新问题收集更新日志。 日志文件应显示类似的错误消息(当前版本在错误消息中可能有所不同):

[ERROR: { "errorCode": "InvalidEntityError", "errorResponse": "{\n\"message\": \"the cloud fabric (MOC) is currently at version v0.13.1. A minimum version of 0.15.0 is required for compatibility\"\n}" }]
按照以下步骤缓解此问题:

1.若要查找 MOC 代理版本,请运行以下命令:'C:\Program Files\AksHci\wssdcloudagent.exe' version

2. 使用命令的输出从下表中找到与代理版本匹配的 MOC 版本,并将 $initialMocVersion 设置为该 MOC 版本。 通过找到要更新到的 Azure Stack HCI 版本并从下表中获取匹配的 MOC 版本来设置 $targetMocVersion。 在下面提供的缓解脚本中使用这些值:

版本 MOC 版本 代理版本
2311.21.0.24.10106v0.13.0-6-gf13a73f7,v0.11.0-alpha.38,01/06/2024
24021.0.25.10203v0.14.0、v0.13.1、02/02/2024
2402.11.0.25.10302v0.14.0、v0.13.1、03/02/2024
2402.21.1.1.10314v0.16.0-1-g04bf0dec, v0.15.1, 03/14/2024
2405/2402.31.3.0.10418v0.17.1、v0.16.5、04/18/2024


例如,如果代理版本为 v0.13.0-6-gf13a73f7,v0.11.0-alpha.38,01/06/2024,则 $initialMocVersion = “1.0.24.10106”,如果更新到 2405.0.23,则 $targetMocVersion = “1.3.0.10418”

3.在第一个节点上运行以下 PowerShell 命令:

$initialMocVersion = "<initial version determined from step 2>"
$targetMocVersion = "<target version determined from step 2>"

# 导入 MOC 模块两次
import-module moc
import-module moc
$verbosePreference = "Continue"

# 清除 SFS 目录缓存
Remove-Item (Get-MocConfig).manifestCache

# 在更新之前将版本设置为当前 MOC 版本,并将状态设置为更新失败
Set-MocConfigValue -name "version" -value $initialMocVersion
Set-MocConfigValue -name "installState" -value ([InstallState]::UpdateFailed)

# 将 MOC 更新重新运行到所需版本
Update-Moc -version $targetMocVersion

4.恢复更新。
HCI 上的 AKS AKS 群集创建失败,出现 Error: Invalid AKS network resource id。 当关联的逻辑网络名称具有下划线时,可能会出现此问题。 逻辑网络名称不支持下划线。 请确保不要在 Azure Stack HCI 上部署的逻辑网络的名称中使用下划线。
修复服务器 在极少数情况下,Repair-Server 操作失败,并出现 HealthServiceWaitForDriveFW 错误。 在这些情况下,不会删除已修复节点中的旧驱动器,并且新磁盘停滞在维护模式下。 若要防止此问题,请确保在开始 Repair-Server之前,不要通过 Windows Admin Center 或使用 Suspend-ClusterNode -Drain PowerShell cmdlet 清空节点。
如果出现问题,请联系Microsoft支持部门获取后续步骤。
修复服务器 当单服务器 Azure Stack HCI 从 2311 更新到 2402,然后执行 Repair-Server 时,会出现此问题。 修复操作失败。 在修复单个节点之前,请执行以下步骤:
1. 运行版本 2402 的 ADPrepTool。 请按照 准备 Active Directory中的步骤进行操作。 此操作很快,并且会将所需的权限添加到组织单位 (OU)。
2. 将计算机对象从计算机段移动到根 OU。 运行以下命令:
Get-ADComputer <HOSTNAME> | Move-ADObject -TargetPath "<OU path>"
部署 如果您自行准备 Active Directory(不使用 Microsoft 提供的脚本和步骤),由于缺少 Generic All 权限,您的 Active Directory 验证可能会失败。 这是因为验证检查时出现问题,导致无法查找 msFVE-RecoverInformationobjects – General – Permissions Full control 的专用权限条目,而这是 BitLocker 恢复所必需的。 使用准备 AD 脚本方法,或者如果使用自己的方法,请确保分配特定权限 msFVE-RecoverInformationobjects – General – Permissions Full control
部署 在此版本中,有一个罕见的问题:Azure Stack HCI 部署过程中会删除 DNS 记录。 发生这种情况时,会出现以下异常:
Type 'PropagatePublicRootCertificate' of Role 'ASCA' raised an exception:<br>The operation on computer 'ASB88RQ22U09' failed: WinRM cannot process the request. The following error occurred while using Kerberos authentication: Cannot find the computer ASB88RQ22U09.local. Verify that the computer exists on the network and that the name provided is spelled correctly at PropagatePublicRootCertificate, C:\NugetStore\Microsoft.AzureStack, at Orchestration.Roles.CertificateAuthority.10.2402.0.14\content\Classes\ASCA\ASCA.psm1: line 38, at C:\CloudDeployment\ECEngine\InvokeInterfaceInternal.psm1: line 127,at Invoke-EceInterfaceInternal, C:\CloudDeployment\ECEngine\InvokeInterfaceInternal.psm1: line 123.
检查 DNS 服务器,查看群集节点的任何 DNS 记录是否缺失。 在缺少 DNS 记录的节点上应用以下缓解措施。

重启 DNS 客户端服务。 打开 PowerShell 会话并在受影响的节点上运行以下 cmdlet:
Taskkill /f /fi "SERVICES eq dnscache"
部署 在此版本中,多节点部署存在远程任务失败,导致以下异常:
ECE RemoteTask orchestration failure with ASRR1N42R01U31 (node pingable - True): A WebException occurred while sending a RestRequest. WebException.Status: ConnectFailure on [https://<URL>](https://<URL>).
缓解措施是在受影响的节点上重新启动 ECE 代理。 在服务器上,打开 PowerShell 会话并运行以下命令:
Restart-Service ECEAgent
添加服务器 在此版本和以前的版本中,将服务器添加到群集时,无法更新代理绕过列表字符串以包含新服务器。 更新主机上的环境变量代理旁路列表不会更新 Azure 资源桥或 AKS 上的代理绕过列表。 此版本中没有解决方法。 如果遇到此问题,请联系Microsoft支持部门确定后续步骤。
添加/修复服务器 在此版本中,添加或修复服务器时,从现有节点复制软件负载均衡器或网络控制器 VM 证书时,会出现故障。 失败的原因是部署/更新期间未生成这些证书。 此版本中没有解决方法。 如果遇到此问题,请联系Microsoft支持部门确定后续步骤。
部署 在此版本中,存在一个暂时性问题,导致部署失败,但以下情况除外:
Type 'SyncDiagnosticLevel' of Role 'ObservabilityConfig' raised an exception:*<br>*Syncing Diagnostic Level failed with error: The Diagnostic Level does not match. Portal was not set to Enhanced, instead is Basic.
由于这是暂时性问题,因此重试部署应解决此问题。 有关详细信息,请参阅如何重新运行部署
部署 在此版本中,机密 URI/位置字段存在问题。 这是一个必填字段,标记为非必填,会导致 Azure 资源管理器模板部署失败。 使用 中用于部署 Azure Stack HCI 23H2 版本的示例参数文件,通过 Azure 资源管理器模板,确保所有输入都以所需的格式提供,然后尝试进行部署。
如果部署失败,还必须在重新运行部署之前清理以下资源:
1. 删除 C:\EceStore
2. 删除 C:\CloudDeployment
3. 删除 C:\nugetstore
4. Remove-Item HKLM:\Software\Microsoft\LCMAzureStackStampInformation
安全性 对于新部署,具有安全核心功能的设备在默认情况下不会启用动态信任根 (DRTM)。 如果尝试使用 Enable-AzSSecurity cmdlet 启用 (DRTM),则会看到当前版本中不支持 DRTM 设置的错误。
Microsoft 建议进行深层防御,UEFI 安全启动仍然通过确保仅在签名和验证时加载静态信任根 (SRT) 引导链中的组件来保护这些组件。
此版本中不支持 DRTM。
网络连接 使用代理服务器时,环境检查会失败。 根据设计,winhttp 和 wininet 的绕过列表不同,这会导致验证检查失败。 遵循以下解决方法步骤:

1.在运行状况检查之前以及开始部署或更新之前,清除代理绕过列表。

2. 通过检查后,等待部署或更新失败。

3.再次设置代理绕过列表。
Arc VM 管理 当此操作期间自动生成的临时 SPN 机密以连字符开头时,Arc 资源桥的部署或更新可能会失败。 重试部署/更新。 重试应重新生成 SPN 机密,并且操作可能会成功。
Arc VM 管理 Arc VM 上的 Arc 扩展会无限期保持“创建”状态。 登录到 VM,打开命令提示符,然后键入以下内容:
Windows
notepad C:\ProgramData\AzureConnectedMachineAgent\Config\agentconfig.json
Linux
sudo vi /var/opt/azcmagent/agentconfig.json
接下来,找到 resourcename 属性。 删除附加到资源名称末尾的 GUID。这样,此属性与虚拟机的名称相匹配。 然后重启 VM。
Arc VM 管理 将新服务器添加到 Azure Stack HCI 群集时,不会为新创建的卷自动创建存储路径。 可以为任何新卷手动创建存储路径。 有关详细信息,请参阅 创建存储路径
Arc VM 管理 大约 20 分钟后,Arc VM 操作的重启完成,尽管 VM 本身大约在一分钟内重启。 此版本中没有已知的解决方法。
Arc VM 管理 在某些情况下,逻辑网络的状态在 Azure 门户中显示为“失败”。 当您在未先删除与该逻辑网络相关的资源(例如网络接口)时尝试删除逻辑网络时,就会发生这种情况。
你仍应该能够在此逻辑网络上创建资源。 此实例中的状态具有误导性。
如果在预配此网络时,此逻辑网络的状态为成功,则可以继续在此网络上创建资源。
Arc VM 管理 在此版本中,在使用 Azure CLI 附加的数据磁盘更新 VM 时,操作会失败并显示以下错误消息:
找不到名为的虚拟硬盘。
使用 Azure 门户执行所有 VM 更新操作。 有关详细信息,请参阅 管理 Arc VM管理 Arc VM 资源
更新 在极少数情况下,更新 Azure Stack HCI 时可能会遇到此错误:Type 'UpdateArbAndExtensions' of Role 'MocArb' raised an exception: Exception Upgrading ARB and Extension in step [UpgradeArbAndExtensions :Get-ArcHciConfig] UpgradeArb: Invalid applianceyaml = [C:\AksHci\hci-appliance.yaml] 如果看到此问题,请联系Microsoft支持部门,以帮助你完成后续步骤。
网络连接 此版本中存在偶发的 DNS 客户端问题,导致部署过程在两节点群集上失败,并出现 DNS 解析错误:发送 RestRequest 时发生 WebException。WebException.Status:NameResolutionFailure。 由于这个错误,第二个节点的 DNS 记录在创建后不久被删除,从而导致 DNS 错误。 重启服务器。 此操作会注册 DNS 记录,以防止其被删除。
Azure 门户 在某些情况下,Azure 门户可能需要一段时间才能更新,并且视图可能不是最新的。 可能需要等待 30 分钟或更多时间才能查看更新后的视图。
Arc VM 管理 从 Azure 门户删除 Arc VM 上的网络接口在此版本中不起作用。 使用 Azure CLI 先删除网络接口,然后将其删除。 有关详细信息,请参阅 删除网络接口,并参阅 删除网络接口
部署 在 Azure 门户中没有检测到以不正确的语法提供 OU 名称。 错误的语法包括不受支持的字符,如 &,",',<,>。 在群集验证过程中的后续步骤中检测到错误的语法。 确保 OU 路径语法正确且不包含不受支持的字符。
部署 通过 Azure 资源管理器进行的部署在 2 小时后超时。 尽管已成功创建群集,但超过 2 小时的部署在资源组中显示为失败。 若要在 Azure 门户中监视部署,请转到 Azure Stack HCI 群集资源,然后转到新的 部署 条目。
Azure Site Recovery 在此版本中,无法在 Azure Stack HCI 群集上安装 Azure Site Recovery。 此版本中没有已知的解决方法。
更新 通过 Azure 更新管理器更新 Azure Stack HCI 群集时,更新进度和结果在 Azure 门户中可能不可见。 若要解决此问题,请在每个群集节点上添加以下注册表项(无需值):

New-Item -Path "HKLM:\SYSTEM\CurrentControlSet\Services\HciCloudManagementSvc\Parameters" -force

然后在其中一个群集节点上重启云管理群集组。

Stop-ClusterGroup "Cloud Management"

Start-ClusterGroup "Cloud Management"

这不会完全修正问题,因为进度详细信息在更新过程期间可能仍未显示。 要获取最新的更新详细信息,您可以使用 PowerShell检索更新进度。
更新 在极少数情况下,如果失败的更新在 Azure 更新管理器中停留在正在进行状态,则会禁用 重试按钮。 若要恢复更新,请运行以下 PowerShell 命令:
Get-SolutionUpdate|Start-SolutionUpdate
更新 在某些情况下,如果 Send-DiagnosticData 命令后运行,SolutionUpdate 命令可能会失败。 请确保关闭用于 Send-DiagnosticData的 PowerShell 会话。 打开新的 PowerShell 会话并将其用于 SolutionUpdate 命令。
更新 在极少数情况下,当应用从 2311.0.24 到 2311.2.4 的更新时,群集状态显示正在进行,而不是预期的无法更新 重试更新。 如果问题仍然存在,请联系Microsoft支持部门。
更新 尝试安装解决方案更新可能会在 CAU 步骤结束时失败,原因如下:
There was a failure in a Common Information Model (CIM) operation, that is, an operation performed by software that Cluster-Aware Updating depends on.
如果节点重启后 Cluster NameCluster IP Address 资源无法启动,则会出现这种罕见的问题,这在小型群集中最为常见。
如果遇到此问题,请联系Microsoft支持部门获取后续步骤。 他们可以与你一起手动重启群集资源,并根据需要恢复更新。
更新 将群集更新应用到 10.2402.3.11 时,Get-SolutionUpdate cmdlet 可能无法响应,最终在大约 10 分钟后失败并出现 RequestTimeoutException。 在添加或修复服务器方案后,可能会发生这种情况。 使用 Start-ClusterGroupStop-ClusterGroup cmdlet 重启更新服务。

Get-ClusterGroup -Name "Azure Stack HCI Update Service Cluster Group" | Stop-ClusterGroup

Get-ClusterGroup -Name "Azure Stack HCI Update Service Cluster Group" | Start-ClusterGroup

成功运行这些 cmdlet 应该会让更新服务上线。
群集感知更新 恢复节点操作失败,无法恢复节点。 这是暂时性问题,可以自行解决。 等待几分钟,然后重试该操作。 如果问题仍然存在,请联系Microsoft支持部门。
群集感知更新 挂起节点操作被卡住超过 90 分钟。 这是暂时性问题,可以自行解决。 等待几分钟,然后重试该操作。 如果问题仍然存在,请联系Microsoft支持部门。

后续步骤