你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

排查 Azure Monitor SCOM 托管实例的问题

本文描述部署或使用 Azure Monitor SCOM 托管实例时可能出现的错误以及如何解决这些错误。

场景:SCOM 托管实例创建/部署

常规故障排除

  1. 确保符合所有先决条件。 由于先决条件不适当/不完整,可能会出现创建问题。
  2. 请确保仔细阅读/检查错误消息。 错误消息中说明了创建时发生的问题/错误。
  3. 检查错误消息中提供的“SCOM 安装日志”链接。 选择该链接以下载 System Center Operations Manager 安装日志。 分析日志以识别并解决错误/失败。
  4. 如果无法通过上述步骤识别问题,请登录到虚拟机规模集实例并检查 C:\WindowsAzure\Logs\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows<version> 下的日志,这有助于识别问题
  5. 如果问题仍然存在,请提交支持工单并附送所有相关详细信息 [correlation-idsubscription-id 等]

问题:资源组 %ResourceGroupName% 由其他 Azure 资源管理

原因:为资源组设置 ManagedBy 属性时发生

解决方法:提供另一个资源组,并将 ManagedBy 属性设为空

问题:所选子网 %SubnetName% 专用于另一服务

原因:当子网具有委托时发生

解决方法:提供一个未委托给任何其他服务的子网

问题:当 SCOM 托管实例无法访问 SQL 托管实例 %instance% 时出错

原因:此错误可能由以下任一原因造成

  • 缺少从 SCOM 托管实例 VNet 到 SQL 托管实例终结点的视线可见性。
  • 缺少正确级别的 NSG 规则来允许流量通过 SQL 托管实例公共终结点。
  • MSI 未添加为 Active Directory 管理员。
  • SCOM 托管实例可能没有 SQL 托管实例的读取权限。
  • VNet/区域可能存在问题。

解决方法:

  • 提供对 SQL 托管实例的读取权限。
  • 必须将 MSI 添加为 SQL 托管实例上的 Active Directory 管理员。
  • 确保在 SCOM 托管实例和 SQL 托管实例网络之间建立连接。 有关详细信息,请参阅创建和配置 SQL 托管实例

问题:在给定区域中没有足够的核心来创建 %instance%

原因:当给定区域中没有足够的核心来创建实例时发生

解决方法:检查 Azure 门户上的配额部分,并根据需要在该区域分配更多标准 Ds3v2 类型的核心

问题:密钥保管库中已存在同名的机密密钥

原因:当密钥保管库中已存在另一个同名的机密密钥时发生

解决方法:更改实例的名称

问题:VM 在处理扩展 joindomain 以加入域 %DomainName% 时报告失败

原因:因以下原因而发生

  1. 从 SCOM 托管实例服务器到域控制器的视线可见性。
  2. 未提供域用户凭据或凭据不正确。
  3. 未提供 AD 域的 OU 路径。

解决方法:检查原因并尝试解决问题

问题:静态 IP 已被使用

原因:如果静态 IP 已被另一个实例使用,则会发生此问题

解决方法:使用其他静态 IP

问题:标识类型 %identityType% 无效

原因:由于托管标识不正确而发生

解决方法:提供一种可能的标识类型((None)、(SystemAssigned,UserAssigned)),然后重试

问题:专用静态 IP 地址 %LbIpAddr% 不属于子网 %subnet% 的范围

原因:因 IP 地址不在子网范围内而发生

解决方法:提供子网范围内的可用 IP,然后重试操作

问题:标识不是 SQL 托管实例“%instance”上的系统管理员。

原因:因以下原因而发生

  1. 用户托管标识不是 SQL MI 上的 SQL 管理员。
  2. 用户托管标识确认为 SQL MI 上的 SQL 管理员,并且这是使用 ARM、BICEP、Terraform 或其他部署解决方案部署的。

解决方法:确保使用 AppId(而不是 ObjectId)部署用户托管标识。 可以通过导航到 SQL MI 的“Microsoft Entra ID 管理”窗格来确认这是否适用。 检查随用户托管标识列出的 GUID 是服务主体的 ObjectId 还是 AppId。 当这是 ObjectId 时:

  • 使用门户对其进行设置
  • 使用 AppId 以首选解决方案进行重新部署。

场景:在 Power BI 上部署报表

问题:无法访问 SQL 托管实例

原因:如果未启用公共终结点,则会发生此问题。 Power BI 无法访问 SQL 托管实例。

解决方法:检查 SQL 托管实例上的用户权限并提供所需的权限

问题:无法刷新数据集凭据

原因:如果用户对 SQL 托管实例没有适当的权限,则会发生此问题

解决方法:检查 SQL 托管实例上的用户权限并提供所需的权限

问题:报表无法刷新

原因:因数据过大而发生。 报表可能不会刷新。

解决方法:如果 Power BI 工作区位于专业层,请将其更改为高级层或更改工作区的容量

场景:手动纵向扩展/缩减

问题:Internet 连接测试失败。 无法从 VNet 访问所需的终结点

原因:网络问题

解决方法:确保 SCOM 托管实例具有出站 Internet 访问权限,并且 NSG/防火墙已正确配置,以允许访问所需终结点,如防火墙要求中所述

问题:超出配额

原因:如果没有核心用于缩放,则会发生此问题

解决方法:增加订阅中的核心数量

检查 Azure 门户上的配额部分,并根据需要在该区域分配更多标准 Ds3v2 类型的核心。

问题:扩展预配错误

原因:此错误可能在预配 System Center Operations Manager 扩展或安装 System Center Operations Manager 期间发生

解决方法:查看常规故障排除,尝试找出问题所在,然后相应地解决问题。

问题:冲突

原因:修补或缩放正在进行时发生。 无法触发新操作。

解决方法:等待正在进行的过程完成,然后重试

场景:修补

问题:Internet 连接测试失败。 无法从 VNet 访问所需的终结点

原因:网络问题

解决方法:确保 SCOM 托管实例具有出站 Internet 访问权限,并且 NSG/防火墙已正确配置,以允许访问所需终结点,如防火墙要求中所述

问题:即使更新操作已完成,通知仍停滞在“正在提取更新”状态

原因:网络问题/开发问题

解决方法:尝试刷新以获取更新。 如果问题未解决,请联系 Microsoft 支持部门。

问题:更新状态未正确反映在卡片上

原因:网络问题/开发问题

解决方法:尝试刷新以获取更新。 如果问题未解决,请联系 Microsoft 支持部门。

问题:卡片中控件不一致

原因:一致性问题。 例如,即使卡片的标题为“SCOM 是最新的”,更新按钮也会启用

解决方法:尝试刷新。 如果问题未解决,请联系 Microsoft 支持部门。

问题:更新时弹出警告消息

原因:因以下任一原因而发生

  1. 有新的更新可用,并且用户尚未触发更新实例;或
  2. 上次更新失败,且用户尚未触发另一个更新实例。

解决方法:触发更新实例

问题:多次重试后更新失败

解决方法:若要解决此问题,请联系 Microsoft 支持部门

问题:更新失败,回滚失败导致虚拟机规模集实例上的 VM 数量被修改,从而导致不一致状态

解决方法:转到 System Center Operations Manager 控制台并删除不一致的节点

问题:更新失败但数据库更新成功

原因:数据库更新成功后,因更新失败而发生

解决方法:过一段时间再试

问题:成功更新后,System Center Operations Manager 控制台无法在实例上正常运行

原因:如果 System Center Operations Manager 未正确安装或某些进程可能停滞,则会发生此问题

解决方法:尝试重启该实例。 如果问题持续出现,请联系 Microsoft 支持。

问题:更新耗时超过 3 小时并最终失败

原因:当更新时间超过 3 小时时发生

解决方法:联系 Microsoft 支持部门

问题:更新期间出现一些间歇性问题

原因:Service Fabric 或 RP 崩溃或者重启时发生

解决方法:重启更新

问题:缩放和修补同时触发,然后失败

原因:如果同时发送并接受缩放和修补请求,则会发生此问题

解决方法:如果已触发缩放操作,请等待该操作完成后再尝试更新操作

问题:扩展需要较长时间来更新并且失败

原因:如果 SQL 托管实例和 SCOM 托管实例位于不同的区域,则会发生此问题,这会导致扩展需要较长时间进行更新并最终失败

解决方法:在同一区域中部署 SQL 托管实例和 SCOM 托管实例

问题:修补后,数据库中的用户数据被更改或未正确保留

原因:如果不正确更新就会发生

解决方法:重启更新

问题:修补请求失败

原因:由于门户或 ARM 问题而发生

解决方法:等待一段时间,然后重试。 如果修复门户/ARM 问题后问题仍然存在,请联系 Microsoft 支持部门。

问题:修补或缩放操作已在进行中,请稍后重试。

原因:修补或缩放操作已在进行中时发生

解决方法:等待现有操作完成,然后过一段时间再试

问题:控制台上显示过时的管理服务器

原因:如果修补或缩放操作完成后留下了不一致的状态,则会出现此问题

解决方法:Microsoft Azure 虚拟机规模集用于为 SCOM 托管实例预配管理服务器。 若要从系统中删除过时的管理服务器,请执行以下步骤:

  1. 访问 Azure 虚拟机规模集,并登录 SCOM 托管实例的管理服务器之一。

  2. 在管理模式下启动 PowerShell 并导航到以下目录。

    C:\Packages\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows\<version>\bin\troubleshooter

    注意

    若要查找版本,请转到 C:\Packages\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows 并查看所有可用版本,然后选择最新的版本。

  3. 执行以下脚本:

    .\RemoveStaleManagementServers.ps1 
    

    该脚本是交互式的,提示你输入过时服务器的 FQDN。

  4. 提供要删除的过时管理服务器的准确 FQDN。

    例如,FQDN:SCOMMI2000001.contoso.com。