你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
排查 Azure Monitor SCOM 托管实例的问题
本文描述部署或使用 Azure Monitor SCOM 托管实例时可能出现的错误以及如何解决这些错误。
场景:SCOM 托管实例创建/部署
常规故障排除
- 确保符合所有先决条件。 由于先决条件不适当/不完整,可能会出现创建问题。
- 请确保仔细阅读/检查错误消息。 错误消息中说明了创建时发生的问题/错误。
- 检查错误消息中提供的“SCOM 安装日志”链接。 选择该链接以下载 System Center Operations Manager 安装日志。 分析日志以识别并解决错误/失败。
- 如果无法通过上述步骤识别问题,请登录到虚拟机规模集实例并检查 C:\WindowsAzure\Logs\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows<version> 下的日志,这有助于识别问题。
- 如果问题仍然存在,请提交支持工单并附送所有相关详细信息 [
correlation-id
、subscription-id
等]
问题:资源组 %ResourceGroupName%
由其他 Azure 资源管理
原因:为资源组设置 ManagedBy 属性时发生。
解决方法:提供另一个资源组,并将 ManagedBy 属性设为空。
问题:所选子网 %SubnetName%
专用于另一服务
原因:当子网具有委托时发生。
解决方法:提供一个未委托给任何其他服务的子网。
问题:当 SCOM 托管实例无法访问 SQL 托管实例 %instance%
时出错
原因:此错误可能由以下任一原因造成:
- 缺少从 SCOM 托管实例 VNet 到 SQL 托管实例终结点的视线可见性。
- 缺少正确级别的 NSG 规则来允许流量通过 SQL 托管实例公共终结点。
- MSI 未添加为 Active Directory 管理员。
- SCOM 托管实例可能没有 SQL 托管实例的读取权限。
- VNet/区域可能存在问题。
解决方法:
- 提供对 SQL 托管实例的读取权限。
- 必须将 MSI 添加为 SQL 托管实例上的 Active Directory 管理员。
- 确保在 SCOM 托管实例和 SQL 托管实例网络之间建立连接。 有关详细信息,请参阅创建和配置 SQL 托管实例。
问题:在给定区域中没有足够的核心来创建 %instance%
原因:当给定区域中没有足够的核心来创建实例时发生。
解决方法:检查 Azure 门户上的配额部分,并根据需要在该区域分配更多标准 Ds3v2 类型的核心。
问题:密钥保管库中已存在同名的机密密钥
原因:当密钥保管库中已存在另一个同名的机密密钥时发生。
解决方法:更改实例的名称。
问题:VM 在处理扩展 joindomain
以加入域 %DomainName%
时报告失败
原因:因以下原因而发生:
- 从 SCOM 托管实例服务器到域控制器的视线可见性。
- 未提供域用户凭据或凭据不正确。
- 未提供 AD 域的 OU 路径。
解决方法:检查原因并尝试解决问题。
问题:静态 IP 已被使用
原因:如果静态 IP 已被另一个实例使用,则会发生此问题。
解决方法:使用其他静态 IP。
问题:标识类型 %identityType%
无效
原因:由于托管标识不正确而发生。
解决方法:提供一种可能的标识类型((None)、(SystemAssigned,UserAssigned)),然后重试。
问题:专用静态 IP 地址 %LbIpAddr%
不属于子网 %subnet%
的范围
原因:因 IP 地址不在子网范围内而发生。
解决方法:提供子网范围内的可用 IP,然后重试操作。
问题:标识不是 SQL 托管实例“%instance”上的系统管理员。
原因:因以下原因而发生:
- 用户托管标识不是 SQL MI 上的 SQL 管理员。
- 用户托管标识确认为 SQL MI 上的 SQL 管理员,并且这是使用 ARM、BICEP、Terraform 或其他部署解决方案部署的。
解决方法:确保使用 AppId(而不是 ObjectId)部署用户托管标识。 可以通过导航到 SQL MI 的“Microsoft Entra ID 管理”窗格来确认这是否适用。 检查随用户托管标识列出的 GUID 是服务主体的 ObjectId 还是 AppId。 当这是 ObjectId 时:
- 使用门户对其进行设置
- 使用 AppId 以首选解决方案进行重新部署。
场景:在 Power BI 上部署报表
问题:无法访问 SQL 托管实例
原因:如果未启用公共终结点,则会发生此问题。 Power BI 无法访问 SQL 托管实例。
解决方法:检查 SQL 托管实例上的用户权限并提供所需的权限。
问题:无法刷新数据集凭据
原因:如果用户对 SQL 托管实例没有适当的权限,则会发生此问题。
解决方法:检查 SQL 托管实例上的用户权限并提供所需的权限。
问题:报表无法刷新
原因:因数据过大而发生。 报表可能不会刷新。
解决方法:如果 Power BI 工作区位于专业层,请将其更改为高级层或更改工作区的容量。
场景:手动纵向扩展/缩减
问题:Internet 连接测试失败。 无法从 VNet 访问所需的终结点
原因:网络问题。
解决方法:确保 SCOM 托管实例具有出站 Internet 访问权限,并且 NSG/防火墙已正确配置,以允许访问所需终结点,如防火墙要求中所述。
问题:超出配额
原因:如果没有核心用于缩放,则会发生此问题。
解决方法:增加订阅中的核心数量。
检查 Azure 门户上的配额部分,并根据需要在该区域分配更多标准 Ds3v2 类型的核心。
问题:扩展预配错误
原因:此错误可能在预配 System Center Operations Manager 扩展或安装 System Center Operations Manager 期间发生。
解决方法:查看常规故障排除,尝试找出问题所在,然后相应地解决问题。
问题:冲突
原因:修补或缩放正在进行时发生。 无法触发新操作。
解决方法:等待正在进行的过程完成,然后重试。
场景:修补
问题:Internet 连接测试失败。 无法从 VNet 访问所需的终结点
原因:网络问题。
解决方法:确保 SCOM 托管实例具有出站 Internet 访问权限,并且 NSG/防火墙已正确配置,以允许访问所需终结点,如防火墙要求中所述。
问题:即使更新操作已完成,通知仍停滞在“正在提取更新”状态
原因:网络问题/开发问题。
解决方法:尝试刷新以获取更新。 如果问题未解决,请联系 Microsoft 支持部门。
问题:更新状态未正确反映在卡片上
原因:网络问题/开发问题。
解决方法:尝试刷新以获取更新。 如果问题未解决,请联系 Microsoft 支持部门。
问题:卡片中控件不一致
原因:一致性问题。 例如,即使卡片的标题为“SCOM 是最新的”,更新按钮也会启用。
解决方法:尝试刷新。 如果问题未解决,请联系 Microsoft 支持部门。
问题:更新时弹出警告消息
原因:因以下任一原因而发生:
- 有新的更新可用,并且用户尚未触发更新实例;或
- 上次更新失败,且用户尚未触发另一个更新实例。
解决方法:触发更新实例。
问题:多次重试后更新失败
解决方法:若要解决此问题,请联系 Microsoft 支持部门。
问题:更新失败,回滚失败导致虚拟机规模集实例上的 VM 数量被修改,从而导致不一致状态
解决方法:转到 System Center Operations Manager 控制台并删除不一致的节点。
问题:更新失败但数据库更新成功
原因:数据库更新成功后,因更新失败而发生。
解决方法:过一段时间再试。
问题:成功更新后,System Center Operations Manager 控制台无法在实例上正常运行
原因:如果 System Center Operations Manager 未正确安装或某些进程可能停滞,则会发生此问题。
解决方法:尝试重启该实例。 如果问题持续出现,请联系 Microsoft 支持。
问题:更新耗时超过 3 小时并最终失败
原因:当更新时间超过 3 小时时发生。
解决方法:联系 Microsoft 支持部门。
问题:更新期间出现一些间歇性问题
原因:Service Fabric 或 RP 崩溃或者重启时发生。
解决方法:重启更新。
问题:缩放和修补同时触发,然后失败
原因:如果同时发送并接受缩放和修补请求,则会发生此问题。
解决方法:如果已触发缩放操作,请等待该操作完成后再尝试更新操作。
问题:扩展需要较长时间来更新并且失败
原因:如果 SQL 托管实例和 SCOM 托管实例位于不同的区域,则会发生此问题,这会导致扩展需要较长时间进行更新并最终失败。
解决方法:在同一区域中部署 SQL 托管实例和 SCOM 托管实例。
问题:修补后,数据库中的用户数据被更改或未正确保留
原因:如果不正确更新就会发生。
解决方法:重启更新。
问题:修补请求失败
原因:由于门户或 ARM 问题而发生。
解决方法:等待一段时间,然后重试。 如果修复门户/ARM 问题后问题仍然存在,请联系 Microsoft 支持部门。
问题:修补或缩放操作已在进行中,请稍后重试。
原因:修补或缩放操作已在进行中时发生。
解决方法:等待现有操作完成,然后过一段时间再试。
问题:控制台上显示过时的管理服务器
原因:如果修补或缩放操作完成后留下了不一致的状态,则会出现此问题。
解决方法:Microsoft Azure 虚拟机规模集用于为 SCOM 托管实例预配管理服务器。 若要从系统中删除过时的管理服务器,请执行以下步骤:
访问 Azure 虚拟机规模集,并登录 SCOM 托管实例的管理服务器之一。
在管理模式下启动 PowerShell 并导航到以下目录。
C:\Packages\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows\<version>\bin\troubleshooter
注意
若要查找版本,请转到
C:\Packages\Plugins\Microsoft.Azure.SCOMMIServer.ScomServerForWindows
并查看所有可用版本,然后选择最新的版本。执行以下脚本:
.\RemoveStaleManagementServers.ps1
该脚本是交互式的,提示你输入过时服务器的 FQDN。
提供要删除的过时管理服务器的准确 FQDN。
例如,FQDN:SCOMMI2000001.contoso.com。