vSphere HA配置失败:Cannot complete HA agent on host

vSphere HA配置失败:Cannot complete HA agent on host

问题现象:启用HA失败,报错“Setting desired image spec for cluster failed”

在配置VMware vSphere High Availability HA高可用时,有机会遇到以下失败情况:

  • vSphere HA 无法完成主机代理配置
  • 报错信息包括:
    • Cannot complete the configuration of the vSphere HA agent on the host
    • Setting desired image spec for cluster failed
    • Applying HA VIBs on the cluster encountered a failure
    • “Cannot complete the configuration of the vSphere HA agent on the host. Setting desired image spec for cluster failed” error occurs when configuring vSphere HA on an image-based cluster.
  • vmware-updatemgr 日志中显示:Component vsphere-fdm cannot be found in depot
  • vCenter UI 验证集群镜像时报错 Image Validation Failed
  • 核心日志 /var/core/core.updatemgr-worker.* 中生成异常文件

受影响的主机通常存在 旧版本的 vsphere-fdm agent,vCenter 在启用 HA 时无法从 Update Manager 数据库(PM_DEPOT_COMPONENTS)获取所需组件,导致 HA 启用流程中断。


根本原因:vCenter更新后VCDB缓存缺失,fdm VIB冲突

问题的核心原因是:

  • vCenter 更新或升级后,Update Manager 的数据库 VCDB 中的 pm_software_desired_states 和 pm_software_compliances 表无法正确缓存 vsphere-fdm 组件
  • fdm VIB 被同时注册为独立组件和 solution-managed 组件,导致 HA 启用逻辑冲突
  • 如果集群级别进行镜像验证,会触发 ComponentNotFoundError
  • 核心问题并非 ESXi 主机故障,而是 vCenter Update Manager 数据库中记录不一致或缺失

可以通过命令 esxcli software vib list | grep -i fdm 确认主机端 vsphere-fdm 版本是否匹配 vCenter build。版本不一致会导致 HA 启用失败。


解决方法:清理VCDB冲突记录,重新生成集群镜像

参考下面的解决步骤:

  1. 快照保护:对vCenter VM做一个快照(尤其在多 vCenter 环境下,ELM 中需全量快照)
  2. SSH登录vCenter,启用shell并停止 Update Manager 服务:
    service-control –stop vmware-updatemgr
  3. 访问 Update Manager 数据库: su updatemgr -s /bin/bash
    psql -U vumuser -d VCDB
  4. 清理冲突记录
    • 全集群异常: DELETE FROM pm_software_compliances;
      DELETE FROM pm_software_desired_states;
    • 单集群异常,需指定 cluster domain ID: DELETE FROM pm_software_compliances where desired_state_id in (select desired_state_id from pm_software_desired_states where entity_id=’domain-c####’);
      DELETE FROM pm_software_desired_states where entity_id=’domain-c####’;
  5. 退出数据库,重启 Update Manager 服务: \q
    service-control –start vmware-updatemgr
  6. 重新生成集群镜像,参考 vSphere Lifecycle Manager UI
  7. NSX-T 环境:若缺少 NSX solution,需通过 CLI 重新注册: dcli com vmware esx settings clusters software solutions set-task –cluster <cluster-id> –solution com.vmware.nsxt –version <version-number> –components ‘[{“component”:”nsx-lcp-bundle”}]’
  8. 重新启用 vSphere HA,验证 HA 代理配置成功

清理 VCDB 缓存和冲突后,HA 启用成功率大幅提升,vCenter 日志不再报ComponentNotFoundError

具体参考官网KB https://knowledge.broadcom.com/external/article?articleNumber=384913

有VM问题需要协助?

免费试用VMware技术助理(已接Deepseek)!即时解答VM难题

→ 🤖VM技术助理

解析和诊断各类vCenter错误,ESXi日志,虚拟机vmware.log

→ 📕VMware日志分析器

图书推介 - 京东自营

24小时热门

还有更多VMware问题?

免费试下我们的VMware技术助理(已接Deepseek)!即时解答VM难题 → 🤖VM技术助理

试试 📕VMware日志分析器 免费诊断各类vCenter错误,ESXi日志,虚拟机vmware.log等等

########

扫码加入VM资源共享交流微信群(请备注加群

需要协助?或者只是想技术交流一下,直接联系我们!

推荐更多

NSX 覆盖网络上的虚拟机无法 ping DNS 服务器和解析名称
运维必备

NSX 覆盖网络上的虚拟机无法 ping DNS 服务器和解析名称

NSX 覆盖网络上的虚拟机无法 ping DNS 服务器和解析名称。NSX 覆盖网络上的虚拟机无法 ping DNS 服务器和解析名称?本文介绍根本原因和完整的解决方法。 本文针对该问题提供了深度剖析与实测解决方案。

vLCM 无法解压缩更新文件的解决方法
运维必备

vLCM 无法解压缩更新文件的解决方法

vLCM 无法解压缩更新文件的解决方法。vLCM 导入更新文件时在 20% 失败,提示无法解压缩包?本文介绍根本原因和完整的解决方法。 本文针对该问题提供了深度剖析与实测解决方案。

无法卸载 VMFS 数据存储,提示 Reason: Busy
运维必备

无法卸载 VMFS 数据存储,提示 Reason: Busy

无法卸载 VMFS 数据存储,提示 Reason: Busy。无法卸载 VMFS 数据存储并提示 Reason: Busy?本文介绍根本原因和完整的故障排查方法。 本文针对该问题提供了深度剖析与实测解决方案。

ESXi 主机在 \"activating: storage-path-claim\" 过程中挂起或延迟
运维必备

ESXi 主机在 \”activating: storage-path-claim\” 过程中挂起或延迟

ESXi 主机在 \”activating: storage-path-claim\” 过程中挂起或延迟。ESXi 主机在启动过程中遇到 \”activating: storage-path-claim\” 任务耗时过长的问题?本文介绍根本原因和完整的故障排查方法。 本文针对该问题提供了深度剖析与实测解决方案。

//omg10.com/4/9119499