VCSA起不来的故障现象:
- 无法登录vCenter, vSphere Client显示”503 Service Unavailable”“503 服务不可用”
- “Failed to connect to endpoint”
- “no healthy upstream”
- “Unable to login”
vCenter起不来的三大原因:
1. 各种原因导致VCSA的主要服务没起来,包括vmware-vpxd, vmware-vpostgres, vsphere-ui
2. 证书过期
3. VCSA目录空间不足(日志爆满了)
7个VCSA万能命令:
1.vpxd -v
先看VCSA版本,如果是很旧的版本如6.5,6.7或者GA 版本的话,有各种Bug导致vCenter服务起不来的。
2.df -h
看VCSA会不会有目录空间满了。只要有目录爆满,vpxd或者数据库服务vpostgres无法启动
3.service-control –status
看全部服务的状态。一般来说,这几个服务是不需要的:vmcam, vmware-imagebuilder, vmware-netdumper, vmware-rbd-watchdog, vmware-vcha。重点留意vpxd, vpxd-svcs,ui,vpostgres。
4. service-control –stop –all && service-control –start –all
尝试整台VCSA重启前,可以尝试只重启下所有服务。如果单独想启动某一个服务,用:service-control –start xxx
5. for i in $(/usr/lib/vmware-vmafd/bin/vecs-cli store list); do echo STORE $i; /usr/lib/vmware-vmafd/bin/vecs-cli entry list –store $i –text | egrep “Alias|Not After”; done
查证书状态,一定不能有过期的证书,这句命令来源官网https://kb.vmware.com/s/article/82332。
如果发现有过期的,也就是Not After后面的日期是比今天前的,更新证书。
VCSA有自带的证书管理工具去更新证书:
/usr/lib/vmware-vmca/bin/certificate-manager
6.vimtop
跟Linux的top和ESXi的esxtop一样用法,留意有什么进程占用不正常的CPU或内存,详细使用参考linux top的用法
7. cloudvm-ram-size -l
看每个服务的内存使用,简单看看有没不正常的