很多vm运维管理 vCenter Appliance(VCSA)的时候很大机会都会遇到一个非常头疼的问题:
👉 /storage/log 磁盘突然飙满,告警不断,甚至导致 vCenter 服务异常或无法登录。
如果你看到下面这些现象,这篇文章基本就是你的对症解药。

一、常见故障现象(Problem Description)
生产环境里通常表现为:
典型告警
- VAMI / vCenter UI 提示:
/storage/log usage exceeds 80% - 邮件 / SNMP / 监控系统持续告警
功能异常
- vSphere Client 登录慢 / 超时
- SSO 登录失败
- 服务随机 crash
- backup 失败
- 升级失败
- VCSA 变得非常卡
SSH 查看磁盘
df -h
发现:
/storage/log 100%
二、快速定位占用目录(必做)
执行:
du -hSx /storage/log | sort -rh | head -30
你通常会看到这些目录异常大:
/var/log/vmware/sso/tomcat
/var/log/vmware/lookupsvc/tomcat
/var/log/vmware/lookupsvc
/var/log/vmware/eam/web
/var/log/vmware/vsphere-ui
进入后发现:
localhost_access*.log
catalina*.log
threadmonitor*.log
特点是:
❌ 不压缩
❌ 不轮转
❌ 数量巨大(几千到上万)
❌ 单个文件几百 MB ~ 数 GB
三、根因分析(Cause)
本质原因:Tomcat日志轮转失效
vCenter 内部很多组件(SSO / Lookup Service / vsphere-ui)都基于 Tomcat。
正常情况下应该:
- 每天 rotation
- 自动 gzip
- 保留一定天数
但在 vCenter 7.0.x 某些版本中:
👉 log rotation & compression 失效
导致:
日志无限追加写入 → 不压缩 → 不删除 → /storage/log 被撑爆
也就是典型:
日志泄洪型磁盘爆满(Log Disk Exhaustion)
四、官方修复版本(推荐)
官方已经在:
✅ 7.0 Update 3c
中修复此问题。
强烈建议
如果允许维护窗口:
👉 直接升级是最佳方案
具体可以参考官方KB:https://knowledge.broadcom.com/external/article?articleNumber=318209
五、临时解决方案(Workaround,生产可用)
如果暂时不能升级,可以使用下面方法。
⚠️ 重要:
修改前务必:
- 做 VCSA 备份 或
- 关机 Snapshot
如果是 ELM(Enhanced Linked Mode):
👉 所有节点必须一起备份/恢复
否则 LDAP 会不一致。
六、修复步骤详解(实操)
Step 1:替换 logging 配置文件
从官方KB最下面的 configs.zip 复制下来:
https://knowledge.broadcom.com/external/article?articleNumber=318209

| 文件 | 目标路径 |
|---|---|
| SSO_server.xml | /usr/lib/vmware-sso/vmware-sts/conf/server.xml |
| SSO_logging.properties | 同目录 |
| LOOKSVC_server.xml | /usr/lib/vmware-lookupsvc/conf/server.xml |
| LOOKSVC_logging.properties | 同目录 |
作用:
👉 重新启用 Tomcat rotation + compression
Step 2:重启服务
service-control --stop vmware-stsd && service-control --start vmware-stsd
service-control --stop lookupsvc && service-control --start lookupsvc
Step 3:添加自动压缩 cron
复制(同样来源上面KB最下面的zip文件tomcat_compress_fixed.zip):
tomcat_compress.cron
到:
/etc/cron.d
作用:
👉 定时压缩历史日志
七、手动清理日志(立即释放空间)
如果已经 100% 满:
可以安全手动删除。
清理 vsphere-ui
查看:
du /storage/log/vmware/vsphere-ui -ahx . | sort -rh | head -20
删除 1 周前 catalina
rm catalina-2023*
清空 threadmonitor
不能删除,只能清零:
echo > threadmonitor7.log
八、额外注意(另一个类似问题)
还有一个类似 bug:
目录:
/storage/log/vmware/eam/web/
出现大量:
localhost_access.*.log
这是另一已知问题。
已在:
👉 7.0 Update 3 修复
如果你更老版本:
也需要同时处理。
九、运维最佳实践建议(强烈推荐)
为了以后不再踩坑:
1. 定期检查
df -h
du -sh /storage/log/*
2. 设置阈值监控
建议:
- 70% 预警
- 80% 严重
- 90% 紧急
3. 保持版本更新
7.0.x 老版本:
👉 日志问题非常多
建议:
- 至少 U3c+
- 或升级 8.x
4. 定期清理历史日志
可自定义:
find /storage/log -name "*.log" -mtime +14 -delete






