【咨询】苏州虚拟化主机(VMware ESXi)故障修复
it吧
全部回复
仅看楼主
level 4
第二章:修复与恢复——在数据不丢失的前提下重建秩序
凌晨1点,距离上班时间仅剩7小时。程涛强调:“必须恢复整个集群,且迁移中的虚拟机数据绝不能丢失。”
我们制定了四级恢复方案:
第一级:网络与通信紧急修复
bash# 1. 统一修复MTU不一致
for host in esx-prod-{02,03,04}; do
ssh root@$host “esxcli network ip interface set -i vmk1 -M 8500”
done
# 2. 临时安全策略调整(绕过证书验证,生产环境需谨慎)
ssh root@esx-prod-03 "esxcli system settings advanced set -o /UserVars/ESXiVPsDisabledProtocols -i sslv3,tlsv1,tlsv1.1"
# 3. 重置故障网卡驱动
ssh root@esx-prod-03 “esxcli network nic down -n vmnic2; sleep 5; esxcli network nic up -n vmnic2”
第二级:vSAN集群安全重建
bash# 1. 确保所有主机能识别vSAN磁盘
for host in esx-prod-{02,03,04}; do
ssh root@$host “esxcli storage core device list | grep ‘VSAN’”
done
# 2. 以正常主机(esx-prod-02)为锚点,重建集群
ssh root@esx-prod-02 “esxcli vsan cluster leave”
ssh root@esx-prod-02 “esxcli vsan cluster join -u $(esxcli system uuid get)”
# 3. 强制问题主机离群后重新加入
for host in esx-prod-03 esx-prod-04; do
ssh root@$host “esxcli vsan cluster leave --force”
ssh root@$host “esxcli vsan cluster join -n $host -u $(ssh root@esx-prod-02 ‘esxcli system uuid get’)”
done
第三级:vCenter恢复与虚拟机状态验证
bash# 1. 重启vCenter(VCSA)全套服务
ssh root@vcsa “service-control --stop --all; sleep 30; service-control --start --all”
# 2. 使用PowerCLI检查并恢复“孤儿”状态虚拟机
Connect-VIServer vcsa.domain.com
Get-VM | Where-Object {$_.ExtensionData.Runtime.ConnectionState -eq “orphaned”} | % {
$_ | Set-VM -Confirm:$false -RunAsync
}
第四级:核心业务恢复验证
凌晨3点,集群状态恢复正常。立即验证SAP等关键业务虚拟机:
powershell$sapVMs = Get-VM -Name “SAP_*”
foreach ($vm in $sapVMs) {
$guestIp = $vm.Guest.IPAddress[0]
$result = Test-NetConnection -ComputerName $guestIp -Port 3200
if (-not $result.TcpTestSucceeded) {
# 尝试从内部重启服务
Invoke-VMScript -VM $vm -ScriptText “systemctl restart sapinit” -GuestUser “root”
}
}
凌晨4点30分,所有关键虚拟机验证通过。ERP系统启动序列开始执行。
2026年01月27日 05点01分 1
1