mgmt/nomad_restart_backup_plan.md

42 lines
1.3 KiB
Markdown

# Nomad服务器重启备份计划
## 概述
此文档提供了在重启Nomad服务器以清理过期节点时的备份计划和恢复步骤。
## 重启前检查清单
1. 确认当前集群状态
2. 记录当前运行的作业和分配
3. 确认所有重要服务都有适当的冗余
4. 通知相关团队即将进行的维护
## 重启步骤
1. 选择一个非领导者服务器首先重启
2. 等待服务器完全恢复并重新加入集群
3. 验证集群健康状态
4. 继续重启其他服务器节点
5. 最后重启领导者节点
## 领导者节点重启步骤
1. 确保至少有3个服务器节点在线以维持仲裁
2. 在领导者节点上执行: `systemctl restart nomad`
3. 等待服务重新启动
4. 验证节点是否已重新加入集群
5. 检查过期节点是否已被清理
## 回滚计划
如果重启后出现任何问题:
1. 检查Nomad日志: `journalctl -u nomad -f`
2. 验证配置文件是否正确
3. 如果必要,从备份恢复配置文件
4. 联系团队成员协助解决问题
## 验证步骤
1. 检查集群状态: `nomad node status`
2. 验证所有重要作业仍在运行
3. 确认新作业可以正常调度
4. 检查监控系统是否有异常报警
## 联系人
- 主要联系人: [您的姓名]
- 备份联系人: [备份人员姓名]
- 紧急联系电话: [电话号码]