1.3 KiB
1.3 KiB
Nomad服务器重启备份计划
概述
此文档提供了在重启Nomad服务器以清理过期节点时的备份计划和恢复步骤。
重启前检查清单
- 确认当前集群状态
- 记录当前运行的作业和分配
- 确认所有重要服务都有适当的冗余
- 通知相关团队即将进行的维护
重启步骤
- 选择一个非领导者服务器首先重启
- 等待服务器完全恢复并重新加入集群
- 验证集群健康状态
- 继续重启其他服务器节点
- 最后重启领导者节点
领导者节点重启步骤
- 确保至少有3个服务器节点在线以维持仲裁
- 在领导者节点上执行:
systemctl restart nomad - 等待服务重新启动
- 验证节点是否已重新加入集群
- 检查过期节点是否已被清理
回滚计划
如果重启后出现任何问题:
- 检查Nomad日志:
journalctl -u nomad -f - 验证配置文件是否正确
- 如果必要,从备份恢复配置文件
- 联系团队成员协助解决问题
验证步骤
- 检查集群状态:
nomad node status - 验证所有重要作业仍在运行
- 确认新作业可以正常调度
- 检查监控系统是否有异常报警
联系人
- 主要联系人: [您的姓名]
- 备份联系人: [备份人员姓名]
- 紧急联系电话: [电话号码]