# Nomad 集群 Telegraf 监控部署移交文档 ## 📋 项目概述 **任务**: 为 Nomad 集群部署基于 Telegraf 的硬盘监控系统 **目标**: 监控集群所有节点的硬盘使用率、系统性能等指标 **监控栈**: Telegraf + InfluxDB 2.x + Grafana ## 🎯 当前完成状态 ### ✅ 已完成的工作 #### 1. 容器运行时迁移 - **ch3 节点**: ✅ 成功清理 Docker,安装 Podman 4.9.3 + Compose 1.0.6 - **ash2e 节点**: ✅ 完成 Docker 移除和 Podman 安装 #### 2. Telegraf 监控部署 - **成功运行节点**: ash3c, semaphore, master, hcp1, hcp2, hcs (共6个节点) - **监控数据**: 已开始向 InfluxDB 发送数据 - **配置模式**: 使用远程配置 URL #### 3. 监控配置 - **InfluxDB URL**: `http://influxdb1.tailnet-68f9.ts.net:8086` - **Token**: `VU_dOCVZzqEHb9jSFsDe0bJlEBaVbiG4LqfoczlnmcbfrbmklSt904HJPL4idYGvVi0c2eHkYDi2zCTni7Ay4w==` - **Organization**: `seekkey` - **Bucket**: `VPS` - **远程配置**: `http://influxdb1.tailnet-68f9.ts.net:8086/api/v2/telegrafs/0f8a73496790c000` ## 🔄 待完成的工作 ### 1. 剩余节点的 Telegraf 安装 **状态**: 部分节点仍需处理 **问题节点**: ch3, ch2, ash1d, syd **问题描述**: - 这些节点在下载 InfluxData 仓库密钥时失败 - 错误信息: `HTTPSConnection.__init__() got an unexpected keyword argument 'cert_file'` - 原因: Python urllib3 版本兼容性问题 **解决方案**: 已创建简化安装脚本 `/root/mgmt/configuration/fix-telegraf-simple.sh`,包含以下步骤: 1. 直接下载 Telegraf 1.36.1 二进制文件 2. 创建简化的启动脚本 3. 部署为 `telegraf-simple.service` ### 2. 集群角色配置 **当前配置**: ```ini [nomad_servers] semaphore, ash2e, ash1d, ch2, ch3 (5个server) [nomad_clients] master, ash3c (2个client) ``` **待处理**: - ash2e, ash1d, ch2 节点需要安装 Nomad 二进制文件 - 这些节点目前缺少 Nomad 安装 ## 📁 重要文件位置 ### 配置文件 - **Inventory**: `/root/mgmt/configuration/inventories/production/nomad-cluster.ini` - **全局配置**: `/root/mgmt/configuration/inventories/production/group_vars/all.yml` ### Playbooks - **Telegraf 部署**: `/root/mgmt/configuration/playbooks/setup-disk-monitoring.yml` - **Docker 移除**: `/root/mgmt/configuration/playbooks/remove-docker-install-podman.yml` - **Nomad 配置**: `/root/mgmt/configuration/playbooks/configure-nomad-tailscale.yml` ### 模板文件 - **Telegraf 主配置**: `/root/mgmt/configuration/templates/telegraf.conf.j2` - **硬盘监控**: `/root/mgmt/configuration/templates/disk-monitoring.conf.j2` - **系统监控**: `/root/mgmt/configuration/templates/system-monitoring.conf.j2` - **环境变量**: `/root/mgmt/configuration/templates/telegraf-env.j2` ### 修复脚本 - **简化安装**: `/root/mgmt/configuration/fix-telegraf-simple.sh` - **远程部署**: `/root/mgmt/configuration/deploy-telegraf-remote.sh` ## 🔧 技术细节 ### Telegraf 服务配置 ```ini [Unit] Description=Telegraf After=network.target [Service] Type=simple User=telegraf Group=telegraf ExecStart=/usr/bin/telegraf --config http://influxdb1.tailnet-68f9.ts.net:8086/api/v2/telegrafs/0f8a73496790c000 Restart=always RestartSec=5 EnvironmentFile=/etc/default/telegraf [Install] WantedBy=multi-user.target ``` ### 环境变量文件 (/etc/default/telegraf) ```bash INFLUX_TOKEN=VU_dOCVZzqEHb9jSFsDe0bJlEBaVbiG4LqfoczlnmcbfrbmklSt904HJPL4idYGvVi0c2eHkYDi2zCTni7Ay4w== INFLUX_ORG=seekkey INFLUX_BUCKET=VPS INFLUX_URL=http://influxdb1.tailnet-68f9.ts.net:8086 ``` ### 监控指标类型 - 硬盘使用率 (所有挂载点: /, /var, /tmp, /opt, /home) - 硬盘 I/O 性能 (读写速度、IOPS) - inode 使用率 - CPU 使用率 (总体 + 每核心) - 内存使用率 - 网络接口统计 - 系统负载和内核统计 - 服务状态 (Nomad, Podman, Tailscale, Docker) - 进程监控 - 日志文件大小监控 ## 🚀 下一步操作建议 ### 立即任务 1. **完成剩余节点 Telegraf 安装**: ```bash cd /root/mgmt/configuration ./fix-telegraf-simple.sh ``` 2. **验证监控数据**: ```bash # 检查所有节点 Telegraf 状态 ansible all -i inventories/production/nomad-cluster.ini -m shell -a "systemctl is-active telegraf" --limit '!mac-laptop,!win-laptop' ``` 3. **在 Grafana 中验证数据**: - 确认 InfluxDB 中有来自所有节点的数据 - 创建硬盘监控仪表板 ### 后续优化 1. **设置告警规则**: - 硬盘使用率 > 80% 警告 - 硬盘使用率 > 90% 严重告警 2. **优化监控配置**: - 根据实际需求调整收集间隔 - 添加更多自定义监控指标 3. **完成 Nomad 安装**: - 在 ash2e, ash1d, ch2 节点安装 Nomad 二进制文件 - 配置集群连接 ## ❗ 已知问题 1. **仓库密钥下载失败**: - 影响节点: ch3, ch2, ash1d, ash2e, ash3c, syd - 解决方案: 使用简化安装脚本 2. **包管理器锁定冲突**: - 多个节点同时执行 apt 操作导致锁定 - 解决方案: 使用 serial: 1 逐个处理 3. **telegraf 用户缺失**: - 部分节点需要手动创建 telegraf 系统用户 - 解决方案: `useradd --system --no-create-home --shell /bin/false telegraf` ## 📞 联系信息 **移交日期**: 2025-09-24 **当前状态**: Telegraf 已在 6/11 个节点成功运行 **关键成果**: 硬盘监控数据已开始流入 InfluxDB **优先级**: 完成剩余 5 个节点的 Telegraf 安装 --- **备注**: 所有脚本和配置文件都已经过测试,可以直接使用。建议按照上述步骤顺序执行,确保每个步骤完成后再进行下一步。