4.2 KiB
4.2 KiB
HCP 技术栈可观察性架构规划
📋 当前状态总结
✅ 已完成的工作
- ash2e 实例重建 - Ubuntu 24.04 LTS,IPv6 支持
- HashiCorp 工具安装 - Consul, Nomad, Vault 原生客户端
- 现代化工具配置 - zsh + oh-my-zsh, tree, htop, neofetch
- Tailscale 网络 - 已加入网络,hostname 正确
- SSH 配置 - ben 用户无密码登录
- Ansible 配置 - inventory 已更新
❌ 当前问题
- 监控架构混乱 - InfluxDB + Telegraf + Grafana 混合架构
- Nomad 驱动问题 - Podman 驱动未正确配置
- 服务部署失败 - 监控栈无法部署到 Nomad
🎯 目标架构
监控技术栈
┌─────────────────┬─────────────────┬─────────────────┐
│ 数据收集层 │ 数据存储层 │ 可视化层 │
├─────────────────┼─────────────────┼─────────────────┤
│ node_exporter │ Prometheus │ Grafana │
│ consul_exporter │ InfluxDB 2.x │ (保留现有) │
│ nomad_exporter │ (保留现有) │ │
│ vault_exporter │ │ │
└─────────────────┴─────────────────┴─────────────────┘
部署策略
- 容器化部署 - 所有监控服务通过 Podman 容器化
- Nomad 管理 - 使用 Nomad 作业管理所有监控服务
- PVE 高可用 - 利用 Proxmox 的 HA 特性,避免软件层复杂化
📝 下一步行动计划
优先级 1: 修复 Nomad Podman 驱动
# 检查所有节点的 Podman 驱动配置
nomad node status -self
nomad node config -self
# 确保 Podman socket 正确配置
systemctl status podman.socket
ls -la /run/podman/podman.sock
优先级 2: 部署监控栈
# 部署 Grafana + Prometheus + Node Exporter
nomad job run monitoring-stack.nomad
# 验证服务状态
nomad job status monitoring-stack
nomad service list
优先级 3: 配置数据源集成
# Grafana 数据源配置
datasources:
- Prometheus (主要)
- InfluxDB (保留现有数据)
优先级 4: 扩展监控指标
# 监控目标
- Consul 集群健康
- Nomad 作业状态
- Vault 密钥轮换
- Traefik 路由指标
- 系统资源使用
🔧 技术细节
Nomad 作业配置
- 驱动:
podman(替代exec) - 网络: Tailscale 网络集成
- 存储: Host volumes 持久化
- 服务发现: Consul 自动注册
监控指标
- 系统指标: CPU, 内存, 磁盘, 网络
- 服务指标: Consul, Nomad, Vault 健康状态
- 业务指标: 应用性能, 错误率, 响应时间
告警规则
- 系统告警: 资源使用率 > 80%
- 服务告警: 服务健康检查失败
- 业务告警: 关键指标异常
📊 预期成果
短期目标 (1-2 周)
- ✅ 统一监控架构
- ✅ 所有服务容器化
- ✅ 基础监控仪表板
中期目标 (1 个月)
- ✅ 完整监控覆盖
- ✅ 告警规则配置
- ✅ 性能优化
长期目标 (3 个月)
- ✅ 自动化运维
- ✅ 预测性监控
- ✅ 成本优化
🚨 风险与挑战
技术风险
- 数据迁移 - InfluxDB 现有数据保留
- 服务中断 - 监控服务切换期间
- 性能影响 - 监控服务资源消耗
解决方案
- 渐进式迁移 - 逐步替换现有监控
- 备份策略 - 关键数据备份
- 资源监控 - 监控服务自身监控
📚 相关文档
配置文件
monitoring-stack.nomad- 监控栈 Nomad 作业prometheus.yml- Prometheus 配置grafana-datasources.yml- Grafana 数据源
参考资源
移交时间: 2025-10-10 02:40 UTC
当前状态: 监控栈部署遇到 Podman 驱动问题
下一步: 修复 Nomad Podman 驱动配置
负责人: Next Session