mgmt/observability/planning/MONITORING_ARCHITECTURE_PLA...

4.2 KiB
Raw Blame History

HCP 技术栈可观察性架构规划

📋 当前状态总结

已完成的工作

  1. ash2e 实例重建 - Ubuntu 24.04 LTSIPv6 支持
  2. HashiCorp 工具安装 - Consul, Nomad, Vault 原生客户端
  3. 现代化工具配置 - zsh + oh-my-zsh, tree, htop, neofetch
  4. Tailscale 网络 - 已加入网络hostname 正确
  5. SSH 配置 - ben 用户无密码登录
  6. Ansible 配置 - inventory 已更新

当前问题

  1. 监控架构混乱 - InfluxDB + Telegraf + Grafana 混合架构
  2. Nomad 驱动问题 - Podman 驱动未正确配置
  3. 服务部署失败 - 监控栈无法部署到 Nomad

🎯 目标架构

监控技术栈

┌─────────────────┬─────────────────┬─────────────────┐
│   数据收集层     │   数据存储层     │   可视化层       │
├─────────────────┼─────────────────┼─────────────────┤
│ node_exporter   │ Prometheus      │ Grafana         │
│ consul_exporter │ InfluxDB 2.x    │ (保留现有)      │
│ nomad_exporter  │ (保留现有)      │                 │
│ vault_exporter  │                 │                 │
└─────────────────┴─────────────────┴─────────────────┘

部署策略

  • 容器化部署 - 所有监控服务通过 Podman 容器化
  • Nomad 管理 - 使用 Nomad 作业管理所有监控服务
  • PVE 高可用 - 利用 Proxmox 的 HA 特性,避免软件层复杂化

📝 下一步行动计划

优先级 1: 修复 Nomad Podman 驱动

# 检查所有节点的 Podman 驱动配置
nomad node status -self
nomad node config -self

# 确保 Podman socket 正确配置
systemctl status podman.socket
ls -la /run/podman/podman.sock

优先级 2: 部署监控栈

# 部署 Grafana + Prometheus + Node Exporter
nomad job run monitoring-stack.nomad

# 验证服务状态
nomad job status monitoring-stack
nomad service list

优先级 3: 配置数据源集成

# Grafana 数据源配置
datasources:
  - Prometheus (主要)
  - InfluxDB (保留现有数据)

优先级 4: 扩展监控指标

# 监控目标
- Consul 集群健康
- Nomad 作业状态
- Vault 密钥轮换
- Traefik 路由指标
- 系统资源使用

🔧 技术细节

Nomad 作业配置

  • 驱动: podman (替代 exec)
  • 网络: Tailscale 网络集成
  • 存储: Host volumes 持久化
  • 服务发现: Consul 自动注册

监控指标

  • 系统指标: CPU, 内存, 磁盘, 网络
  • 服务指标: Consul, Nomad, Vault 健康状态
  • 业务指标: 应用性能, 错误率, 响应时间

告警规则

  • 系统告警: 资源使用率 > 80%
  • 服务告警: 服务健康检查失败
  • 业务告警: 关键指标异常

📊 预期成果

短期目标 (1-2 周)

  • 统一监控架构
  • 所有服务容器化
  • 基础监控仪表板

中期目标 (1 个月)

  • 完整监控覆盖
  • 告警规则配置
  • 性能优化

长期目标 (3 个月)

  • 自动化运维
  • 预测性监控
  • 成本优化

🚨 风险与挑战

技术风险

  • 数据迁移 - InfluxDB 现有数据保留
  • 服务中断 - 监控服务切换期间
  • 性能影响 - 监控服务资源消耗

解决方案

  • 渐进式迁移 - 逐步替换现有监控
  • 备份策略 - 关键数据备份
  • 资源监控 - 监控服务自身监控

📚 相关文档

配置文件

  • monitoring-stack.nomad - 监控栈 Nomad 作业
  • prometheus.yml - Prometheus 配置
  • grafana-datasources.yml - Grafana 数据源

参考资源


移交时间: 2025-10-10 02:40 UTC
当前状态: 监控栈部署遇到 Podman 驱动问题
下一步: 修复 Nomad Podman 驱动配置
负责人: Next Session