mgmt/observability/planning/MONITORING_ARCHITECTURE_PLA...

143 lines
4.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# HCP 技术栈可观察性架构规划
## 📋 当前状态总结
### ✅ 已完成的工作
1. **ash2e 实例重建** - Ubuntu 24.04 LTSIPv6 支持
2. **HashiCorp 工具安装** - Consul, Nomad, Vault 原生客户端
3. **现代化工具配置** - zsh + oh-my-zsh, tree, htop, neofetch
4. **Tailscale 网络** - 已加入网络hostname 正确
5. **SSH 配置** - ben 用户无密码登录
6. **Ansible 配置** - inventory 已更新
### ❌ 当前问题
1. **监控架构混乱** - InfluxDB + Telegraf + Grafana 混合架构
2. **Nomad 驱动问题** - Podman 驱动未正确配置
3. **服务部署失败** - 监控栈无法部署到 Nomad
## 🎯 目标架构
### 监控技术栈
```
┌─────────────────┬─────────────────┬─────────────────┐
│ 数据收集层 │ 数据存储层 │ 可视化层 │
├─────────────────┼─────────────────┼─────────────────┤
│ node_exporter │ Prometheus │ Grafana │
│ consul_exporter │ InfluxDB 2.x │ (保留现有) │
│ nomad_exporter │ (保留现有) │ │
│ vault_exporter │ │ │
└─────────────────┴─────────────────┴─────────────────┘
```
### 部署策略
- **容器化部署** - 所有监控服务通过 Podman 容器化
- **Nomad 管理** - 使用 Nomad 作业管理所有监控服务
- **PVE 高可用** - 利用 Proxmox 的 HA 特性,避免软件层复杂化
## 📝 下一步行动计划
### 优先级 1: 修复 Nomad Podman 驱动
```bash
# 检查所有节点的 Podman 驱动配置
nomad node status -self
nomad node config -self
# 确保 Podman socket 正确配置
systemctl status podman.socket
ls -la /run/podman/podman.sock
```
### 优先级 2: 部署监控栈
```bash
# 部署 Grafana + Prometheus + Node Exporter
nomad job run monitoring-stack.nomad
# 验证服务状态
nomad job status monitoring-stack
nomad service list
```
### 优先级 3: 配置数据源集成
```yaml
# Grafana 数据源配置
datasources:
- Prometheus (主要)
- InfluxDB (保留现有数据)
```
### 优先级 4: 扩展监控指标
```yaml
# 监控目标
- Consul 集群健康
- Nomad 作业状态
- Vault 密钥轮换
- Traefik 路由指标
- 系统资源使用
```
## 🔧 技术细节
### Nomad 作业配置
- **驱动**: `podman` (替代 `exec`)
- **网络**: Tailscale 网络集成
- **存储**: Host volumes 持久化
- **服务发现**: Consul 自动注册
### 监控指标
- **系统指标**: CPU, 内存, 磁盘, 网络
- **服务指标**: Consul, Nomad, Vault 健康状态
- **业务指标**: 应用性能, 错误率, 响应时间
### 告警规则
- **系统告警**: 资源使用率 > 80%
- **服务告警**: 服务健康检查失败
- **业务告警**: 关键指标异常
## 📊 预期成果
### 短期目标 (1-2 周)
- ✅ 统一监控架构
- ✅ 所有服务容器化
- ✅ 基础监控仪表板
### 中期目标 (1 个月)
- ✅ 完整监控覆盖
- ✅ 告警规则配置
- ✅ 性能优化
### 长期目标 (3 个月)
- ✅ 自动化运维
- ✅ 预测性监控
- ✅ 成本优化
## 🚨 风险与挑战
### 技术风险
- **数据迁移** - InfluxDB 现有数据保留
- **服务中断** - 监控服务切换期间
- **性能影响** - 监控服务资源消耗
### 解决方案
- **渐进式迁移** - 逐步替换现有监控
- **备份策略** - 关键数据备份
- **资源监控** - 监控服务自身监控
## 📚 相关文档
### 配置文件
- `monitoring-stack.nomad` - 监控栈 Nomad 作业
- `prometheus.yml` - Prometheus 配置
- `grafana-datasources.yml` - Grafana 数据源
### 参考资源
- [Prometheus 官方文档](https://prometheus.io/docs/)
- [Grafana 官方文档](https://grafana.com/docs/)
- [Nomad Podman 驱动](https://developer.hashicorp.com/nomad/docs/drivers/podman)
---
**移交时间**: 2025-10-10 02:40 UTC
**当前状态**: 监控栈部署遇到 Podman 驱动问题
**下一步**: 修复 Nomad Podman 驱动配置
**负责人**: Next Session