REMOVE: 删除不再使用的 Terraform 配置文件

- 移除 nomad-terraform.tf 和 test_opentofu_consul.tf 文件 - 更新 Ansible inventory，注释掉不存在的节点 hcp2 - 修改 inventory.ini，确保节点配置的准确性 - 在 nomad-config 模块中添加 null_provider 以支持新配置 - 更新 influxdb1.hcl，添加 Grafana 和 Prometheus 数据卷配置
2025-10-10 13:53:41 +00:00
parent 45f93cc68c
commit eff8d3ec6d
50 changed files with 3683 additions and 239 deletions
--- a/observability/planning/MONITORING_ARCHITECTURE_PLAN.md
+++ b/observability/planning/MONITORING_ARCHITECTURE_PLAN.md
@@ -0,0 +1,142 @@
+# HCP 技术栈可观察性架构规划
+
+## 📋 当前状态总结
+
+### ✅ 已完成的工作
+1. **ash2e 实例重建** - Ubuntu 24.04 LTS，IPv6 支持
+2. **HashiCorp 工具安装** - Consul, Nomad, Vault 原生客户端
+3. **现代化工具配置** - zsh + oh-my-zsh, tree, htop, neofetch
+4. **Tailscale 网络** - 已加入网络，hostname 正确
+5. **SSH 配置** - ben 用户无密码登录
+6. **Ansible 配置** - inventory 已更新
+
+### ❌ 当前问题
+1. **监控架构混乱** - InfluxDB + Telegraf + Grafana 混合架构
+2. **Nomad 驱动问题** - Podman 驱动未正确配置
+3. **服务部署失败** - 监控栈无法部署到 Nomad
+
+## 🎯 目标架构
+
+### 监控技术栈
+```
+┌─────────────────┬─────────────────┬─────────────────┐
+│   数据收集层     │   数据存储层     │   可视化层       │
+├─────────────────┼─────────────────┼─────────────────┤
+│ node_exporter   │ Prometheus      │ Grafana         │
+│ consul_exporter │ InfluxDB 2.x    │ (保留现有)      │
+│ nomad_exporter  │ (保留现有)      │                 │
+│ vault_exporter  │                 │                 │
+└─────────────────┴─────────────────┴─────────────────┘
+```
+
+### 部署策略
+- **容器化部署** - 所有监控服务通过 Podman 容器化
+- **Nomad 管理** - 使用 Nomad 作业管理所有监控服务
+- **PVE 高可用** - 利用 Proxmox 的 HA 特性，避免软件层复杂化
+
+## 📝 下一步行动计划
+
+### 优先级 1: 修复 Nomad Podman 驱动
+```bash
+# 检查所有节点的 Podman 驱动配置
+nomad node status -self
+nomad node config -self
+
+# 确保 Podman socket 正确配置
+systemctl status podman.socket
+ls -la /run/podman/podman.sock
+```
+
+### 优先级 2: 部署监控栈
+```bash
+# 部署 Grafana + Prometheus + Node Exporter
+nomad job run monitoring-stack.nomad
+
+# 验证服务状态
+nomad job status monitoring-stack
+nomad service list
+```
+
+### 优先级 3: 配置数据源集成
+```yaml
+# Grafana 数据源配置
+datasources:
+  - Prometheus (主要)
+  - InfluxDB (保留现有数据)
+```
+
+### 优先级 4: 扩展监控指标
+```yaml
+# 监控目标
+- Consul 集群健康
+- Nomad 作业状态
+- Vault 密钥轮换
+- Traefik 路由指标
+- 系统资源使用
+```
+
+## 🔧 技术细节
+
+### Nomad 作业配置
+- **驱动**: `podman` (替代 `exec`)
+- **网络**: Tailscale 网络集成
+- **存储**: Host volumes 持久化
+- **服务发现**: Consul 自动注册
+
+### 监控指标
+- **系统指标**: CPU, 内存, 磁盘, 网络
+- **服务指标**: Consul, Nomad, Vault 健康状态
+- **业务指标**: 应用性能, 错误率, 响应时间
+
+### 告警规则
+- **系统告警**: 资源使用率 > 80%
+- **服务告警**: 服务健康检查失败
+- **业务告警**: 关键指标异常
+
+## 📊 预期成果
+
+### 短期目标 (1-2 周)
+- ✅ 统一监控架构
+- ✅ 所有服务容器化
+- ✅ 基础监控仪表板
+
+### 中期目标 (1 个月)
+- ✅ 完整监控覆盖
+- ✅ 告警规则配置
+- ✅ 性能优化
+
+### 长期目标 (3 个月)
+- ✅ 自动化运维
+- ✅ 预测性监控
+- ✅ 成本优化
+
+## 🚨 风险与挑战
+
+### 技术风险
+- **数据迁移** - InfluxDB 现有数据保留
+- **服务中断** - 监控服务切换期间
+- **性能影响** - 监控服务资源消耗
+
+### 解决方案
+- **渐进式迁移** - 逐步替换现有监控
+- **备份策略** - 关键数据备份
+- **资源监控** - 监控服务自身监控
+
+## 📚 相关文档
+
+### 配置文件
+- `monitoring-stack.nomad` - 监控栈 Nomad 作业
+- `prometheus.yml` - Prometheus 配置
+- `grafana-datasources.yml` - Grafana 数据源
+
+### 参考资源
+- [Prometheus 官方文档](https://prometheus.io/docs/)
+- [Grafana 官方文档](https://grafana.com/docs/)
+- [Nomad Podman 驱动](https://developer.hashicorp.com/nomad/docs/drivers/podman)
+
+---
+
+**移交时间**: 2025-10-10 02:40 UTC  
+**当前状态**: 监控栈部署遇到 Podman 驱动问题  
+**下一步**: 修复 Nomad Podman 驱动配置  
+**负责人**: Next Session
--- a/observability/planning/SESSION_HANDOVER.md
+++ b/observability/planning/SESSION_HANDOVER.md
@@ -0,0 +1,101 @@
+# 当前会话工作总结
+
+## 🎯 主要成就
+
+### ✅ ash2e 实例重建
+- **操作系统**: Ubuntu 24.04 LTS
+- **IPv6 支持**: 自动分配，与现有实例同子网
+- **SSH 配置**: ben 用户无密码登录
+- **现代化工具**: zsh + oh-my-zsh, tree, htop, neofetch
+- **HashiCorp 工具**: Consul, Nomad, Vault 原生客户端
+
+### ✅ 系统优化
+- **内核更新**: 从 6.14.0-1012 升级到 6.14.0-1013
+- **系统重启**: 应用内核更新，确保系统一致性
+- **Tailscale 网络**: 已加入网络，hostname 正确
+
+### ✅ 监控架构规划
+- **技术栈选择**: Prometheus + Grafana + Node Exporter
+- **部署策略**: 容器化 + Nomad 管理
+- **高可用方案**: 利用 PVE 硬件层 HA
+
+## ❌ 当前阻塞问题
+
+### Nomad Podman 驱动问题
+```bash
+# 错误信息
+Constraint "missing drivers": 6 nodes excluded by filter
+```
+
+**问题分析**:
+- Nomad 无法识别 Podman 驱动
+- 需要检查所有节点的 Podman 配置
+- 可能需要重新配置 Nomad 客户端
+
+## 📋 待完成任务
+
+### 优先级 1: 修复 Nomad 驱动
+- [ ] 检查所有节点的 Podman 驱动配置
+- [ ] 验证 Podman socket 状态
+- [ ] 重新配置 Nomad 客户端
+
+### 优先级 2: 部署监控栈
+- [ ] 部署 Grafana + Prometheus + Node Exporter
+- [ ] 配置数据源集成
+- [ ] 验证服务状态
+
+### 优先级 3: 监控扩展
+- [ ] 添加 Consul/Nomad/Vault 监控
+- [ ] 配置告警规则
+- [ ] 创建监控仪表板
+
+## 🔧 技术债务
+
+### 配置问题
+- **InfluxDB 架构**: 当前单点部署，需要容器化
+- **监控混乱**: Telegraf + InfluxDB + Grafana 混合架构
+- **驱动配置**: Nomad Podman 驱动未正确配置
+
+### 架构改进
+- **统一部署**: 所有服务通过 Nomad 管理
+- **容器化**: 使用 Podman 替代直接安装
+- **标准化**: 统一监控指标和告警
+
+## 📊 性能指标
+
+### 系统状态
+- **ash2e 实例**: ✅ 运行正常
+- **内存使用**: 370MB/956MB (38%)
+- **磁盘使用**: 8.9GB/20GB (48%)
+- **网络连接**: ✅ Tailscale 正常
+
+### 服务状态
+- **Consul**: ✅ 集群健康
+- **Nomad**: ✅ 节点就绪
+- **Vault**: ✅ 服务正常
+- **InfluxDB**: ✅ 运行稳定
+
+## 🚀 下一步建议
+
+### 立即行动
+1. **修复 Podman 驱动** - 检查所有节点配置
+2. **重新部署监控栈** - 使用修复后的配置
+3. **验证服务状态** - 确保所有服务正常运行
+
+### 中期规划
+1. **监控扩展** - 添加更多监控指标
+2. **告警配置** - 设置关键指标告警
+3. **仪表板优化** - 创建业务监控面板
+
+### 长期目标
+1. **自动化运维** - 基于监控的自动响应
+2. **性能优化** - 基于数据的系统优化
+3. **成本控制** - 资源使用优化
+
+---
+
+**会话结束时间**: 2025-10-10 02:40 UTC  
+**总工作时长**: 约 2 小时  
+**主要成果**: ash2e 实例重建 + 监控架构规划  
+**阻塞问题**: Nomad Podman 驱动配置  
+**移交状态**: 准备就绪，等待下一会话继续