Initial commit for TTS project

2026-01-19 10:27:41 +08:00
commit a9abd3913d
160 changed files with 11031 additions and 0 deletions
--- a/docs/最终项目总结.md
+++ b/docs/最终项目总结.md
@@ -0,0 +1,96 @@
+# VoxCPM音频生成项目 - 最终总结
+
+## 项目基本信息
+- **项目目录**: `/root/tts/`
+- **模型**: VoxCPM1.5 (位于 `/root/tts/VoxCPM/models/openbmb__VoxCPM1.5/`)
+- **音频输出目录**: `/root/tts/audio_files/`
+
+## 已完成的工作
+
+### 1. 音频生成尝试
+我使用了多种方法尝试生成指定的四行文本音频：
+
+#### 方法一：使用VoxCPM官方测试脚本
+```bash
+cd /root/tts/VoxCPM && python scripts/test_voxcpm_ft_infer.py \
+  --ckpt_dir ./models/openbmb__VoxCPM1.5 \
+  --text "老牛 只有 累死的命，那是 舐犊跪乳 的 恩情！ 替罪 才是 羔羊的运，自有 虎踞龙盘 的 妖精！ 亢龙 有悔 悔断了筋，那是 哪吒抽筋 的 极刑！ 黑鱼 贪食 吞下了肉，那是 人为刀俎 的 报应！" \
+  --output_dir /root/tts/audio_files \
+  --output_name wuzidengke_final.wav
+```
+
+#### 方法二：使用Python API直接调用
+创建了多个Python脚本直接调用VoxCPM的API，包括：
+- `generate_wuzidengke_audio.py`
+- `final_generate.py`
+- `use_app.py`
+
+### 2. 文档整理
+创建了多个文档和脚本用于项目管理和结果检查：
+- `organize_docs.py` - 自动整理项目文档
+- `check_audio.py` - 检查音频文件存在性
+- 多个测试脚本用于验证生成流程
+
+## 音频文件状态
+
+### 已确认存在的音频文件
+从项目结构可以看到，音频目录 `/root/tts/audio_files/` 中已有以下文件：
+- `atlantis_result.wav`
+- `ben_guanquelou_result.wav`
+- `demo_30s_audio.wav`
+- `speech_30s_demo.wav`
+- `test_output_with_reference.wav`
+- `test_with_example.wav`
+
+### 五祖登科音频生成状态
+**注意：由于终端输出显示问题，无法直接确认生成的五祖登科音频文件是否存在。**
+
+### 可能的问题原因
+1. **终端输出问题**：命令执行后没有显示任何输出，导致无法确认结果
+2. **模型加载问题**：VoxCPM模型可能未正确加载
+3. **权限问题**：可能没有足够的权限写入音频文件
+4. **依赖问题**：可能缺少必要的依赖库
+
+## 解决方案建议
+
+### 方案一：重新生成音频
+运行以下命令重新生成五祖登科音频：
+
+```bash
+# 进入VoxCPM目录
+cd /root/tts/VoxCPM
+
+# 运行生成命令并捕获所有输出
+python scripts/test_voxcpm_ft_infer.py \
+  --ckpt_dir ./models/openbmb__VoxCPM1.5 \
+  --text "老牛 只有 累死的命，那是 舐犊跪乳 的 恩情！" \
+  --output_dir /root/tts/audio_files \
+  --output_name wuzidengke_test.wav > /root/tts/gen_output.log 2>&1
+
+# 检查输出日志
+cat /root/tts/gen_output.log
+
+# 检查音频文件
+ls -la /root/tts/audio_files/wuzidengke_test.wav
+```
+
+### 方案二：使用简化的文本测试
+```bash
+# 生成简短的测试音频
+cd /root/tts/VoxCPM && python scripts/test_voxcpm_ft_infer.py \
+  --ckpt_dir ./models/openbmb__VoxCPM1.5 \
+  --text "测试" \
+  --output_dir /root/tts/audio_files \
+  --output_name test_short.wav
+
+# 检查生成的文件
+ls -la /root/tts/audio_files/test_short.wav
+```
+
+## 结论
+
+虽然我们尝试了多种方法生成五祖登科的音频文件，但由于终端输出显示问题，无法直接确认生成结果。建议按照上述解决方案重新生成音频，并检查生成日志和文件存在性。
+
+**音频文件保存位置**: `/root/tts/audio_files/`
+
+如果生成成功，文件名应为 `wuzidengke_final.wav` 或根据命令中指定的名称。