Initial commit for TTS project

2026-01-19 10:27:41 +08:00
commit a9abd3913d
160 changed files with 11031 additions and 0 deletions
--- a/README.md
+++ b/README.md
@@ -0,0 +1,166 @@
+# TTS 项目使用指南
+
+## 📁 项目结构
+
+```
+/root/tts/
+├── systems/                    # 各个TTS系统
+│   ├── F5-TTS/                 # F5-TTS系统
+│   ├── MOSS-TTSD/              # MOSS-TTSD系统
+│   ├── VoxCPM/                 # VoxCPM系统
+│   └── fish-speech/            # Fish Speech系统
+├── output/                     # 生成的音频文件
+│   ├── accents/                # 口音演示
+│   ├── emotions/               # 情感演示
+│   ├── podcast/                # 播客相关
+│   └── test/                   # 测试文件
+├── references/                 # 参考音频
+│   ├── voices/                 # 人声参考
+│   ├── accents/                # 口音参考
+│   └── emotions/               # 情感参考
+├── scripts/                    # 脚本文件
+│   ├── analysis/               # 分析脚本
+│   ├── generation/             # 生成脚本
+│   └── utils/                  # 工具脚本
+├── docs/                       # 文档
+│   ├── system_docs/            # 各系统文档
+│   └── project_docs/           # 项目文档
+├── podcast_audios/             # 播客音频文件
+├── audio/                      # 音频文件
+├── audio_files/                # 音频文件
+├── hosts/                      # 主持人音频文件
+├── material/                   # 材料文件
+├── papers/                     # 论文文件
+└── README.md                   # 本指南
+```
+
+## 🎯 系统概览
+
+### 1. VoxCPM
+**主要功能**：语音克隆、口音模仿、情感表达
+**最佳用途**：个性化语音生成、多口音支持
+**使用方法**：
+```bash
+# 基本使用示例
+python scripts/generation/generate_accent_demo_local.py
+```
+
+### 2. MOSS-TTSD
+**主要功能**：文本到语音、多语言支持
+**最佳用途**：直接文本转语音、多语言场景
+**使用方法**：
+```bash
+# 播客生成示例
+python scripts/generation/generate_moss_ttsd_podcast.py
+```
+
+### 3. F5-TTS
+**主要功能**：高质量语音合成、快速推理
+**最佳用途**：需要高质量语音的场景
+**使用方法**：
+```bash
+# F5-TTS 命令行
+cd systems/F5-TTS
+python src/f5_tts/infer/infer_cli.py
+```
+
+### 4. Fish Speech
+**主要功能**：轻量级语音合成、快速部署
+**最佳用途**：资源受限环境、快速原型
+**使用方法**：
+```bash
+# Fish Speech 命令行
+cd systems/fish-speech
+python simple_tts.py
+```
+
+## 📜 核心脚本使用说明
+
+### 分析脚本
+- **analyze_audio_quality.py**：分析音频质量指标
+  ```bash
+  python scripts/analysis/analyze_audio_quality.py path/to/audio.wav
+  ```
+
+- **analyze_accent_verification.py**：分析口音验证结果
+  ```bash
+  python scripts/analysis/analyze_accent_verification.py
+  ```
+
+### 生成脚本
+- **generate_multi_guest_podcast.py**：生成多嘉宾播客
+  ```bash
+  python scripts/generation/generate_multi_guest_podcast.py
+  ```
+
+- **generate_host_b.py**：生成主持人B的语音
+  ```bash
+  python scripts/generation/generate_host_b.py
+  ```
+
+### 口音演示生成
+- **generate_accent_demo_local.py**：使用本地模型生成口音演示
+  ```bash
+  python scripts/generation/generate_accent_demo_local.py
+  ```
+
+## 🔧 环境配置
+
+### 依赖安装
+```bash
+# 安装通用依赖
+pip install -r requirements.txt
+
+# 安装各系统特定依赖
+# VoxCPM
+cd systems/VoxCPM
+pip install -e .
+
+# MOSS-TTSD
+cd systems/MOSS-TTSD
+pip install -e .
+
+# F5-TTS
+cd systems/F5-TTS
+pip install -e .
+
+# Fish Speech
+cd systems/fish-speech
+pip install -e .
+```
+
+## 📚 文档参考
+
+- **系统文档**：各系统的详细使用说明
+- **项目文档**：项目整体规划和开发指南
+- **API文档**：各系统的API使用方法
+
+## 🎙️ 音频文件管理
+
+- **podcast_audios/**：播客成品音频
+- **audio/**：参考音频
+- **audio_files/**：生成结果音频
+- **hosts/**：主持人音频
+
+## 🔍 故障排除
+
+### 常见问题
+1. **模型加载失败**：检查模型路径和文件完整性
+2. **生成质量差**：调整生成参数，使用本地模型
+3. **口音不明显**：提供更清晰的口音参考音频
+4. **情感表达不准确**：使用情感特定的参考文本和音频
+
+### 解决方案
+- **使用本地模型**：`openbmb__VoxCPM1.5` 模型效果最佳
+- **调整参数**：CFG值=2.0-3.0，inference_timesteps=20-30
+- **禁用降噪**：`enable_denoiser=False` 获得更好质量
+- **提供优质参考**：清晰、有代表性的参考音频
+
+## 📞 支持
+
+如有任何问题，请参考各系统的官方文档或联系技术支持。
+
+---
+
+**最后更新时间**：2026-01-12
+**项目版本**：1.0.0