# TTS 项目使用指南 ## 📁 项目结构 ``` /root/tts/ ├── systems/ # 各个TTS系统 │ ├── F5-TTS/ # F5-TTS系统 │ ├── MOSS-TTSD/ # MOSS-TTSD系统 │ ├── VoxCPM/ # VoxCPM系统 │ └── fish-speech/ # Fish Speech系统 ├── output/ # 生成的音频文件 │ ├── accents/ # 口音演示 │ ├── emotions/ # 情感演示 │ ├── podcast/ # 播客相关 │ └── test/ # 测试文件 ├── references/ # 参考音频 │ ├── voices/ # 人声参考 │ ├── accents/ # 口音参考 │ └── emotions/ # 情感参考 ├── scripts/ # 脚本文件 │ ├── analysis/ # 分析脚本 │ ├── generation/ # 生成脚本 │ └── utils/ # 工具脚本 ├── docs/ # 文档 │ ├── system_docs/ # 各系统文档 │ └── project_docs/ # 项目文档 ├── podcast_audios/ # 播客音频文件 ├── audio/ # 音频文件 ├── audio_files/ # 音频文件 ├── hosts/ # 主持人音频文件 ├── material/ # 材料文件 ├── papers/ # 论文文件 └── README.md # 本指南 ``` ## 🎯 系统概览 ### 1. VoxCPM **主要功能**:语音克隆、口音模仿、情感表达 **最佳用途**:个性化语音生成、多口音支持 **使用方法**: ```bash # 基本使用示例 python scripts/generation/generate_accent_demo_local.py ``` ### 2. MOSS-TTSD **主要功能**:文本到语音、多语言支持 **最佳用途**:直接文本转语音、多语言场景 **使用方法**: ```bash # 播客生成示例 python scripts/generation/generate_moss_ttsd_podcast.py ``` ### 3. F5-TTS **主要功能**:高质量语音合成、快速推理 **最佳用途**:需要高质量语音的场景 **使用方法**: ```bash # F5-TTS 命令行 cd systems/F5-TTS python src/f5_tts/infer/infer_cli.py ``` ### 4. Fish Speech **主要功能**:轻量级语音合成、快速部署 **最佳用途**:资源受限环境、快速原型 **使用方法**: ```bash # Fish Speech 命令行 cd systems/fish-speech python simple_tts.py ``` ## 📜 核心脚本使用说明 ### 分析脚本 - **analyze_audio_quality.py**:分析音频质量指标 ```bash python scripts/analysis/analyze_audio_quality.py path/to/audio.wav ``` - **analyze_accent_verification.py**:分析口音验证结果 ```bash python scripts/analysis/analyze_accent_verification.py ``` ### 生成脚本 - **generate_multi_guest_podcast.py**:生成多嘉宾播客 ```bash python scripts/generation/generate_multi_guest_podcast.py ``` - **generate_host_b.py**:生成主持人B的语音 ```bash python scripts/generation/generate_host_b.py ``` ### 口音演示生成 - **generate_accent_demo_local.py**:使用本地模型生成口音演示 ```bash python scripts/generation/generate_accent_demo_local.py ``` ## 🔧 环境配置 ### 依赖安装 ```bash # 安装通用依赖 pip install -r requirements.txt # 安装各系统特定依赖 # VoxCPM cd systems/VoxCPM pip install -e . # MOSS-TTSD cd systems/MOSS-TTSD pip install -e . # F5-TTS cd systems/F5-TTS pip install -e . # Fish Speech cd systems/fish-speech pip install -e . ``` ## 📚 文档参考 - **系统文档**:各系统的详细使用说明 - **项目文档**:项目整体规划和开发指南 - **API文档**:各系统的API使用方法 ## 🎙️ 音频文件管理 - **podcast_audios/**:播客成品音频 - **audio/**:参考音频 - **audio_files/**:生成结果音频 - **hosts/**:主持人音频 ## 🔍 故障排除 ### 常见问题 1. **模型加载失败**:检查模型路径和文件完整性 2. **生成质量差**:调整生成参数,使用本地模型 3. **口音不明显**:提供更清晰的口音参考音频 4. **情感表达不准确**:使用情感特定的参考文本和音频 ### 解决方案 - **使用本地模型**:`openbmb__VoxCPM1.5` 模型效果最佳 - **调整参数**:CFG值=2.0-3.0,inference_timesteps=20-30 - **禁用降噪**:`enable_denoiser=False` 获得更好质量 - **提供优质参考**:清晰、有代表性的参考音频 ## 📞 支持 如有任何问题,请参考各系统的官方文档或联系技术支持。 --- **最后更新时间**:2026-01-12 **项目版本**:1.0.0