4.7 KiB
4.7 KiB
TTS 项目使用指南
📁 项目结构
/root/tts/
├── systems/ # 各个TTS系统
│ ├── F5-TTS/ # F5-TTS系统
│ ├── MOSS-TTSD/ # MOSS-TTSD系统
│ ├── VoxCPM/ # VoxCPM系统
│ └── fish-speech/ # Fish Speech系统
├── output/ # 生成的音频文件
│ ├── accents/ # 口音演示
│ ├── emotions/ # 情感演示
│ ├── podcast/ # 播客相关
│ └── test/ # 测试文件
├── references/ # 参考音频
│ ├── voices/ # 人声参考
│ ├── accents/ # 口音参考
│ └── emotions/ # 情感参考
├── scripts/ # 脚本文件
│ ├── analysis/ # 分析脚本
│ ├── generation/ # 生成脚本
│ └── utils/ # 工具脚本
├── docs/ # 文档
│ ├── system_docs/ # 各系统文档
│ └── project_docs/ # 项目文档
├── podcast_audios/ # 播客音频文件
├── audio/ # 音频文件
├── audio_files/ # 音频文件
├── hosts/ # 主持人音频文件
├── material/ # 材料文件
├── papers/ # 论文文件
└── README.md # 本指南
🎯 系统概览
1. VoxCPM
主要功能:语音克隆、口音模仿、情感表达 最佳用途:个性化语音生成、多口音支持 使用方法:
# 基本使用示例
python scripts/generation/generate_accent_demo_local.py
2. MOSS-TTSD
主要功能:文本到语音、多语言支持 最佳用途:直接文本转语音、多语言场景 使用方法:
# 播客生成示例
python scripts/generation/generate_moss_ttsd_podcast.py
3. F5-TTS
主要功能:高质量语音合成、快速推理 最佳用途:需要高质量语音的场景 使用方法:
# F5-TTS 命令行
cd systems/F5-TTS
python src/f5_tts/infer/infer_cli.py
4. Fish Speech
主要功能:轻量级语音合成、快速部署 最佳用途:资源受限环境、快速原型 使用方法:
# Fish Speech 命令行
cd systems/fish-speech
python simple_tts.py
📜 核心脚本使用说明
分析脚本
-
analyze_audio_quality.py:分析音频质量指标
python scripts/analysis/analyze_audio_quality.py path/to/audio.wav -
analyze_accent_verification.py:分析口音验证结果
python scripts/analysis/analyze_accent_verification.py
生成脚本
-
generate_multi_guest_podcast.py:生成多嘉宾播客
python scripts/generation/generate_multi_guest_podcast.py -
generate_host_b.py:生成主持人B的语音
python scripts/generation/generate_host_b.py
口音演示生成
- generate_accent_demo_local.py:使用本地模型生成口音演示
python scripts/generation/generate_accent_demo_local.py
🔧 环境配置
依赖安装
# 安装通用依赖
pip install -r requirements.txt
# 安装各系统特定依赖
# VoxCPM
cd systems/VoxCPM
pip install -e .
# MOSS-TTSD
cd systems/MOSS-TTSD
pip install -e .
# F5-TTS
cd systems/F5-TTS
pip install -e .
# Fish Speech
cd systems/fish-speech
pip install -e .
📚 文档参考
- 系统文档:各系统的详细使用说明
- 项目文档:项目整体规划和开发指南
- API文档:各系统的API使用方法
🎙️ 音频文件管理
- podcast_audios/:播客成品音频
- audio/:参考音频
- audio_files/:生成结果音频
- hosts/:主持人音频
🔍 故障排除
常见问题
- 模型加载失败:检查模型路径和文件完整性
- 生成质量差:调整生成参数,使用本地模型
- 口音不明显:提供更清晰的口音参考音频
- 情感表达不准确:使用情感特定的参考文本和音频
解决方案
- 使用本地模型:
openbmb__VoxCPM1.5模型效果最佳 - 调整参数:CFG值=2.0-3.0,inference_timesteps=20-30
- 禁用降噪:
enable_denoiser=False获得更好质量 - 提供优质参考:清晰、有代表性的参考音频
📞 支持
如有任何问题,请参考各系统的官方文档或联系技术支持。
最后更新时间:2026-01-12 项目版本:1.0.0