Files
tts/README.md
2026-01-19 10:27:41 +08:00

4.7 KiB
Raw Permalink Blame History

TTS 项目使用指南

📁 项目结构

/root/tts/
├── systems/                    # 各个TTS系统
│   ├── F5-TTS/                 # F5-TTS系统
│   ├── MOSS-TTSD/              # MOSS-TTSD系统
│   ├── VoxCPM/                 # VoxCPM系统
│   └── fish-speech/            # Fish Speech系统
├── output/                     # 生成的音频文件
│   ├── accents/                # 口音演示
│   ├── emotions/               # 情感演示
│   ├── podcast/                # 播客相关
│   └── test/                   # 测试文件
├── references/                 # 参考音频
│   ├── voices/                 # 人声参考
│   ├── accents/                # 口音参考
│   └── emotions/               # 情感参考
├── scripts/                    # 脚本文件
│   ├── analysis/               # 分析脚本
│   ├── generation/             # 生成脚本
│   └── utils/                  # 工具脚本
├── docs/                       # 文档
│   ├── system_docs/            # 各系统文档
│   └── project_docs/           # 项目文档
├── podcast_audios/             # 播客音频文件
├── audio/                      # 音频文件
├── audio_files/                # 音频文件
├── hosts/                      # 主持人音频文件
├── material/                   # 材料文件
├── papers/                     # 论文文件
└── README.md                   # 本指南

🎯 系统概览

1. VoxCPM

主要功能:语音克隆、口音模仿、情感表达 最佳用途:个性化语音生成、多口音支持 使用方法

# 基本使用示例
python scripts/generation/generate_accent_demo_local.py

2. MOSS-TTSD

主要功能:文本到语音、多语言支持 最佳用途:直接文本转语音、多语言场景 使用方法

# 播客生成示例
python scripts/generation/generate_moss_ttsd_podcast.py

3. F5-TTS

主要功能:高质量语音合成、快速推理 最佳用途:需要高质量语音的场景 使用方法

# F5-TTS 命令行
cd systems/F5-TTS
python src/f5_tts/infer/infer_cli.py

4. Fish Speech

主要功能:轻量级语音合成、快速部署 最佳用途:资源受限环境、快速原型 使用方法

# Fish Speech 命令行
cd systems/fish-speech
python simple_tts.py

📜 核心脚本使用说明

分析脚本

  • analyze_audio_quality.py:分析音频质量指标

    python scripts/analysis/analyze_audio_quality.py path/to/audio.wav
    
  • analyze_accent_verification.py:分析口音验证结果

    python scripts/analysis/analyze_accent_verification.py
    

生成脚本

  • generate_multi_guest_podcast.py:生成多嘉宾播客

    python scripts/generation/generate_multi_guest_podcast.py
    
  • generate_host_b.py生成主持人B的语音

    python scripts/generation/generate_host_b.py
    

口音演示生成

  • generate_accent_demo_local.py:使用本地模型生成口音演示
    python scripts/generation/generate_accent_demo_local.py
    

🔧 环境配置

依赖安装

# 安装通用依赖
pip install -r requirements.txt

# 安装各系统特定依赖
# VoxCPM
cd systems/VoxCPM
pip install -e .

# MOSS-TTSD
cd systems/MOSS-TTSD
pip install -e .

# F5-TTS
cd systems/F5-TTS
pip install -e .

# Fish Speech
cd systems/fish-speech
pip install -e .

📚 文档参考

  • 系统文档:各系统的详细使用说明
  • 项目文档:项目整体规划和开发指南
  • API文档各系统的API使用方法

🎙️ 音频文件管理

  • podcast_audios/:播客成品音频
  • audio/:参考音频
  • audio_files/:生成结果音频
  • hosts/:主持人音频

🔍 故障排除

常见问题

  1. 模型加载失败:检查模型路径和文件完整性
  2. 生成质量差:调整生成参数,使用本地模型
  3. 口音不明显:提供更清晰的口音参考音频
  4. 情感表达不准确:使用情感特定的参考文本和音频

解决方案

  • 使用本地模型openbmb__VoxCPM1.5 模型效果最佳
  • 调整参数CFG值=2.0-3.0inference_timesteps=20-30
  • 禁用降噪enable_denoiser=False 获得更好质量
  • 提供优质参考:清晰、有代表性的参考音频

📞 支持

如有任何问题,请参考各系统的官方文档或联系技术支持。


最后更新时间2026-01-12 项目版本1.0.0