Files
tts/README.md
2026-01-19 10:27:41 +08:00

167 lines
4.7 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# TTS 项目使用指南
## 📁 项目结构
```
/root/tts/
├── systems/ # 各个TTS系统
│ ├── F5-TTS/ # F5-TTS系统
│ ├── MOSS-TTSD/ # MOSS-TTSD系统
│ ├── VoxCPM/ # VoxCPM系统
│ └── fish-speech/ # Fish Speech系统
├── output/ # 生成的音频文件
│ ├── accents/ # 口音演示
│ ├── emotions/ # 情感演示
│ ├── podcast/ # 播客相关
│ └── test/ # 测试文件
├── references/ # 参考音频
│ ├── voices/ # 人声参考
│ ├── accents/ # 口音参考
│ └── emotions/ # 情感参考
├── scripts/ # 脚本文件
│ ├── analysis/ # 分析脚本
│ ├── generation/ # 生成脚本
│ └── utils/ # 工具脚本
├── docs/ # 文档
│ ├── system_docs/ # 各系统文档
│ └── project_docs/ # 项目文档
├── podcast_audios/ # 播客音频文件
├── audio/ # 音频文件
├── audio_files/ # 音频文件
├── hosts/ # 主持人音频文件
├── material/ # 材料文件
├── papers/ # 论文文件
└── README.md # 本指南
```
## 🎯 系统概览
### 1. VoxCPM
**主要功能**:语音克隆、口音模仿、情感表达
**最佳用途**:个性化语音生成、多口音支持
**使用方法**
```bash
# 基本使用示例
python scripts/generation/generate_accent_demo_local.py
```
### 2. MOSS-TTSD
**主要功能**:文本到语音、多语言支持
**最佳用途**:直接文本转语音、多语言场景
**使用方法**
```bash
# 播客生成示例
python scripts/generation/generate_moss_ttsd_podcast.py
```
### 3. F5-TTS
**主要功能**:高质量语音合成、快速推理
**最佳用途**:需要高质量语音的场景
**使用方法**
```bash
# F5-TTS 命令行
cd systems/F5-TTS
python src/f5_tts/infer/infer_cli.py
```
### 4. Fish Speech
**主要功能**:轻量级语音合成、快速部署
**最佳用途**:资源受限环境、快速原型
**使用方法**
```bash
# Fish Speech 命令行
cd systems/fish-speech
python simple_tts.py
```
## 📜 核心脚本使用说明
### 分析脚本
- **analyze_audio_quality.py**:分析音频质量指标
```bash
python scripts/analysis/analyze_audio_quality.py path/to/audio.wav
```
- **analyze_accent_verification.py**:分析口音验证结果
```bash
python scripts/analysis/analyze_accent_verification.py
```
### 生成脚本
- **generate_multi_guest_podcast.py**:生成多嘉宾播客
```bash
python scripts/generation/generate_multi_guest_podcast.py
```
- **generate_host_b.py**生成主持人B的语音
```bash
python scripts/generation/generate_host_b.py
```
### 口音演示生成
- **generate_accent_demo_local.py**:使用本地模型生成口音演示
```bash
python scripts/generation/generate_accent_demo_local.py
```
## 🔧 环境配置
### 依赖安装
```bash
# 安装通用依赖
pip install -r requirements.txt
# 安装各系统特定依赖
# VoxCPM
cd systems/VoxCPM
pip install -e .
# MOSS-TTSD
cd systems/MOSS-TTSD
pip install -e .
# F5-TTS
cd systems/F5-TTS
pip install -e .
# Fish Speech
cd systems/fish-speech
pip install -e .
```
## 📚 文档参考
- **系统文档**:各系统的详细使用说明
- **项目文档**:项目整体规划和开发指南
- **API文档**各系统的API使用方法
## 🎙️ 音频文件管理
- **podcast_audios/**:播客成品音频
- **audio/**:参考音频
- **audio_files/**:生成结果音频
- **hosts/**:主持人音频
## 🔍 故障排除
### 常见问题
1. **模型加载失败**:检查模型路径和文件完整性
2. **生成质量差**:调整生成参数,使用本地模型
3. **口音不明显**:提供更清晰的口音参考音频
4. **情感表达不准确**:使用情感特定的参考文本和音频
### 解决方案
- **使用本地模型**`openbmb__VoxCPM1.5` 模型效果最佳
- **调整参数**CFG值=2.0-3.0inference_timesteps=20-30
- **禁用降噪**`enable_denoiser=False` 获得更好质量
- **提供优质参考**:清晰、有代表性的参考音频
## 📞 支持
如有任何问题,请参考各系统的官方文档或联系技术支持。
---
**最后更新时间**2026-01-12
**项目版本**1.0.0