Initial commit for TTS project
This commit is contained in:
166
README.md
Normal file
166
README.md
Normal file
@@ -0,0 +1,166 @@
|
||||
# TTS 项目使用指南
|
||||
|
||||
## 📁 项目结构
|
||||
|
||||
```
|
||||
/root/tts/
|
||||
├── systems/ # 各个TTS系统
|
||||
│ ├── F5-TTS/ # F5-TTS系统
|
||||
│ ├── MOSS-TTSD/ # MOSS-TTSD系统
|
||||
│ ├── VoxCPM/ # VoxCPM系统
|
||||
│ └── fish-speech/ # Fish Speech系统
|
||||
├── output/ # 生成的音频文件
|
||||
│ ├── accents/ # 口音演示
|
||||
│ ├── emotions/ # 情感演示
|
||||
│ ├── podcast/ # 播客相关
|
||||
│ └── test/ # 测试文件
|
||||
├── references/ # 参考音频
|
||||
│ ├── voices/ # 人声参考
|
||||
│ ├── accents/ # 口音参考
|
||||
│ └── emotions/ # 情感参考
|
||||
├── scripts/ # 脚本文件
|
||||
│ ├── analysis/ # 分析脚本
|
||||
│ ├── generation/ # 生成脚本
|
||||
│ └── utils/ # 工具脚本
|
||||
├── docs/ # 文档
|
||||
│ ├── system_docs/ # 各系统文档
|
||||
│ └── project_docs/ # 项目文档
|
||||
├── podcast_audios/ # 播客音频文件
|
||||
├── audio/ # 音频文件
|
||||
├── audio_files/ # 音频文件
|
||||
├── hosts/ # 主持人音频文件
|
||||
├── material/ # 材料文件
|
||||
├── papers/ # 论文文件
|
||||
└── README.md # 本指南
|
||||
```
|
||||
|
||||
## 🎯 系统概览
|
||||
|
||||
### 1. VoxCPM
|
||||
**主要功能**:语音克隆、口音模仿、情感表达
|
||||
**最佳用途**:个性化语音生成、多口音支持
|
||||
**使用方法**:
|
||||
```bash
|
||||
# 基本使用示例
|
||||
python scripts/generation/generate_accent_demo_local.py
|
||||
```
|
||||
|
||||
### 2. MOSS-TTSD
|
||||
**主要功能**:文本到语音、多语言支持
|
||||
**最佳用途**:直接文本转语音、多语言场景
|
||||
**使用方法**:
|
||||
```bash
|
||||
# 播客生成示例
|
||||
python scripts/generation/generate_moss_ttsd_podcast.py
|
||||
```
|
||||
|
||||
### 3. F5-TTS
|
||||
**主要功能**:高质量语音合成、快速推理
|
||||
**最佳用途**:需要高质量语音的场景
|
||||
**使用方法**:
|
||||
```bash
|
||||
# F5-TTS 命令行
|
||||
cd systems/F5-TTS
|
||||
python src/f5_tts/infer/infer_cli.py
|
||||
```
|
||||
|
||||
### 4. Fish Speech
|
||||
**主要功能**:轻量级语音合成、快速部署
|
||||
**最佳用途**:资源受限环境、快速原型
|
||||
**使用方法**:
|
||||
```bash
|
||||
# Fish Speech 命令行
|
||||
cd systems/fish-speech
|
||||
python simple_tts.py
|
||||
```
|
||||
|
||||
## 📜 核心脚本使用说明
|
||||
|
||||
### 分析脚本
|
||||
- **analyze_audio_quality.py**:分析音频质量指标
|
||||
```bash
|
||||
python scripts/analysis/analyze_audio_quality.py path/to/audio.wav
|
||||
```
|
||||
|
||||
- **analyze_accent_verification.py**:分析口音验证结果
|
||||
```bash
|
||||
python scripts/analysis/analyze_accent_verification.py
|
||||
```
|
||||
|
||||
### 生成脚本
|
||||
- **generate_multi_guest_podcast.py**:生成多嘉宾播客
|
||||
```bash
|
||||
python scripts/generation/generate_multi_guest_podcast.py
|
||||
```
|
||||
|
||||
- **generate_host_b.py**:生成主持人B的语音
|
||||
```bash
|
||||
python scripts/generation/generate_host_b.py
|
||||
```
|
||||
|
||||
### 口音演示生成
|
||||
- **generate_accent_demo_local.py**:使用本地模型生成口音演示
|
||||
```bash
|
||||
python scripts/generation/generate_accent_demo_local.py
|
||||
```
|
||||
|
||||
## 🔧 环境配置
|
||||
|
||||
### 依赖安装
|
||||
```bash
|
||||
# 安装通用依赖
|
||||
pip install -r requirements.txt
|
||||
|
||||
# 安装各系统特定依赖
|
||||
# VoxCPM
|
||||
cd systems/VoxCPM
|
||||
pip install -e .
|
||||
|
||||
# MOSS-TTSD
|
||||
cd systems/MOSS-TTSD
|
||||
pip install -e .
|
||||
|
||||
# F5-TTS
|
||||
cd systems/F5-TTS
|
||||
pip install -e .
|
||||
|
||||
# Fish Speech
|
||||
cd systems/fish-speech
|
||||
pip install -e .
|
||||
```
|
||||
|
||||
## 📚 文档参考
|
||||
|
||||
- **系统文档**:各系统的详细使用说明
|
||||
- **项目文档**:项目整体规划和开发指南
|
||||
- **API文档**:各系统的API使用方法
|
||||
|
||||
## 🎙️ 音频文件管理
|
||||
|
||||
- **podcast_audios/**:播客成品音频
|
||||
- **audio/**:参考音频
|
||||
- **audio_files/**:生成结果音频
|
||||
- **hosts/**:主持人音频
|
||||
|
||||
## 🔍 故障排除
|
||||
|
||||
### 常见问题
|
||||
1. **模型加载失败**:检查模型路径和文件完整性
|
||||
2. **生成质量差**:调整生成参数,使用本地模型
|
||||
3. **口音不明显**:提供更清晰的口音参考音频
|
||||
4. **情感表达不准确**:使用情感特定的参考文本和音频
|
||||
|
||||
### 解决方案
|
||||
- **使用本地模型**:`openbmb__VoxCPM1.5` 模型效果最佳
|
||||
- **调整参数**:CFG值=2.0-3.0,inference_timesteps=20-30
|
||||
- **禁用降噪**:`enable_denoiser=False` 获得更好质量
|
||||
- **提供优质参考**:清晰、有代表性的参考音频
|
||||
|
||||
## 📞 支持
|
||||
|
||||
如有任何问题,请参考各系统的官方文档或联系技术支持。
|
||||
|
||||
---
|
||||
|
||||
**最后更新时间**:2026-01-12
|
||||
**项目版本**:1.0.0
|
||||
Reference in New Issue
Block a user