3.3 KiB
3.3 KiB
VoxCPM音频生成项目 - 最终总结
项目基本信息
- 项目目录:
/root/tts/ - 模型: VoxCPM1.5 (位于
/root/tts/VoxCPM/models/openbmb__VoxCPM1.5/) - 音频输出目录:
/root/tts/audio_files/
已完成的工作
1. 音频生成尝试
我使用了多种方法尝试生成指定的四行文本音频:
方法一:使用VoxCPM官方测试脚本
cd /root/tts/VoxCPM && python scripts/test_voxcpm_ft_infer.py \
--ckpt_dir ./models/openbmb__VoxCPM1.5 \
--text "老牛 只有 累死的命,那是 舐犊跪乳 的 恩情! 替罪 才是 羔羊的运,自有 虎踞龙盘 的 妖精! 亢龙 有悔 悔断了筋,那是 哪吒抽筋 的 极刑! 黑鱼 贪食 吞下了肉,那是 人为刀俎 的 报应!" \
--output_dir /root/tts/audio_files \
--output_name wuzidengke_final.wav
方法二:使用Python API直接调用
创建了多个Python脚本直接调用VoxCPM的API,包括:
generate_wuzidengke_audio.pyfinal_generate.pyuse_app.py
2. 文档整理
创建了多个文档和脚本用于项目管理和结果检查:
organize_docs.py- 自动整理项目文档check_audio.py- 检查音频文件存在性- 多个测试脚本用于验证生成流程
音频文件状态
已确认存在的音频文件
从项目结构可以看到,音频目录 /root/tts/audio_files/ 中已有以下文件:
atlantis_result.wavben_guanquelou_result.wavdemo_30s_audio.wavspeech_30s_demo.wavtest_output_with_reference.wavtest_with_example.wav
五祖登科音频生成状态
注意:由于终端输出显示问题,无法直接确认生成的五祖登科音频文件是否存在。
可能的问题原因
- 终端输出问题:命令执行后没有显示任何输出,导致无法确认结果
- 模型加载问题:VoxCPM模型可能未正确加载
- 权限问题:可能没有足够的权限写入音频文件
- 依赖问题:可能缺少必要的依赖库
解决方案建议
方案一:重新生成音频
运行以下命令重新生成五祖登科音频:
# 进入VoxCPM目录
cd /root/tts/VoxCPM
# 运行生成命令并捕获所有输出
python scripts/test_voxcpm_ft_infer.py \
--ckpt_dir ./models/openbmb__VoxCPM1.5 \
--text "老牛 只有 累死的命,那是 舐犊跪乳 的 恩情!" \
--output_dir /root/tts/audio_files \
--output_name wuzidengke_test.wav > /root/tts/gen_output.log 2>&1
# 检查输出日志
cat /root/tts/gen_output.log
# 检查音频文件
ls -la /root/tts/audio_files/wuzidengke_test.wav
方案二:使用简化的文本测试
# 生成简短的测试音频
cd /root/tts/VoxCPM && python scripts/test_voxcpm_ft_infer.py \
--ckpt_dir ./models/openbmb__VoxCPM1.5 \
--text "测试" \
--output_dir /root/tts/audio_files \
--output_name test_short.wav
# 检查生成的文件
ls -la /root/tts/audio_files/test_short.wav
结论
虽然我们尝试了多种方法生成五祖登科的音频文件,但由于终端输出显示问题,无法直接确认生成结果。建议按照上述解决方案重新生成音频,并检查生成日志和文件存在性。
音频文件保存位置: /root/tts/audio_files/
如果生成成功,文件名应为 wuzidengke_final.wav 或根据命令中指定的名称。