tts评测
支持中日英的开源TTS 评价,排名不分先后:
GPT-SoVITS (https://github.com/RVC-Boss/GPT-SoVITS): 个人感觉最强,来自B站up花儿不哭 (https://www.bilibili.com/video/BV12g4y1m7Uw),他团结开源社区,挑战商业公司,坚持AI开源共产主义。最新版本V3更加强大,v3支持情绪和语气,不需要微调表现也很好(微调教程 (https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e/vafogkyrwkk8rbzb)),v3可能有轻微电音推荐搭配花佬的RVC用,v3发布于20250228 一个月前
 
cosyvoice2 (https://funaudiollm.github.io/cosyvoice2/):阿里通义团队的作品,支持方言,情绪,非常稳定,综合能力比较强,但长文本他是分段处理,段之间会出现音色差异。最新版本2.0 发布于20250123 三月前
 
F5-TTS (https://swivid.github.io/F5-TTS_updates/):上海交通大学、剑桥大学和吉利汽车研究院的研究团队联合开发,非常遵循参考音频的断句习惯,能模拟非常像人的卡顿感!音色上表现比较强,最受参考音频影响。最新版1.0.8发布于20250325 上周
 
Spark-TTS (https://sparkaudio.github.io/spark-tts/):一堆大学和机构联合研发,主打自动情绪,测试发现目前短句无法控制情绪,毕竟文本太短推不出想要的情绪,长文本推理时长比短文本长很多,默认只能调声调,速度不建议改。个人感觉依赖自动情绪似乎并不靠谱,情绪需要多次抽卡才得到想要的。
最新版本20250226 两个月前
 
 
对比:
商业级闭源tts: Seed-TTS (https://bytedancespeech.github.io/seedtts_tech_report/) 来自字节跳动,也就是豆包用的模型,放出来的demo比豆包app里面的的更强,应该是参数更多的版本。对比各种综合指标的话,seed tts 应该是最强。
 
 
 
 
#ai #tts
2025-04-01
浏览76
登录后评论
评论
分享