1). 阿里推出的开源语音克隆、文本转语音项目,支持情感控制及粤语。
2). 本次测试以Windows 11 专业版22631.3880为例,显卡驱动5445;
2).长文本情况下显存占用较高,有接近16G占满情况(测试多行1000字左右)
3).相较于ChatTTS,CosyVoice多段长文本音色统一;有音色复刻功能,复刻效果还不错。
4).模型文件单独压缩,models.7z解压后将两个文件夹放置于根目录下的pretrained_models中,其余模型也可自行到魔搭社区下载。
5).需要切换模型可以在启动文件中修改--model_dir pretrained_models/CosyVoice-300M
6).整合包建议使用7zip 23.01或以上版本进行解压,应尽量避免使用中文路径及中文命名的输入文件。