v0.5.1 更新日志
 
如果你想问 v0.5.0 哪儿去了,他消失了。
(不过你要是真拿到了 v0.5.0,也别慌。v0.5.0 和 v0.5.1 的区别就是一个新的 CORS 修复,基本上跟你没啥关系。)
## 改进
 
• 🎉 集成 llama.cpp:现在你可以直接在项目里跑 GGUF 模型文件(大语言模型)了,不用再依赖 Ollama、LM Studio 或者其他 API 之类的外部服务。
 
• 🎉 支持 Sherpa-ONNX 语音识别和文字转语音:加入了对 Sherpa-ONNX 的支持,语音识别和文字转语音的效果更棒了。感谢 @Neil2893 在 https://github.com/t41372/Open-LLM-VTuber/pull/50 的贡献。
 
有了 Sherpa-ONNX,我们可以轻松跑起 SenseVoiceSmall、MeloTTS 和 PiperTTS 这些模型。再多测试测试,整个自动下载模型的脚本,Sherpa-ONNX 搭配 SenseVoiceSmall 和 MeloTTS/PiperTTS 估计会成为这个项目新的默认语音识别和文字转语音模型。这些模型性能很不错的,即使在 CPU 上推理速度也很快。目前的 SenseVoiceSmall 和 FunASR 搭配又笨重又一堆 bug,MeloTTS 安装难度是地狱级的,PiperTTS 更是个没人管的烂尾项目,几百个 bug 都没人修,其中一个 bug 直接导致我没法把它集成到这个项目里。Sherpa-ONNX 解决了所有这些问题。感谢 @Neil2893 的工作!🎉 🎉 🎉
 
• 🎉 VAD 微调选项:新增了 negativeSpeechThreshold 和 redemptionFrames 这两个参数,让大家可以更好地控制 VAD(语音活动检测)设置,提升 AI 交互体验。感谢 @Neil2893 在 https://github.com/t41372/Open-LLM-VTuber/pull/53 的贡献。
 
 
## Bug 修复
• 🐛 CORS 策略问题:如果你想把这个项目的网页部分单独部署,会报一个 CORS 错误,Live2D 模型会加载不出来。这个问题已经修复了(不过浏览器可能会有 CORS 缓存,导致你看不到这个改动)。
 
 
## 新贡献者
• 欢迎 [@Neil2893](https://github.com/Neil2893),他在 [#50](https://github.com/t41372/Open-LLM-VTuber/pull/50) 贡献了第一份力量!
 
 
 
 
# 关于下个版本
我要开始重构这个项目了,会有一些不兼容的改动,因为我想改改架构,清理一些技术债,为以后添加更多功能做准备。下个版本,不出意外的话,会是 v1.0.0。我还在跟一些大佬合作,用 React 重写前端,还有个佬在搞牛逼的东西,让安装过程变得超级简单。
 
刚开始做这个项目的时候,我对 Python 几乎一窍不通(一开始我是把它当 JavaScript 脚本写的,连Python面向对象的语法都没看)。我关于 Python 和一些工程实践的知识大部分都是在做这个项目的过程中学的,也犯了不少错误。过去几个月,我重构了很多丑陋的代码,但有些改动涉及到不兼容的更改,不太方便。我想把能想到的不兼容改动都放在一起做,也就是我接下来要做的事情。
 
计划中一个比较主要的改动是 我会在 v1.0.0 中移除命令行模式。自从我在 v0.4.0 中加入了文本输入功能后,想不出还有谁会在没有 Live2D 的情况下在命令行模式下运行这个项目。如果你担心 GPU 占用,可以把网页放在后台,只要不在屏幕上显示,它就不会渲染 Live2D 模型。而且,去掉命令行模式后,代码也会清爽很多。如果你对移除命令行模式感到愤怒,沮丧,难以接受,可以跟我说。
 
关于 v1.0.0,你可以在GitHub Project上查看我的待办事项和开发进度。如果你有任何建议,请告诉我。我不是一个经验丰富的开发者,可能会犯错或者做出错误的决定。在我完成这个项目的第一个重大不兼容更改(或者第二个,但当时的用户数量约等于没有,所以问题不是很大)之前跟我说,就会比较方便。
2024-12-15
浏览1476
更新日志
登录后评论
1
分享