腾讯频道 - Open-LLM-VTuber交流频道

Open-LLM-VTuber交流频道

Tim Chiu

频道主

v0.5.1 更新日志

如果你想问 v0.5.0 哪儿去了，他消失了。

（不过你要是真拿到了 v0.5.0，也别慌。v0.5.0 和 v0.5.1 的区别就是一个新的 CORS 修复，基本上跟你没啥关系。）

## 改进

• 🎉 集成

：现在你可以直接在项目里跑 GGUF 模型文件（大语言模型）了，不用再依赖 Ollama、LM Studio 或者其他 API 之类的外部服务。

• 🎉 支持 Sherpa-ONNX 语音识别和文字转语音：加入了对 Sherpa-ONNX 的支持，语音识别和文字转语音的效果更棒了。感谢 @Neil2893 在

的贡献。

有了 Sherpa-ONNX，我们可以轻松跑起 SenseVoiceSmall、MeloTTS 和 PiperTTS 这些模型。再多测试测试，整个自动下载模型的脚本，Sherpa-ONNX 搭配 SenseVoiceSmall 和 MeloTTS/PiperTTS 估计会成为这个项目新的默认语音识别和文字转语音模型。这些模型性能很不错的，即使在 CPU 上推理速度也很快。目前的 SenseVoiceSmall 和 FunASR 搭配又笨重又一堆 bug，MeloTTS 安装难度是地狱级的，PiperTTS 更是个没人管的烂尾项目，几百个 bug 都没人修，其中一个 bug 直接导致我没法把它集成到这个项目里。Sherpa-ONNX 解决了所有这些问题。感谢 @Neil2893 的工作！🎉 🎉 🎉

• 🎉 VAD 微调选项：新增了 negativeSpeechThreshold 和 redemptionFrames 这两个参数，让大家可以更好地控制 VAD（语音活动检测）设置，提升 AI 交互体验。感谢 @Neil2893 在

的贡献。

## Bug 修复

• 🐛 CORS 策略问题：如果你想把这个项目的网页部分单独部署，会报一个 CORS 错误，Live2D 模型会加载不出来。这个问题已经修复了（不过浏览器可能会有 CORS 缓存，导致你看不到这个改动）。

## 新贡献者

• 欢迎 [@Neil2893](

，他在 [#50](

贡献了第一份力量！

完整更新日志： [v0.4.4...v0.5.1](

# 关于下个版本

我要开始重构这个项目了，会有一些不兼容的改动，因为我想改改架构，清理一些技术债，为以后添加更多功能做准备。下个版本，不出意外的话，会是 v1.0.0。我还在跟一些大佬合作，用 React 重写前端，还有个佬在搞牛逼的东西，让安装过程变得超级简单。

刚开始做这个项目的时候，我对 Python 几乎一窍不通（一开始我是把它当 JavaScript 脚本写的，连Python面向对象的语法都没看）。我关于 Python 和一些工程实践的知识大部分都是在做这个项目的过程中学的，也犯了不少错误。过去几个月，我重构了很多丑陋的代码，但有些改动涉及到不兼容的更改，不太方便。我想把能想到的不兼容改动都放在一起做，也就是我接下来要做的事情。

计划中一个比较主要的改动是我会在 v1.0.0 中移除命令行模式。自从我在 v0.4.0 中加入了文本输入功能后，想不出还有谁会在没有 Live2D 的情况下在命令行模式下运行这个项目。如果你担心 GPU 占用，可以把网页放在后台，只要不在屏幕上显示，它就不会渲染 Live2D 模型。而且，去掉命令行模式后，代码也会清爽很多。如果你对移除命令行模式感到愤怒，沮丧，难以接受，可以跟我说。

关于 v1.0.0，你可以在

上查看我的待办事项和开发进度。如果你有任何建议，请告诉我。我不是一个经验丰富的开发者，可能会犯错或者做出错误的决定。在我完成这个项目的第一个重大不兼容更改（或者第二个，但当时的用户数量约等于没有，所以问题不是很大）之前跟我说，就会比较方便。

2024-12-15

更新日志

登录后评论