有人尝试了借助开源大语言模型,无需联网在本机实现和游戏 NPC 自由对话,技术栈:
- Mistral7b,开源大语言模型
- StyleTTS2 文字转语音
- llama.cpp 用来运行大语言模型的库
生成一句新对话的时间大约为 2-3 秒。在生成新对话行时会稍微有点卡顿,但影响不大。StyleTTS2(文本转语音系统)需要占用约 14GB 的 RAM,而基于 llama.cpp 运行的服务器占用 3GB,因此运行这一系统需要较大的 RAM 容量。不过我相信 StyleTTS 还有进一步优化的空间。从视频中可以看出,对帧率影响不大,游戏画面依然能够保持流畅的 60 帧每秒。
缺点也很明显:
Mistral 在判断游戏世界中哪些事情可能发生哪些不可能方面也不是很准确。比如,在演示中出现的关于训练村民的任务,在游戏中实际上是无法实现的,因为游戏中根本没有相关机制。
尽管 Mistral 模型的处理速度更快,但一致性不如 GPT3.5。容易偏离主题,并且不太能坚持事实。
StyleTTS2 的语音合成效果也不够自然,还带有些许机械感。对于它不熟悉的词汇,它的发音不太准确,或者会根据上下文错误地发音(例如,Angers 这个城市的发音与动词“to anger”发音不同)。
不过还是相当有积极意义的一次尝试👍🏻
相关源码:https://t.co/2C6aE4oVaN
原文:https://t.co/M3IHNp8MVU
译文:https://t.co/fVlZifHNC6