一家法国的 AI 实验室 Kyutai,刚刚发布一个对标 GPT-4o 的开源实时语音多模态模型,能够听、说、看,而且从演示看,也可以随时打断,可以模仿法国口音说英语,可以说悄悄话。效果比 GPT-4o 要差一点,但是已经很接近了。
重要的是:
- 他们的模型训练管道和架构非常简单且具有很大的可扩展性,像 Kyutai 这样的只有 8 人的小团队在 4 个月内就能完成。合成数据在这方面起到了巨大的推动作用
- 专注于本地设备:Moshi 可以在本机运行。
- 低延迟:延迟在 300 毫秒以下,同时语言模型质量保持 Llama 8B 或更,可以在你提问尚未结束时模型就能回答,或者在你打断模型讲话时它能做出反应。模型中进行预测编码,并即时更新你要说的话
他们的论文和模型权重将很快发布。可以预见未来像 GPT-4o 这样的实时语音技术将会普及。
他们的官网:https://t.co/utTTfVMKwH