Ethan Sutin @EthanSutin
展示了一个可以运行在16GB M1芯片上的AI可穿戴设备原型
这个设备能实时监听你所说的话
时刻保持在线,能随时和你进行对话
并能记住你们对话内容,还能定向将信息传输到你们当时对话环境相适应的的设备上。
所有的技术全部使用了开源技术栈,他将很快分享代码。
前半部分演示使用的是GPT-3.5和ElevenLabs,改进后完全是开源的技术
这套技术栈包括:
📝会话转录:使用Whisper Medium
💬实时转录:使用Whisper Small
🔊声音活动检测(VAD):使用Silero
🧠大型语言模型(LLM):使用Mistral-Instruct 7B
🗣️文本到语音(TTS):使用StyleTTS2