转译:《苹果 AI 研究团队引以为豪:自研模型在设备上运行,性能远超 GPT-4》
Siri 最近尝试通过 CarPlay 或通知播报功能来描述消息中接收到的图片。但如同典型 Siri 的表现,这一功能的效果参差不齐。
尽管遇到不少挑战,苹果依旧在 AI 领域稳步前行。苹果最新发布的研究论文中,AI 研究专家们分享了一个使 Siri 能够做到更多,不仅仅是识别图片内容的系统。最令人兴奋的是,他们认为某个模型在实现这一功能时,其性能甚至超越了 ChatGPT 4.0。
在这篇名为“ReALM: 以语言模型解决参考问题”(ReALM: Reference Resolution As Language Modeling)的论文中,苹果揭示了一个可能为增强大语言模型的语音助手带来实用性提升的方案。ReALM 不仅关注你屏幕上的内容,还包括你正在进行的任务。论文中有一段这样描述这个系统的工作原理:
- 屏幕上实体:当前显示在用户屏幕上的实体。
- 对话实体:与会话相关的实体。这些实体可能源自用户之前的交互(例如,当用户说“打电话给妈妈”时,“妈妈”的联系方式就是相关实体),或是虚拟助手提供的选择(比如,当助手提供一系列地点或闹钟供用户选择时)。
- 背景实体:那些来自后台进程的相关实体,这些进程可能并不直接显示在用户的屏幕上或与用户与虚拟助理的互动;例如,正在响起的闹钟或背景中播放的音乐。
如果它运作得当,这似乎为打造一个更加聪明和实用的 Siri 奠定了基础。苹果公司也对自己迅速完成这一挑战充满信心,他们的基准测试与 OpenAI 的 ChatGPT 3.5 和 ChatGPT 4.0 进行了对比:
作为一项参考,我们测试了 2024 年 1 月 24 日可用的 ChatGPT 的 GPT-3.5(Brown et al., 2020; Ouyang et al., 2022)和 GPT-4(Achiam et al., 2023)版本,这些版本具备上下文学习能力。我们的目标是让这两个版本预测一系列已知集合中的实体。对于仅支持文本输入的 GPT-3.5,我们仅提供了文本提示;而对于能够结合图像上下文的 GPT-4,我们还添加了一个任务截图,以改善屏幕引用解析的效果,这一措施大幅提升了性能。
苹果的模型表现如何呢?
我们的模型在处理不同类型的引用时显示出了显著的进步,即使是我们最小的模型也在屏幕引用方面实现了超过 5% 的性能提升。与 GPT-3.5 和 GPT-4 的对比测试中,我们的小型模型的表现可与 GPT-4 媲美,而更大的模型则远远超过了它。
远远超过,是的,论文这样总结:
我们证明了 ReaLM 在多方面超越了之前的技术,与当下最先进的大语言模型 GPT-4 的性能大致相当,尽管 ReaLM 的参数远少于 GPT-4。即便是在处理仅限文本的屏幕引用任务上,ReaLM 也显示了优势。在处理特定领域的用户指令上,ReaLM 更是超越了 GPT-4,这使其成为一个理想的应用于设备上的引用解析系统,既不牺牲性能。
对于苹果来说,“既能在设备上运行,又不牺牲性能”显得尤为关键。未来几年的平台发展看起来将会非常有趣,从 2024 年 6 月 10 日开始的 iOS 18 和 WWDC 2024 希望 可以期待。
相关论文:https://t.co/Cz21aEByJH
原文:https://t.co/j21T376rw9