很多人说 2025 年是 AI Agent 元年,我一直没那么乐观,上次在和唐小引张海龙他们讨论 AI 编程时,我比较悲观的认为未来 2-3 年 AI Agent 是不会太成熟的,可能要 5 年以上才能好用,但是一旦跨过临界点,进化速度将非常快!
Andrej Karpathy 认为 2025-2035 是 Agent 的十年,因为要让 Agent 真正发挥作用,还需要在各方面投入巨大努力。但它应该能奏效。
下面是他推文的翻译:
我们可以将 OpenAI 的 Operator 这类项目之于数字世界,比作人形机器人之于物理世界。两者都在一个通用设定(监视键盘和鼠标,或人体)下,通过最初为人类设计的 I/O 接口,原则上可以逐步执行各种通用任务。在这两种情况下,这都会带来一个渐进的混合自主世界,人类成为低层自动化的高级监督者,就像驾驶员监控自动驾驶一样。由于翻转比特比移动原子大约便宜 1000 倍,这在数字世界的速度会比在物理世界快得多。尽管如此,物理世界的市场规模和机会似乎更大。
实际上,我们在 OpenAI 非常早期的时候(参见 Universe 和 World of Bits 项目)就已经探讨过这个想法,但当时的次序不对——得先有 LLMs。即使到了现在,我也不敢百分之百确定它是否已经准备好。多模态(图像、视频、音频)在过去一两年才刚刚整合进 LLMs,通常只是作为适配器附加上去。更糟糕的是,我们还没真正进入非常非常长任务时间跨度的领域。比如,视频包含海量信息,我并不确定是否能直接把它们全部塞进上下文窗口(当前的范式)就指望它能正常工作。我猜这里可能还需要一两个突破来支撑。
在我的时间线上,人们都说 2025 年是 Agent 之年。我个人认为 2025-2035 是 Agent 的十年。我觉得要让它真正发挥作用,还需要在各方面投入巨大努力。但它应该能奏效。如今,Operator 有时也许能帮你在 DoorDash 上找午餐,或者查询酒店等等。明天,你就可以为自己选定的长期任务(例如经营整家公司)启动一群 Operator。你可以像 CEO 一样同时监督其中的 10 个,必要时下场解决一些阻碍。到那时,事情会变得相当有趣。