两周前在 OpenAI 开会,看到他们内部展示了 Operators。当时说发行日期是 weeks,结果没过几天就发布了,迭代速度令人惊讶。
AI 直接操作计算机系统,这对我们 AI 从业者来说并不意外,早在多年前就能预见。但它对整个行业的影响,才刚刚开始。
- AI 友好的界面,UX 的消失?
今天的计算机界面是 为人类设计的,HTML、按钮、链接、菜单、拖拽交互……这一整套 UI 体系,建立的前提是 用户是人。而 AI 并不需要这些。
想象一下:
如果 AI 只需要 意图级别 的表达就能完成操作,那么 GUI(图形用户界面)真的还是必要的吗?是不是我们几十年来构建的 人机交互规则 需要彻底重写?
Figma、Adobe、各种 SaaS 工具的 UX 设计,核心目标是“让人用起来更高效”。但如果 AI 直接操控计算机:
•鼠标移动距离的优化,快捷键的排布,交互设计的动效,甚至菜单本身——这些 是否还有意义?
•AI 甚至可以直接解析网站 代码结构 而不需要可读的 UI,那么 UI 甚至可以变得“丑陋” 如当年 hao123
•未来 AI 之间的交互会是什么?是否会发展出 完全不依赖视觉 的 AI 友好型界面?例如一个网站,AI 直接调用 “结账” API,而不是像人一样“点击”按钮?
也许未来,人类的 UX 设计重点不再是 “如何让人用得更顺畅”,而是 “如何让人理解 AI 在做什么”,即:
•可解释性 UI(Explainability UI)
•AI 交互协议(AI API 设计)
•人与 AI 协同工作的新范式
Figma 这样的软件会如何进化?或许,它最终会从“设计供人使用的界面”变成“设计供 AI 使用的结构化交互协议”。
- AI 操作计算机 = 数字世界的“自动驾驶”
AI 操作计算机的模式,本质上就像 自动驾驶汽车,只不过:
•现实世界的自动驾驶受物理规律、道路状况、传感器精度等因素限制,迭代周期长;
•数字世界没有物理世界的约束,AI 直接操控鼠标键盘,迭代速度可以快 几百倍。
换句话说,在 自动驾驶汽车普及之前,AI 已经能完全在数字世界里“自动驾驶”了。
这带来的冲击是:
1.传统的人机交互方式(鼠标、键盘、触摸屏)最终可能成为辅助交互手段,而不再是主流。
2.未来软件的使用者可能不再是“人”,而是 AI 代理。 例如:
•你不再自己打开 Excel,而是 AI 直接帮你操作 Excel;
•你不需要浏览网页,而是 AI 直接从网站获取信息。
3.软件开发范式也会改变。 未来的应用不再是 GUI + Backend,而是 Intent API + AI Agent,
•用户不再点击按钮,而是直接告诉 AI “帮我买机票”;
•AI 不再解析 HTML,而是网站直接提供 AI 可读的结构化接口。
这样看来,AI 用计算机的方式,可能比人类用计算机更高效、更直接,甚至会 反过来影响人类设计计算机的方式。
- 人与 AI 的交互媒介,会不会走向 Neuralink?
如果 AI 直接操作计算机,我们人类和 AI 之间的交互方式会如何进化?今天我们用鼠标、键盘、触摸屏、语音输入,但这些交互方式都太慢了。
人与 AI 之间的交互带宽,才是瓶颈。
•语音交互的带宽 远低于 AI 直接 API 操作;
•文字输入速度 远慢于 AI 解析网页结构;
•触摸屏、鼠标、手写笔,甚至脑机接口(Neuralink),在人与 AI 交互时,都会显得笨拙。
最终,人与 AI 的交互可能变成:
1.思维级别的交互(Brain-Computer Interface):Neuralink 只是一个开始,人类或许需要直接用大脑控制 AI。
2.意图级别的交互(Intent-Based UI):未来可能不再有传统的 GUI,而是 AI 直接解析你的意图,然后执行。
3.共享思维空间(Cognitive Co-Pilot):人与 AI 共同构建 思维模型,不再是 AI “听从” 你的指令,而是 AI 预判 你的需求,甚至和你共同决策。
这也意味着:
•传统的 鼠标、键盘、触摸屏,可能最终都只是辅助交互工具,人类不再直接“操作”计算机,而是通过 AI 间接 控制。
•未来的 AI 不再是工具,而是伙伴,你不再“点击按钮”,而是 AI 和你一起思考,直接实现目标。
这不仅仅是人机交互的进化,更可能是 人类认知方式的变革。许多白领岗位的核心技能可能会快速失去价值。
AI 直接操作计算机,意味着 人类进入“AI 中介化”时代,未来可能:
•你不再自己“用”软件,而是 AI 代替你用。
•AI 甚至会 雇佣其他 AI,形成 去人类化的经济活动。
-
(我提供了主要大纲, GPT4o 润色写成)