文 | 世界模型工厂
OpenAI 终于开始碰手机了。
据天风国际证券分析师郭明錤爆料,OpenAI 正在与联发科和高通合作开发智能手机处理器,立讯将作为独家系统协同设计与制造商,预计 2028 年实现量产。
这很容易被理解成一个熟悉的故事:
OpenAI 要挑战苹果,AI 手机要来了,下一个 iPhone 时刻即将发生。
但事实真的如此吗?
郭明錤同步放出了一张自己制作的 OpenAI 手机概念设计图:
没有密集的 App 矩阵,没有熟悉的输入法区域,甚至那块屏幕本身都在极力收缩存在感。
它长着手机的样子,却在每一个设计细节上否定手机。
所以,这究竟是一款创新的 AI 手机,还是对后手机时代的宣战?

AI 交互与手机形态的冲突
把 OpenAI 这款设备称作 AI 手机,其实是一个自相矛盾的命名。
手机的本质是应用分发终端。
它的核心交互模型二十年来没有变过:解锁屏幕,找到目标应用点击,然后在应用内部完成操作。
这套体系的基石,是应用的隔离。
每一个 App 都是一座护城河完备的孤岛,数据不通,逻辑独立,需要用户亲自担任搬运工和调度员。
而大模型驱动的 AI,追求的是截然相反的东西:意图直达结果。
你说"帮我订一张明天去上海的机票,靠窗,下午到",系统直接完成。
不需要你打开携程、输入日期、滑动比价、勾选保险。
AI 的有效交互,天然需要打破应用边界,直接触达底层数据和功能。
冲突就此出现了。
手机的操作系统,无论是 iOS 还是 Android,都是为了把应用关在笼子里而设计的。
而 AI 要做的第一件事,就是打开笼子。
这不是一个用 AI 增强版手机就能解决的矛盾。
就在这两天,OpenAI CEO Sam Altman 在 X 上发布了一条帖子:
「现在似乎是时候认真重新思考操作系统和用户界面的设计方式了 (互联网也是如此;应该有一个对人和 agent 都同样适用的协议)」。
这至少说明,OpenAI 内部也在思考 AI 时代的入口和形态问题。
那么,OpenAI 这次要做的到底是什么?

AI 时代杀死手机
要回答这个问题,就要先看看 AI 时代的硬件形态会是怎样的。
电子设备的进化,从来不只是性能的进化,它还有一条更隐蔽的线:
一直在向人的身体靠近。
1940 年代,人与计算机的交互界面,是一个需要专门房间、专门团队、专门冷却系统的大型机柜。
你需要穿戴整齐走到它面前,它离你几十米。
1980 年代,个人电脑把算力塞进桌面机箱。
屏幕离你半米,键盘需要双手操作,但至少它进了你的书房。
1990 到 2000 年代,笔记本将这套设备,折叠进一个可以放在膝盖上的薄壳,距离缩短到一把椅子的范围。
2007 年 iPhone 之后,屏幕第一次被塞进口袋,掏出来就能交互。
这个掏出来的动作,意味着从产生念头到开始操作,物理延迟被压缩到了两秒以内。
手机能成为人类历史上最普及的计算终端,不是因为它的屏幕够好,而是因为它比任何前任都更贴身。
但两秒仍然是延迟。
两秒意味着你需要中断正在做的事,腾出一只手,把设备从口袋拿到视线前方。
对于意图直达结果这个目标来说,两秒太慢了。
理想的交互,是意图产生的同时,执行就已经启动,反馈就已经送达。
这要求设备不能再停留在口袋里,它需要进入视野的边缘,进入耳道的常驻区,甚至最终进入身体本身。
所以,手机不会是这个演化序列的终点。
OpenAI 这次的硬件,从概念图来看,显然意识到了这个问题。
整张设计图没有一个地方,在鼓励用户长时间盯着屏幕。
没有应用图标,没有输入法常驻区,只有一个任务清单和四个模块 (Home、Actions、Memory、Inbox)。
它的意图很明确,不要让用户的手和眼一直黏在设备上。
这和一个手机厂商优化屏占比的逻辑是相反的。
手机追求的是让你看更多,OpenAI 追求的是让你少看、甚至不看。
与其说 OpenAI 在做新手机,不如说它在用手机的外壳,做一件杀死手机的事。
从商业叙事上看,这更像是一次上市前的概念路演,抢占定义权,先立起一面 「AI 原生设备」 的旗帜。
至于最终是不是真的要卖、能卖多少台,反而没那么重要了。
下一代 AI 硬件形态
如果手机不是 AI 时代的终极硬件,那什么才是?
这个问题现在还没有标准答案。
它可能是眼镜,可能是耳机,可能是戒指,可能是手表,甚至可能是身体植入设备。
但有一点已经很清楚:下一代 AI 硬件,不应该再以屏幕为中心。
屏幕是智能手机时代最伟大的发明之一。
它把应用、内容、社交、游戏、购物、支付全部压缩进一块屏幕,但它也把我们的想象力锁在这块屏幕里。
AI 最重要的能力,不是把更多内容塞进屏幕,而是理解人的意图,完成一个任务。
当机器开始理解目标了,屏幕的重要性就会下降。它更像确认层、反馈层、展示层,而不是任务入口本身。
所以,真正适合 AI 的硬件,首先应该是一个感知入口。
它要能听见你说什么,能看见你看见什么,理解你此刻的场景,判断你接下来想做什么,在必要时才把结果推回给你。
从这个标准看,眼镜、耳机、手表,甚至车和家庭设备,都比传统手机更接近 AI 硬件的方向。
比如,耳机适合语音,眼镜适合视觉和空间,手表适合身体状态和快速确认,车适合移动场景,家庭设备适合环境感知。
从硬件尽可能接近人体的发展路径看,眼镜、耳机、甚至未来的植入,也比手机更接近未来的 AI 设备形态。
这也是为什么,Meta 在推 AI 眼镜,亚马逊继续升级 Alexa 和 Echo,Google 重启眼镜和 XR 叙事,苹果则围绕 Vision Pro、AirPods、Watch 和 Apple Intelligence 寻找新的入口组合。
连 OpenAI 自己也不只在做手机。OpenAI 硬件团队曾被报道,在探索智能音箱、耳机、眼镜、智能灯、AI 笔 (口袋设备) 等方向。
换句话说,大厂们都在探索手机之外的 AI 硬件形态。
App 帝国的消融
一旦手机屏幕退场,会直接引发一个更深层的变化:
建立在图标之上的 App 体系,也随之崩塌。
APP 分发从用户选择变成了 AI 调度,变成了谁能在用户表达意图的那一秒被 Agent 选中。
一旦逻辑变了,应用商店的分发逻辑、通知系统的优先级、支付和授权的入口、数据权限的边界、平台和服务商之间的关系都会变。
这也是为什么 OpenAI 做手机,不能只看成硬件故事。
如果它只是造一台手机,那它面对的是苹果、三星、华为、小米。
但如果它想让 Agent 成为用户和 App 之间的新入口,那它真正挑战的,是整个移动互联网的前台秩序。
过去十几年,所有互联网公司都想成为超级 App,让用户不离开它,商业闭环就成立。
但 AI 时代,谁被 Agent 调用,谁就有生意;谁不被 Agent 调用,就可能被用户遗忘。
所以,OpenAI 做手机,表面是硬件,底层是入口。
AI 手机可以失败,第一代硬件可以不好用,OpenAI 甚至未必能做出一台真正流行的设备。
但只要 Agent 入口这个方向成立,移动互联网的权力结构就会被重新分配。
苹果靠 App Store 分成的帝国,谷歌靠应用生态绑定的广告体系,都会在这个趋势下面临重新定义。
AI 硬件交互新范式
不管未来 AI 设备长什么样,真正自然的交互都不会再围绕屏幕展开,那么下一个问题自然浮现:
人用什么方式来发出指令、接收结果?
答案正在收敛到一个双向结构上:语音/手势+ Agent。
语音负责表达意图,手势负责快速确认,Agent 负责拆解和执行任务。
简单来说,前端挣脱屏幕,后端 Agent 干活。
一旦这个结构成立,AI 硬件的交互方式就会被重新定义。
AI 时代的设备,可能不再是一个中心化终端,而是一组围绕人的感知节点。
耳机听,眼镜看,手表感知身体,手机负责身份、算力、支付和确认,Agent 在它们背后贯穿任务流。
这不是科幻式的想象,而是交互逻辑的自然演进。
键盘适合输入精确信息,屏幕适合展示复杂结果,语音适合表达意图,手势适合快速确认,Agent 适合处理过程。
这或许才是 AI 硬件真正的新范式。
















