36氪深度文章 · 站内详情
别再碰瓷100 亿美元“身价”的世界模型了,李飞飞这次手把手教你分辨
“世界模型”是当今 AI 领域中最重要、同时也最被过度使用的术语之一。
- 来源
- 36氪深度文章
- 时间
- 2026/6/5 13:53:39
- 标签
- 模型更新 / 研究 / 国内 AI
- 分类
- 具身智能与世界模型
正文
在过去 18 个月里,超过 100 亿美元资金流入了世界模型与机器人 AI 公司中。一个值得注意的规律是,使用世界模型的公司所获得的融资规模,甚至超过了专门构建世界模型本身的公司。
毋庸置疑的是,世界模型火了。但其实际概念一直众说纷纭,让人摸不着头脑。
今早,李飞飞和 World Labs 团队发表了一篇主题为《世界模型的功能性分类》的长文。她直言,“世界模型”成为当今 AI 领域中最重要、同时也最被过度使用的术语之一。上个月,MoE Capital 的 Henry Yin 和 Naomi Xia 也在博客中表示,大多数被冠以“世界模型”之名的东西根本不是真正的世界模型。
在这个当下,李飞飞这篇文章提供了一种难得的清晰框架,通过引入强化学习中的经典结构,完整解释了“世界模型”的定义,将当前纷繁复杂的生成模型、物理模拟系统与具身智能方法,从功能上划分为“渲染器、模拟器与规划器”三类世界模型。
对于正处于路线分化与资本竞逐中的 AI 产业而言,这不仅是一种技术分类,更像是一份关于未来主导权的路线图。在这一划分下,原本独立的不同技术路径首次被置于统一坐标系中比较。李飞飞同时指出,三者正在开始彼此融合:“当它们的边界消失时,它们将共同重塑更宏大的东西:机器智能与其所处物理世界之间的关系,这是空间智能的长期演进轨迹。”
而在她看来,“终点是一个统一的世界模型:一个基础模型,既能渲染照片级真实视图,又能生成物理准确的结构,还能规划行动序列,并根据下游需求在不同输出模式之间切换。”
她在文末点出,“语言让机器能够谈论世界。而世界模型,将让机器最终能够理解、想象、推理并与世界互动。”其背后隐含的判断也相当明确:真正决定下一阶段 AI 上限的,不是更会“说话”的模型,而是更接近物理真实的“模拟能力”。
以下是原文内容编译,我们在不改变原意的基础上进行了编辑。
世界不是由语言构成的
在此前的一篇文章中,我们曾论证,空间智能是人工智能的下一个前沿,而世界模型是通往这一目标的路径。在这里,World Labs 团队和我希望再深入一层:在如今被构建并被称为“世界模型”的众多事物中,究竟哪些功能性组件真正构成了这种能力,以及每一部分分别用于什么?
语言模型赋予机器对概念、词汇和推理的非凡掌控能力,但无论是虚拟世界还是真实世界,物理世界运行在一种完全不同的底层结构之上。语言模型学习的是文本的统计结构,而世界模型学习的是时空的统计结构:光如何落在表面上,一个花园从从未被相机捕捉过的角度看起来如何,物体如何对力作出反应并遵循物理定律。
这使得“世界模型”成为当今 AI 领域中最重要、同时也最被过度使用的术语之一。计算机视觉、机器人学、强化学习和生成式 AI 都声称在构建世界模型,但各自指代的却是完全不同的东西。一个能够生成华丽但物理上不可能火焰的视频模型,一个即兴生成可玩游戏的语言模型,以及一个忠实模拟燃烧过程的物理引擎,都会被称为同一个名字。
古希腊人从未就世界由什么构成达成一致,是火、水还是不可分割的原子,因为“世界”从来就不是一个单一事物。它始终只是一个替代性概念,用来指代某个思想家需要进行推理的整体。AI 在此刻继承了同样的问题,而此时这个领域恰恰最需要精确性。
要理清这种混乱,可以从一个比上述任何技术都更古老的图式开始。强化学习教材包括 Sutton 和 Barto 的经典著作,几十年来一直使用类似的图来描述智能体如何与世界交互。这个图的正式名称是“部分可观测马尔可夫决策过程”(POMDP),而“世界模型”这一术语最初正源于这一传统。
一个智能体可以是人、机器人或软件系统,来采取行动。这些行动会影响世界的状态。智能体永远无法直接看到状态。它所接收到的是观测:落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测会引导新的行动,如此循环往复。
“状态”这个词需要展开说明,因为它在不同领域中的含义会有所变化。这里指的不是化学中的状态(固态、液态、气态),而是物理学和机器人学中的状态:在某一时刻对世界正在发生的一切的完整描述,包括每一个物体、每一个位置、每一个速度、每一个属性。状态是世界的底层现实;在原则上是完整的,但对其中的任何智能体而言都不可直接观察。观测是智能体对这一现实的部分视图。行动是智能体对此作出的响应。
这个循环从智能体到行动到状态、再到观测,然后回到智能体,构成了现代“世界模型”这一术语的结构基础。这个短语本身更早,可以追溯到 Kenneth Craik 在 1943 年提出的观点:心智通过运行现实的“小规模模型”来进行推理;这一思想在 1980 年代末到 1990 年代初被引入神经网络领域。这个循环也解释了人们今天如何使用这一术语:如今被称为世界模型的不同事物,其实是这个循环的不同投影,每一种输出其中的不同部分。
世界模型的三类功能
来源说明
本站展示来自正式来源同步的内容摘录与本地观察,不默认跳转外网;需要核验上下文时可查看来源记录。