36氪深度文章 · 站内详情

别再碰瓷100 亿美元“身价”的世界模型了，李飞飞这次手把手教你分辨

2026/6/5 13:53:39 · 模型更新 / 研究 / 国内 AI

“世界模型”是当今 AI 领域中最重要、同时也最被过度使用的术语之一。

来源: 36氪深度文章
时间: 2026/6/5 13:53:39
标签: 模型更新 / 研究 / 国内 AI
分类: 具身智能与世界模型

正文

在过去 18 个月里，超过 100 亿美元资金流入了世界模型与机器人 AI 公司中。一个值得注意的规律是，使用世界模型的公司所获得的融资规模，甚至超过了专门构建世界模型本身的公司。

毋庸置疑的是，世界模型火了。但其实际概念一直众说纷纭，让人摸不着头脑。

今早，李飞飞和 World Labs 团队发表了一篇主题为《世界模型的功能性分类》的长文。她直言，“世界模型”成为当今 AI 领域中最重要、同时也最被过度使用的术语之一。上个月，MoE Capital 的 Henry Yin 和 Naomi Xia 也在博客中表示，大多数被冠以“世界模型”之名的东西根本不是真正的世界模型。

在这个当下，李飞飞这篇文章提供了一种难得的清晰框架，通过引入强化学习中的经典结构，完整解释了“世界模型”的定义，将当前纷繁复杂的生成模型、物理模拟系统与具身智能方法，从功能上划分为“渲染器、模拟器与规划器”三类世界模型。

对于正处于路线分化与资本竞逐中的 AI 产业而言，这不仅是一种技术分类，更像是一份关于未来主导权的路线图。在这一划分下，原本独立的不同技术路径首次被置于统一坐标系中比较。李飞飞同时指出，三者正在开始彼此融合：“当它们的边界消失时，它们将共同重塑更宏大的东西：机器智能与其所处物理世界之间的关系，这是空间智能的长期演进轨迹。”

而在她看来，“终点是一个统一的世界模型：一个基础模型，既能渲染照片级真实视图，又能生成物理准确的结构，还能规划行动序列，并根据下游需求在不同输出模式之间切换。”

她在文末点出，“语言让机器能够谈论世界。而世界模型，将让机器最终能够理解、想象、推理并与世界互动。”其背后隐含的判断也相当明确：真正决定下一阶段 AI 上限的，不是更会“说话”的模型，而是更接近物理真实的“模拟能力”。

以下是原文内容编译，我们在不改变原意的基础上进行了编辑。

世界不是由语言构成的

在此前的一篇文章中，我们曾论证，空间智能是人工智能的下一个前沿，而世界模型是通往这一目标的路径。在这里，World Labs 团队和我希望再深入一层：在如今被构建并被称为“世界模型”的众多事物中，究竟哪些功能性组件真正构成了这种能力，以及每一部分分别用于什么？

语言模型赋予机器对概念、词汇和推理的非凡掌控能力，但无论是虚拟世界还是真实世界，物理世界运行在一种完全不同的底层结构之上。语言模型学习的是文本的统计结构，而世界模型学习的是时空的统计结构：光如何落在表面上，一个花园从从未被相机捕捉过的角度看起来如何，物体如何对力作出反应并遵循物理定律。

这使得“世界模型”成为当今 AI 领域中最重要、同时也最被过度使用的术语之一。计算机视觉、机器人学、强化学习和生成式 AI 都声称在构建世界模型，但各自指代的却是完全不同的东西。一个能够生成华丽但物理上不可能火焰的视频模型，一个即兴生成可玩游戏的语言模型，以及一个忠实模拟燃烧过程的物理引擎，都会被称为同一个名字。

古希腊人从未就世界由什么构成达成一致，是火、水还是不可分割的原子，因为“世界”从来就不是一个单一事物。它始终只是一个替代性概念，用来指代某个思想家需要进行推理的整体。AI 在此刻继承了同样的问题，而此时这个领域恰恰最需要精确性。

要理清这种混乱，可以从一个比上述任何技术都更古老的图式开始。强化学习教材包括 Sutton 和 Barto 的经典著作，几十年来一直使用类似的图来描述智能体如何与世界交互。这个图的正式名称是“部分可观测马尔可夫决策过程”（POMDP），而“世界模型”这一术语最初正源于这一传统。

一个智能体可以是人、机器人或软件系统，来采取行动。这些行动会影响世界的状态。智能体永远无法直接看到状态。它所接收到的是观测：落在视网膜上的光子、传感器的读数、视频帧中的像素。新的观测会引导新的行动，如此循环往复。

“状态”这个词需要展开说明，因为它在不同领域中的含义会有所变化。这里指的不是化学中的状态（固态、液态、气态），而是物理学和机器人学中的状态：在某一时刻对世界正在发生的一切的完整描述，包括每一个物体、每一个位置、每一个速度、每一个属性。状态是世界的底层现实；在原则上是完整的，但对其中的任何智能体而言都不可直接观察。观测是智能体对这一现实的部分视图。行动是智能体对此作出的响应。

这个循环从智能体到行动到状态、再到观测，然后回到智能体，构成了现代“世界模型”这一术语的结构基础。这个短语本身更早，可以追溯到 Kenneth Craik 在 1943 年提出的观点：心智通过运行现实的“小规模模型”来进行推理；这一思想在 1980 年代末到 1990 年代初被引入神经网络领域。这个循环也解释了人们今天如何使用这一术语：如今被称为世界模型的不同事物，其实是这个循环的不同投影，每一种输出其中的不同部分。

世界模型的三类功能

来源说明

本站展示来自正式来源同步的内容摘录与本地观察，不默认跳转外网；需要核验上下文时可查看来源记录。