智源押注世界模型，AI竞争进入物理世界-赛迪网 - 集科技期刊、产业信息资讯、网络新媒体、视频新媒体于一体的融媒体智能化传播平台

首页> 新闻> 正文

智源押注世界模型，AI竞争进入物理世界

来源：赛迪网作者：金烨 2026-06-16 18:39:33

【赛迪网讯】2026北京智源大会上，“世界模型”成为人工智能前沿讨论中的高频词。智源研究院将过去一年的研究进展集中在基座大模型、智能体和基础软硬件生态三个方向，并在大会上系统梳理了世界模型的发展历程、技术分类以及正在研发中的悟界·Physis-v0.1。

对智源而言，世界模型并不是一个孤立概念，而是其从“悟道”系列大模型走向“悟界”系列大模型之后，对AI下一阶段演进方向的判断：人工智能正在从数字世界迈向物理世界。

智源研究院院长王仲远在采访中将这一变化概括为从“Next Token Prediction”走向“Next Physical State Prediction”。他表示，大语言模型的核心是预测下一个Token，而世界模型的核心则是预测下一个物理状态。过去，大语言模型主要处理文字，多模态模型进一步引入图像、音频、视频和脑信号等模态；接下来，AI需要面对的是真实物理空间中的时间、空间、物理规律和物理常识。这也是智源提出“悟界”系列大模型的核心背景，即解决AI从数字世界走向物理世界的关键能力问题。

王仲远同时提醒，世界模型虽然在近一年迅速升温，但并不是一个全新的概念，也不是所有视频生成、3D重建或VLA模型都能被简单等同为世界模型。在他的梳理中，现有世界模型技术路线大致可以分为四类：第一类是以语言为中心的世界模型，包括大语言模型、VLM、VLA等，它们主要把其他模态映射到语言空间；第二类是以像素为中心的世界模型，典型代表是视频生成模型，本质上是在视觉空间中学习图像或视频变化；第三类是以三维结构为中心的世界模型，包括3D重建等方向；第四类是以视觉表征为中心的世界模型。王仲远认为，这些技术路线都与世界模型有关，但距离真正面向物理世界的基座模型仍有较大距离。

因此，智源此次更强调“正本清源”，世界模型的关键不只是生成看起来真实的视频，也不只是重建三维空间，而是要能够感知、理解、推理真实物理世界，并对下一步物理状态作出预测。智源认为世界模型作为面向真实物理世界的下一代基座模型，应以“预测下一物理状态”为核心，涵盖文本、视频、深度、力觉、感知等全模态数据，并具备主动交互能力，以支撑真实物理世界中的下游应用。

围绕这一方向，智源推出被定位为通用世界基座模型的悟界·Physis-v0.1，目标是通过统一物理状态学习，实现物理正确、动作因果可溯、长程一致和通用泛化。其技术思路不是单纯做像素级或帧级预测，而是尝试以物理隐空间表征替代传统预测方案，将视频、深度RGB、3D点云、力触反馈等多模态信息压缩为标准化的隐空间物理状态。王仲远在采访中也表示，悟界·Physis目前仍是0.1版本，处于正在研发阶段，智源会持续向行业分享训练进展，并在训练完成后坚持开源开放。

这也说明，世界模型仍处于早期阶段。王仲远坦言，目前行业在世界模型的定义、训练方法、数据来源和评测体系上都还没有完全达成共识。尤其是评测问题，当前不少世界模型评测仍偏向视频生成质量，但这并不能代表未来世界模型作为基座模型的核心能力。智源接下来也计划围绕“下一个物理状态预测”提出更系统的评测框架。对于训练数据，他认为真实物理世界数据仍然缺乏，合成数据可以使用，但传统仿真、游戏引擎等方式并不能百分之百还原真实世界，因此仍需要探索大数据和大模型结合的新路径。

智源研究院理事长黄铁军则从具身智能角度，解释了世界模型的重要性。他表示，企业使用VLA或VLM在制造、搬运等明确场景中快速落地是可行的，但从研究机构角度看，若希望具身智能通用化，让机器人像人一样在不同场景中解决问题，就需要一个能够掌握世界规律的模型。黄铁军将其类比为人脑中的“小宇宙”，人之所以能行动，是因为人对世界有自己的内部模型，机器人也需要类似的世界模型作为基本判断依据。

在数据来源问题上，黄铁军强调，世界模型需要的数据不应只理解为离线、静态的数据集，而应扩展为“生物与环境交互过程中获得的信息”。他举例说，踢球、弹琴、游泳等行为都需要实时感知环境并调整内部模型，因此在世界模型和具身智能阶段，实时性、交互性数据会越来越重要。相比专门建设高成本的数据工厂，他认为更合理的方式是“边工作边采集”，例如工人佩戴设备正常工作，数据同步完成；或通过耳机、智能眼镜等可穿戴设备，在用户获得智能体服务的同时采集第一视角数据。

黄铁军还谈到，严格来说，游戏、视频生成等纯数字模型并不是真正意义上的世界模型，因为它们不需要承担物理正确性的约束。真正的世界模型必须具备多传感器输入，包括视觉、听觉、触觉等，并在尽可能多的物理输入基础上，对未来一段时间作出较准确的推测。正因如此，世界模型与具身智能、机器人、可穿戴设备、自动驾驶等方向存在天然关联。

从智源的整体布局看，世界模型并非单点技术发布，而是与其“悟界”系列模型、智能体和开源生态相互连接。悟界·Emu3.5实现了文本、图像、视频的统一学习；悟界·Brainμ1.0将Next Token Prediction范式拓展到神经科学领域；悟界·OpenComplex2.5面向AI药物发现；悟界·RoboBrain Orca则以预测下一个物理状态为核心构建具身大脑，服务于机器人在真实环境中的感知、预测与行动。

智源押注世界模型，本质上是在回答AI下一阶段往哪里走的问题。当大语言模型和多模态模型逐渐成熟，AI竞争将不再只是比谁能生成更流畅的文字、更逼真的图像和视频，而是要比谁能更好地理解真实世界、预测物理状态、参与现实交互。智源正在试图把AI竞争的坐标，从数字世界进一步推向物理世界。（文/金烨）

爱立信Ericsson Forum路演中国首站启动

爱立信Ericsson Forum路演中国首站启幕。活动集结爱立信全球技术专家、三大运营商及产业链伙伴，聚焦 AI …

昨天

8000万词元+全套AI研发工具，国家超算互联网开启618大促

国家超算互联网开启618"智'惠'开发季"大促活动，主打福利为Token Plan特惠订阅套餐，包月订阅价低至9.9元…

6小时前

你可能也喜欢这些文章