首页> 新闻>  正文
智源押注世界模型,AI竞争进入物理世界
来源:赛迪网     作者:金烨 2026-06-16 18:39:33
微信分享二维码

扫码分享到微信

关闭

【赛迪网讯】2026北京智源大会上,“世界模型”成为人工智能前沿讨论中的高频词。智源研究院将过去一年的研究进展集中在基座大模型、智能体和基础软硬件生态三个方向,并在大会上系统梳理了世界模型的发展历程、技术分类以及正在研发中的悟界·Physis-v0.1。

对智源而言,世界模型并不是一个孤立概念,而是其从“悟道”系列大模型走向“悟界”系列大模型之后,对AI下一阶段演进方向的判断:人工智能正在从数字世界迈向物理世界。

智源研究院院长王仲远在采访中将这一变化概括为从“Next Token Prediction”走向“Next Physical State Prediction”。他表示,大语言模型的核心是预测下一个Token,而世界模型的核心则是预测下一个物理状态。过去,大语言模型主要处理文字,多模态模型进一步引入图像、音频、视频和脑信号等模态;接下来,AI需要面对的是真实物理空间中的时间、空间、物理规律和物理常识。这也是智源提出“悟界”系列大模型的核心背景,即解决AI从数字世界走向物理世界的关键能力问题。

王仲远同时提醒,世界模型虽然在近一年迅速升温,但并不是一个全新的概念,也不是所有视频生成、3D重建或VLA模型都能被简单等同为世界模型。在他的梳理中,现有世界模型技术路线大致可以分为四类:第一类是以语言为中心的世界模型,包括大语言模型、VLM、VLA等,它们主要把其他模态映射到语言空间;第二类是以像素为中心的世界模型,典型代表是视频生成模型,本质上是在视觉空间中学习图像或视频变化;第三类是以三维结构为中心的世界模型,包括3D重建等方向;第四类是以视觉表征为中心的世界模型。王仲远认为,这些技术路线都与世界模型有关,但距离真正面向物理世界的基座模型仍有较大距离。

因此,智源此次更强调“正本清源”,世界模型的关键不只是生成看起来真实的视频,也不只是重建三维空间,而是要能够感知、理解、推理真实物理世界,并对下一步物理状态作出预测。智源认为世界模型作为面向真实物理世界的下一代基座模型,应以“预测下一物理状态”为核心,涵盖文本、视频、深度、力觉、感知等全模态数据,并具备主动交互能力,以支撑真实物理世界中的下游应用。

围绕这一方向,智源推出被定位为通用世界基座模型的悟界·Physis-v0.1,目标是通过统一物理状态学习,实现物理正确、动作因果可溯、长程一致和通用泛化。其技术思路不是单纯做像素级或帧级预测,而是尝试以物理隐空间表征替代传统预测方案,将视频、深度RGB、3D点云、力触反馈等多模态信息压缩为标准化的隐空间物理状态。王仲远在采访中也表示,悟界·Physis目前仍是0.1版本,处于正在研发阶段,智源会持续向行业分享训练进展,并在训练完成后坚持开源开放。

这也说明,世界模型仍处于早期阶段。王仲远坦言,目前行业在世界模型的定义、训练方法、数据来源和评测体系上都还没有完全达成共识。尤其是评测问题,当前不少世界模型评测仍偏向视频生成质量,但这并不能代表未来世界模型作为基座模型的核心能力。智源接下来也计划围绕“下一个物理状态预测”提出更系统的评测框架。对于训练数据,他认为真实物理世界数据仍然缺乏,合成数据可以使用,但传统仿真、游戏引擎等方式并不能百分之百还原真实世界,因此仍需要探索大数据和大模型结合的新路径。

智源研究院理事长黄铁军则从具身智能角度,解释了世界模型的重要性。他表示,企业使用VLA或VLM在制造、搬运等明确场景中快速落地是可行的,但从研究机构角度看,若希望具身智能通用化,让机器人像人一样在不同场景中解决问题,就需要一个能够掌握世界规律的模型。黄铁军将其类比为人脑中的“小宇宙”,人之所以能行动,是因为人对世界有自己的内部模型,机器人也需要类似的世界模型作为基本判断依据。

在数据来源问题上,黄铁军强调,世界模型需要的数据不应只理解为离线、静态的数据集,而应扩展为“生物与环境交互过程中获得的信息”。他举例说,踢球、弹琴、游泳等行为都需要实时感知环境并调整内部模型,因此在世界模型和具身智能阶段,实时性、交互性数据会越来越重要。相比专门建设高成本的数据工厂,他认为更合理的方式是“边工作边采集”,例如工人佩戴设备正常工作,数据同步完成;或通过耳机、智能眼镜等可穿戴设备,在用户获得智能体服务的同时采集第一视角数据。

黄铁军还谈到,严格来说,游戏、视频生成等纯数字模型并不是真正意义上的世界模型,因为它们不需要承担物理正确性的约束。真正的世界模型必须具备多传感器输入,包括视觉、听觉、触觉等,并在尽可能多的物理输入基础上,对未来一段时间作出较准确的推测。正因如此,世界模型与具身智能、机器人、可穿戴设备、自动驾驶等方向存在天然关联。

从智源的整体布局看,世界模型并非单点技术发布,而是与其“悟界”系列模型、智能体和开源生态相互连接。悟界·Emu3.5实现了文本、图像、视频的统一学习;悟界·Brainμ1.0将Next Token Prediction范式拓展到神经科学领域;悟界·OpenComplex2.5面向AI药物发现;悟界·RoboBrain Orca则以预测下一个物理状态为核心构建具身大脑,服务于机器人在真实环境中的感知、预测与行动。

智源押注世界模型,本质上是在回答AI下一阶段往哪里走的问题。当大语言模型和多模态模型逐渐成熟,AI竞争将不再只是比谁能生成更流畅的文字、更逼真的图像和视频,而是要比谁能更好地理解真实世界、预测物理状态、参与现实交互。智源正在试图把AI竞争的坐标,从数字世界进一步推向物理世界。(文/金烨)

爱立信Ericsson Forum路演中国首站启动

爱立信Ericsson Forum路演中国首站启幕。活动集结爱立信全球技术专家、三大运营商及产业链伙伴,聚焦 AI …

昨天

8000万词元+全套AI研发工具,国家超算互联网开启618大促

国家超算互联网开启618"智'惠'开发季"大促活动,主打福利为Token Plan特惠订阅套餐,包月订阅价低至9.9元…

6小时前
你可能也喜欢这些文章