扫码分享到微信
2026年4月16日,阿里巴巴发布开放式世界模型 Happy Oyster;4月17日,腾讯开源3D世界模型 HY-World 2.0。两家中国互联网巨头几乎在同一时间宣示了自己在世界模型赛道上的存在感。
但这只是冰山一角。更早前的2026年3月,图灵奖得主 Yann LeCun 离开Meta创立AMI公司,仅凭一份PPT和愿景就拿下了10.3亿美元的种子轮融资;几乎同一时间,李飞飞的World Labs完成10亿美元融资,估值直逼50亿美元。
资本疯狂涌入,巨头全线入局,一个响亮的口号迅速传遍行业:世界模型是大语言模型之后最重要的赛道。但如果你真的去问这些玩家"世界模型到底是什么",很可能会得到一堆彼此矛盾的回答。有人说是"可交互的3D世界",有人说是"理解物理规律的因果模型",有人说是"机器人训练的数字仿真器",还有人干脆说"就是更高级的视频生成"。
这不是学术讨论的分歧,而是整个赛道正在经历的认知混乱,也是一场关乎AI未来走向的终极对赌。
为什么突然All in世界模型
要理解这场大战,得先回到大语言模型的一个尴尬事实。过去两年,ChatGPT们展示了惊人的语言能力,但也暴露了一个致命短板:它们不懂物理世界。你问一个LLM"把杯子从桌子边缘推下去会怎样",它能回答"杯子会掉到地上",却并不能真正理解重力、加速度、碰撞,它只是从训练数据中记住了类似的句子。
这个缺陷在纯文本任务中或许可以忍受,但当AI要进入真实世界——操控机器人、驾驶汽车、在工厂里作业——它就变成了一个无法绕过的坎。你不能让一个自动驾驶模型"大概正确"地判断前方障碍物,也不能让一个工业机器人"差不多"地预测零件运动轨迹。
于是,一个更根本的需求浮出水面:我们需要一个能理解物理世界因果律的AI。它不只要能说,还要能做;不只要看见,还要能预判。这就是世界模型被推到聚光灯下的根本原因。大语言模型改变了人和信息的关系,而世界模型要改变的,是人和现实的关系。
但有趣的是,在同一个热词下,中国和美国厂商的打法截然不同。美国那边,DeepMind、World Labs、AMI Labs更像是在做基础科学。他们关心的是如何让AI拥有像人类一样的物理直觉和因果推理能力,商业化是远期目标。Yann LeCun自己都承认,AMI的产品可能要几年后才能看到。
中国则是另一番景象。阿里和腾讯几乎在发布模型的同时就绑定了商业场景:Happy Oyster瞄准影视制作和游戏开发的付费用户,HY-World 2.0直接输出可导入Unity/UE的3D资产,做起了"AI造世界"的生意。还有Sand.ai的VidMuse,围绕音乐生成视频这个细分场景,上线几个月就做到了千万美元级别的年收入。
中国团队的逻辑很务实:世界模型首先得是一个能赚钱的产品。这两种路线没有高下之分,但决定了各自的节奏和风险。美国团队敢于押注十年后的突破,中国团队则必须在一年内看到回报。
三大技术路线的本质分歧
在世界模型这个看似统一的赛道下,实际上正在进行着三种截然不同的技术赌注,它们在表征方式、预测目标、应用场景上存在显著差异。
视频生成流派以OpenAI Sora与Google Genie为代表,核心逻辑是把世界当成一种特殊的"语言"来学。它们使用Diffusion和Transformer架构,将视频帧切分成视觉Token,像预测下一个单词一样预测下一帧画面。优点在于视觉效果震撼,生成的视频逼真度极高,能捕捉复杂的时空关联。但缺点也致命:算力黑洞。为了生成每一像素的细节,需要消耗天量算力。更重要的是,这种模型容易陷入"像素级拟合",看起来很像那么回事,但底层逻辑可能并不符合物理规律,比如吃了一口的汉堡又复原了。批评家称这为"只是在做高级的幻觉"。
JEPA派由Meta首席科学家Yann LeCun亲自下场带领,是目前最"反主流"的一派。LeCun公开炮轰Sora是死胡同,他认为AI不应该去预测像素,而应该去预测"抽象概念"。JEPA(联合嵌入预测架构)的核心思想是:放弃无关紧要的细节,比如树叶的摆动,专注于核心变量的变化,比如风的方向。它在抽象的特征空间里做预测,而不是在像素空间。这种架构的优势在于极其高效。因为不需要重建每一个像素,算力消耗大幅降低,且更擅长捕捉物理逻辑和因果关系。但劣势也很明显:不直观。因为它不生成具体的画面,用户很难直接看到AI"想"了什么,目前主要还在实验室验证阶段。
3D空间智能派以李飞飞的World Labs为代表,认为既然真实世界是三维的,AI就必须显式地理解三维结构。World Labs推出的Marble模型,输入一张照片或一段文字,输出的不是一个视频,而是一个可编辑、可交互的3D世界。其核心在于利用NeRF和高斯溅射技术,构建可测量的3D场景。这对于机器人和自动驾驶至关重要。机器人需要知道"桌子有多高"、"球在什么位置",而不仅仅是"球滚下来了"。不过,这条路的挑战在于3D数据极其稀缺且昂贵,训练成本是2D模型的数倍。
这三种路线并非简单的技术分歧,而是对未来AI形态的哲学博弈。视频生成派赌的是"足够多的数据和算力就能涌现出物理理解";JEPA派赌的是"人类认知的本质是抽象推理而非像素拟合";3D空间智能派赌的是"真实世界的三维结构必须显式建模"。目前来看,三条路线都没有明显的收敛趋势,各自都在自己的逻辑上推进。
中国厂商的商业化突围
在技术路线尚未明朗的背景下,中国厂商的选择是:先落地,再升级。
阿里Happy Oyster的核心卖点不在技术指标的极致,而在于"开放式"和"场景绑定"。它采用了视频生成路线,但通过产品化设计,将目标用户锁定在影视制作、游戏开发等专业创作者身上。用户可以通过自然语言生成高质量视频,且支持实时交互和编辑。这直接击中了当前影视行业"预演成本高、修改周期长"的痛点。一位电影特效导演的反馈是:"以前做一分半的概念预演,需要两周时间和五位数预算;现在用Happy Oyster,十分钟就能搞定,成本几乎为零。"
腾讯HY-World 2.0则走了另一条路:开源生态。与阿里的闭源策略不同,腾讯选择将这款3D世界模型完全开源,并支持与Unity等游戏引擎无缝对接。HY-World 2.0的核心差异化在于"可导出性"——生成的3D资产文件可直接用于二次编辑,而非仅能观看的视频。这一设计直指游戏开发、影视预演等B端场景的工程化需求。腾讯的开源策略并非偶然。早在2024年,腾讯就通过开源混元系列大模型积累了开发者生态。此次HY-World 2.0的开源,意在抢占"空间智能基础设施"的生态位,与阿里形成差异化竞争。
除了巨头,创业公司也在寻找细分切口。Sand.ai的VidMuse围绕"音乐生成视频"这个细分场景,上线几个月就做到了千万美元级别的年收入。他们的逻辑是:与其在通用世界模型上和巨头硬碰硬,不如在一个垂类场景做到极致。VidMuse的团队发现,音乐创作者最大的痛点不是"生成视频",而是"让视频和音乐的情绪完美契合"。他们通过深度优化音频-视频的情感对齐能力,在音乐短视频这个垂类建立了独特的护城河。
群核科技的上市则验证了另一条路径:垂直盈利。作为一家在空间智能领域深耕15年的公司,群核拥有全球最大的空间数据集,推出了SpatialLM空间语言模型和SpatialGen空间生成模型,并开放Aholo空间智能开放平台。2025年,群核营收8.2亿元,毛利率82.2%,成为全球唯一实现盈利的空间智能企业。他们的成功证明:在世界模型这个通用赛道之外,基于特定行业Know-how的垂直模型同样存在巨大价值。
中国厂商的务实策略背后,是对现实约束的清醒认识:训练一个Sora级别的模型需要数千万美元,而能够产生直接商业价值的应用寥寥无几。在当下,世界模型更像一个成本中心而非利润中心。与其在技术路线的迷雾中押注未来十年,不如抓住眼前的商业机会。
生态竞争才是终局
在世界模型这场大战中,有一个角色显得尤为特殊——英伟达。无论你是做视频生成的Sora,还是做3D空间的World Labs,亦或是做抽象预测的JEPA,你们都需要一个东西:算力。
英伟达的策略非常清晰:我不选边站队,我卖铲子。他们推出了Cosmos平台,这是一套专门为世界模型打造的"开发工具包"。Cosmos Curator能在14天内处理2000万小时视频,传统CPU需要3年;Cosmos Tokenizer的视频切片压缩率比业界高8倍;Cosmos Predict/Transfer/Reason则是直接免费开源的预训练模型家族。黄仁勋的逻辑是:不管你们谁最后赢了,只要你们在训练世界模型,你就得买我的H系列芯片和Jetson平台。这是一种比做应用层更稳、更暴利的商业垄断。
但除了英伟达这种"基础设施霸主",真正的世界模型竞争正在从"技术竞赛"转向"生态竞赛"。
Google凭借DeepMind技术积累和TPU算力垄断,构建的是"技术+算力"双壁垒;阿里依托阿里云和企业客户资源,走的是"云+模型"一体化路径;腾讯通过开源策略,意在吸引开发者、建立游戏/影视生态;群核科技则用15年数据积累和盈利验证,卡位空间智能基础设施。
每一种策略都有其合理性,但最终胜出的,一定是能够构建最完整生态的那一家。这不仅需要技术领先,更需要场景落地、开发者支持、资本助力、政策友好的多维协同。
生态竞争的本质是网络效应。一个平台上的用户越多,开发者就越多;开发者越多,应用就越丰富;应用越丰富,用户就越多。这是一个正反馈循环。目前来看,英伟达在硬件生态上已经建立了难以撼动的优势,但在应用生态层面,竞争才刚刚开始。
泡沫、瓶颈与未来
只读各家公司的新闻稿,会觉得世界模型已经进入了规模化落地的前夜,但一些被忽略的细节拼出了一幅截然不同的图景。
数据问题首当其冲。训练一个真正的世界模型,需要海量的"观察、动作、结果"三元组,但现实中没有这样的现成数据集。有人用游戏数据,动作标签完美,但游戏里的物理是引擎模拟的,不是真实物理。有人用人类第一人称视频,最接近真实世界,但视频里没有动作标签,而且人的头部运动和手部动作纠缠在一起,模型根本分不清是谁在动。还有人用真实机器人遥操作数据,保真度最高,但采集一小时数据可能要花费数万美元,根本跑不起来规模。
这意味着每个世界模型都有天生的"能力边界"。
评估真空是另一个麻烦。你打开任何一家世界模型公司的官网,几乎都能看到"登顶全球权威评测榜第一"的标语。问题是,这些评测榜单本身就不成熟。有的侧重视觉逼真度,有的侧重物理准确性,有的侧重任务完成率。一个在视觉榜单上拿第一的模型,可能在物理榜单上垫底。这种标准的不统一,让各家可以各说各话。
还有一个被刻意回避的"不可能三角"。世界模型面临三个相互制约的指标:空间尺度、视觉保真度、实时交互性。你不可能同时做到"世界很大、画面很清晰、交互很流畅"。李飞飞的Marble就是最好的例子:1.1版本画质好但空间范围有限,1.1-Plus版本能生成大场景但画质发糊。昆仑万维的Matrix-Game 3.0能做到720P下40FPS的实时生成,但演示场景的风格和复杂度都很有限。
最后,资本的狂欢也带来了新的投机风险。一个值得注意的现象是,资本从追捧"大厂老兵"转向押注顶尖高校的年轻学者。逆矩阵科技的两位创始人,一个98年、一个04年,来自北大,首轮融资超千万美元。他们的技术路线是"强化学习+世界模型",目前只有论文,没有产品。这不是说年轻人不行,而是说在范式混沌期,资本愿意为"定义下一代技术"的可能性支付极高的溢价。但大多数这样的实验室项目,最终无法跨越"论文→产品"的鸿沟。
这场世界模型大战,最终会走向何方?
乐观情景下(概率40%),三大技术路线在未来2-3年内出现融合,形成分层架构:底层用3D空间模型构建几何约束,中层用JEPA进行抽象因果推理,上层用视频生成进行视觉呈现。2028-2030年,世界模型成为AI工具箱中的重要组件,推动具身智能在工业、医疗、家庭等场景规模化落地。
中间情景下(概率40%),三大路线长期并存,各自找到合适的应用场景:视频生成派主导内容创作和娱乐产业,JEPA派主导机器人和自动驾驶的决策层,3D空间智能派主导数字孪生和仿真训练。世界模型不会替代大语言模型,而是成为其补充。市场从10+玩家淘汰至3-5家,但无明显赢家通吃。
悲观情景下(概率20%),泡沫破裂,回归理性。技术瓶颈长期无法突破,商业化进展缓慢。大部分玩家因资金压力退出,仅剩Google、Meta等巨头维持研发。"世界模型"概念被证伪或重新定义,行业回归到更务实的"视频生成+3D建模+强化学习"组合方案。AGI路径转向其他技术路线。
但无论哪种情景,世界模型的出现本身就标志着AI产业的一个重要转折点:从"语言智能"向"物理智能"的跨越。大语言模型让AI学会了"读写对话",世界模型则试图让AI真正"看懂物理世界、自主决策行动"。这个转变不会在一夜之间完成,可能需要五年、十年甚至更长时间,但方向已经明确。
在这场豪赌中,有人会成为先驱,有人会成为先烈。但正是这些看似疯狂的押注,推动着AI不断向前。世界模型究竟是通往AGI的关键钥匙,还是又一次资本泡沫?答案只能在时间的河流中慢慢浮现。(文/王子祺)
京ICP证000080(一)-16
京公网安备11010802009845号