中国信息产业风向标 | 专注,才能专业
首页> 新闻>正文
视频生成模型“Vidu”发布 满足长视频内容的生成需求
来源:电子信息产业网    作者:宋婧2024-05-06 09:14:37

4月27日,在2024中关村论坛年会未来人工智能先锋论坛上,生数科技与清华大学联合发布了视频生成模型“Vidu”,其具备多镜头生成、时空一致性高等特点,性能全面对标国际顶尖水平,并在加速迭代提升中。业内人士表示,中国版“Sora”正在加速向我们走来。

据了解,Vidu采用了创新性的U-ViT架构,该架构融合了Diffusion(扩散)与Transformer技术,能够一键生成长达16秒、分辨率高达1080P的高清视频内容,满足长视频内容的生成需求。

根据现场演示的效果,Vidu能够模拟真实的物理世界,生成细节复杂、并且符合真实物理规律的场景,例如合理的光影效果、细腻的人物表情等。与此同时,它还具有丰富的想象力,能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容,例如在“画室里的一艘船正在海浪中驶向镜头”的场景中,船和海浪的逼真效果体现了Vidu的强大生成能力。

此外,Vidu还能生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言。

“值得一提的是,Vidu采用的是‘一步到位’的生成方式。”清华大学教授、生数科技首席科学家朱军表示,与Sora一样,从文本到视频的转换是直接且连续的,在底层算法的实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。除了在时长方面的突破外,Vidu在视频效果方面实现显著提升,主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。

公开资料显示,生数科技由清华系AI公司瑞莱智慧RealAI、蚂蚁集团和百度发起的BV百度风投联合孵化创立,目前已完成三轮融资,融资金额共计数亿元。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构,完全由团队自主研发。

中国工程院院士李培根:智能工厂是AI赋能新型工业化重要抓手

在2024中关村论坛年会期间召开的智能制造创新发展论坛上,中国工程院院士李培根表示,智能工厂建设是人工智能(AI)赋能新型工业化的重要抓手,其核心在于智能机器人、数字孪生、大模型等关键技术

2024-05-06 09:03

瞄准智能家居“新增量”,奥知音差异化击...

随着AI与物联网技术的快速发展,万物互联的时代俨然到来,智能化的风亦早早吹进了家电行业。在这个充满变革与创新的时代,奥克斯空调凭借其出色的智造品质、研发实力以及创新模式成功突围而出,奥知音Ⅱ空调套系摘

2024-05-06 10:16
你可能也喜欢这些文章
联系我们:

sale@staff.ccidnet.com Tel:010-88558955

广告发布:

sale@staff.ccidnet.com Tel:010-88558925

方案、案例展示:

project@staff.ccidnet.com Tel:010-88558955

Copyright 2000-2015 CCIDnet.All rights reserved.京ICP证000080(一)-16京公网安备11010802009845号