视频生成模型“Vidu”发布满足长视频内容的生成需求

来源：电子信息产业网作者：宋婧2024-05-06 09:14:37

4月27日，在2024中关村论坛年会未来人工智能先锋论坛上，生数科技与清华大学联合发布了视频生成模型“Vidu”，其具备多镜头生成、时空一致性高等特点，性能全面对标国际顶尖水平，并在加速迭代提升中。业内人士表示，中国版“Sora”正在加速向我们走来。

据了解，Vidu采用了创新性的U-ViT架构，该架构融合了Diffusion（扩散）与Transformer技术，能够一键生成长达16秒、分辨率高达1080P的高清视频内容，满足长视频内容的生成需求。

根据现场演示的效果，Vidu能够模拟真实的物理世界，生成细节复杂、并且符合真实物理规律的场景，例如合理的光影效果、细腻的人物表情等。与此同时，它还具有丰富的想象力，能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容，例如在“画室里的一艘船正在海浪中驶向镜头”的场景中，船和海浪的逼真效果体现了Vidu的强大生成能力。

此外，Vidu还能生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言。

“值得一提的是，Vidu采用的是‘一步到位’的生成方式。”清华大学教授、生数科技首席科学家朱军表示，与Sora一样，从文本到视频的转换是直接且连续的，在底层算法的实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。除了在时长方面的突破外，Vidu在视频效果方面实现显著提升，主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。

公开资料显示，生数科技由清华系AI公司瑞莱智慧RealAI、蚂蚁集团和百度发起的BV百度风投联合孵化创立，目前已完成三轮融资，融资金额共计数亿元。其核心技术U-ViT架构由团队于2022年9月提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构，完全由团队自主研发。

中国工程院院士李培根：智能工厂是AI赋能新型工业化重要抓手

在2024中关村论坛年会期间召开的智能制造创新发展论坛上，中国工程院院士李培根表示，智能工厂建设是人工智能（AI）赋能新型工业化的重要抓手，其核心在于智能机器人、数字孪生、大模型等关键技术

2024-05-06 09:03

瞄准智能家居“新增量”，奥知音差异化击...

随着AI与物联网技术的快速发展，万物互联的时代俨然到来，智能化的风亦早早吹进了家电行业。在这个充满变革与创新的时代，奥克斯空调凭借其出色的智造品质、研发实力以及创新模式成功突围而出，奥知音Ⅱ空调套系摘

2024-05-06 10:16

你可能也喜欢这些文章

24小时热门