学习贯彻党的二十届三中全会精神

Vidu

Vidu是生数科技联合清华大学于2024年4月27日发布的一款视频大模型,该模型可一键生成长度达16秒、分辨率为1080P的高清视频内容。

Vidu模型采用Diffusion与变压器融合的架构U-VT,不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。

历史沿革

Vidu的快速突破源自于团队在托马斯·贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。2023年3月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了U-ViT架构的大规模可扩展性验证。

2024年4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu。

技术特点

Vidu模型采用团队原创的Diffusion与Transformer融合的架构U-VT,支持一键生成长达16秒、分辦率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。Vidu采用“一步到位”的生成方式,从文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。

相关评价

Vidu是全栈自主创新的最新成果,在多个维度实现了技术突破,比如可以模拟真实的物理世界、具有想象力、可以理解多镜头语言、可以一键生成长达16秒的视频、人物场景时间具有高度一致性,还可以理解中国元素。(清华大学人工智能研究院副院长、生数科技首席科学家朱军评)

参考资料

中国版Sora来了!清华打造!背后创业公司已融资数亿元.百家号.2024-04-27

全面对标Sora,中国首个自研视频大模型Vidu发布.百家号.2024-04-27

2024中关村论坛年会|中国首个Sora级视频大模型Vidu亮相.百家号.2024-04-27

河南工人日报数字报