首页  >  资讯  >  文章
2024-04-29 11:35

生数科技清华团队出手非凡:最强国产类Sora视频模型「Vidu」发布,效果一鸣惊人!

图片

OpenAI“惊世骇俗”的Sora视频生成模型推出还不到一个季度,中国首个长时长、高度一致性、高动态性控制的视频大模型「Vidu」诞生。

虽然一度落后,但我们快马加鞭就赶上了!

日前,由清华大学教授、生数科技首席科学家朱军领衔的「Vidu」团队对外宣布,国内首个纯自研的长时长、高一致性、高动态性控制的视频大模型正式亮相。

废话不多说,直接上链接🔗:

生数科技是一家中国人工智能大模型研究企业,去年初成立,是目前国内估值最高的「Sora概念」创业公司。

在Sora发布后,今年3月中旬,生数科技CEO唐家渝对媒体透露:“年内目标要达到跟Sora一样的效果。”

现如今,首个「Vidu」模型版本亮相,在一致性与时长方面都给人非常眼前一亮的印象。

AI视频时长突破10秒大关

在去年,AI视频通常只能生成3~4秒。

「Vidu」生成的视频最长可达16秒,并且画面稳定流畅不闪屏,细节丰富、逻辑连贯。

即便像“海上飘荡的小船”这种画面,也没有出现穿模、鬼影、运动不符合物理的常见Bug。

图片

话说回来,Sora之所以让世人感到惊艳,归根到底是因为AI视频注入了「镜头语言」。

生数科技的起点非常高~

朱军博士在发布会现场直接将「Vidu」与行业领导者的文生视频模型的效果进行对标。

图片

他直言,「Vidu」在16秒内的视频创作与语义理解方面表现非常突出。

在发布会上,Vidu团队展示同款提示词直接对标Runway Gen-2与Pika。

图片

并且公布了「Vidu」生成Sora官方案例的视频效果对比,可圈可点。

图片

👆🏻让我们放大动图仔细来看,每一台📺电视机都有独立的画面内容。

「Vidu」的本质仍然一款文生视频模型,采用的是“一步到位”的生成方式,与Sora一样可以直接输出高质量的“长视频”。

在底层算法实现上是基于单一模型完全「端到端」生成,与国内其他阿猫阿狗通过关键帧插帧增长的处理方式完全不同。

五大特色,国内遥遥领先

在性能参数方面,「Vidu」支持一键生成长度为16秒、1080P分辨率的高清视频内容。

该视频模型具备5大亮点:

  • 模拟真实物理世界
  • 富有想象力
  • 多机位镜头语言
  • 高时空一致性
  • 理解中国元素等特色

模拟真实物理世界

「Vidu」能够生成复杂、细节丰富的现实世界场景,并且符合物理规律,例如:合理的光影效果、细腻的人物表情等。

图片

比如输出一辆SUV汽车加速行驶在陡峭土路上的场景,感觉就像是无人机实拍。

富有想象力

「Vidu」能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。

图片

比如一艘画室里的一艘船驶向镜头”生成的视频。

多机位镜头语言

「Vidu」能够生成复杂的动态镜头,不再局限于简单的推、拉、移等基础镜头,而是能够围绕单一主题实现远景、近景、中景、特写等不同镜头取景切换,实现多样化的长镜头、追焦、转场等效果,给视频注入丰富的镜头语言。

图片

比方说,生成一间海边的度假小屋宣传视频:阳光沐浴着房间,镜头缓慢过渡到阳台,俯瞰着壮阔的大海,最后镜头定格在大海、帆船和梦幻的云彩。

高时空一致性

在16秒的时长上始终保持着连贯流畅的镜头语言,随着镜头的移动,角色与场景在时间、空间能够保持高度一致性,不会出现掉帧或者穿模、模糊。

图片

比如这一幅《戴珍珠耳环的女孩》经典画作的「猫咪版」变体创作,蓝眼睛的大橘取代了原本的女主,缓缓地转头回眸。

理解中国元素

作为一款国产视频大模型,「Vidu」比Sora等国外模型,更能充分理解并生成具有中式鲜明特征的画面元素,例如:熊猫、龙等。

图片

这是「Vidu」根据提示词生成湖边弹吉他的熊猫。🐼将现实主义与艺术创作相结合,熊猫沐浴在阳光下光影也十分自然。

两个月快速突破的秘籍

要比拼「卷」的功力,OpenAI还真不一定卷得过中国人。

生数科技的核心团队来自清华大学人工智能研究院的班底。首席科学家由清华人工智能研究院副院长朱军领衔;CEO唐家渝出自清华大学计算机系。

图片

唐家渝在3月份面对记者时,还显得并不那么自信,当时他给出赶上Sora的时间表,“很难说是三个月还是半年”。

如今实际还不到2个月,团队就实现了重大突破,背后是如何做到的?

据了解,选对技术路线最为关键——

「Vidu」底层架构基于完全自研的U-ViT架构,该架构由生数科技团队在2022年9月提出,甚至早于Sora采用的DiT架构。并于2023年3月,也就是一年前完善了架构的框架设计。

图片

U-ViT架构是全球首个基于Diffusion扩散模型与生成式AI基础架构Transformer融合的视频生成架构。

Transformer被认为是当今大语言模型的理论基础,训练参数量越大,则效果越好,而Diffusion常用于AI图像与视频生成。

图片

早在2023年3月,该团队就将U-ViT架构用于AI图像生成,这比近期刚刚切换到DiT架构的知名开源AI绘图工具Stable Diffusion 3早了一整年。

因此,「Vidu」复用了生数科技在图文生成任务的许多累积经验,快速跑通了视频生成的训练流程。在保持高效训练效果的同时,GPU算力开支降低80%,训练速度累计提升40倍。

「Vidu」的横空出世,让我们对于中国AI视频国产化技术路线落地有了更多的期待!

1
查看相关话题: #AI视频 #生数科技 #Vidu

相关文章