生数科技清华团队出手非凡：最强国产类Sora视频模型「Vidu」发布，效果一鸣惊人！-AI奇点网

首页 > 资讯 > 文章

2024-04-29 11:35

生数科技清华团队出手非凡：最强国产类Sora视频模型「Vidu」发布，效果一鸣惊人！

OpenAI“惊世骇俗”的Sora视频生成模型推出还不到一个季度，中国首个长时长、高度一致性、高动态性控制的视频大模型「Vidu」诞生。

虽然一度落后，但我们快马加鞭就赶上了！

日前，由清华大学教授、生数科技首席科学家朱军领衔的「Vidu」团队对外宣布，国内首个纯自研的长时长、高一致性、高动态性控制的视频大模型正式亮相。

废话不多说，直接上链接?：

生数科技是一家中国人工智能大模型研究企业，去年初成立，是目前国内估值最高的「Sora概念」创业公司。

在Sora发布后，今年3月中旬，生数科技CEO唐家渝对媒体透露：“年内目标要达到跟Sora一样的效果。”

现如今，首个「Vidu」模型版本亮相，在一致性与时长方面都给人非常眼前一亮的印象。

AI视频时长突破10秒大关

在去年，AI视频通常只能生成3~4秒。

「Vidu」生成的视频最长可达16秒，并且画面稳定流畅不闪屏，细节丰富、逻辑连贯。

即便像“海上飘荡的小船”这种画面，也没有出现穿模、鬼影、运动不符合物理的常见Bug。

话说回来，Sora之所以让世人感到惊艳，归根到底是因为AI视频注入了「镜头语言」。

生数科技的起点非常高~

朱军博士在发布会现场直接将「Vidu」与行业领导者的文生视频模型的效果进行对标。

他直言，「Vidu」在16秒内的视频创作与语义理解方面表现非常突出。

在发布会上，Vidu团队展示同款提示词直接对标Runway Gen-2与Pika。

并且公布了「Vidu」生成Sora官方案例的视频效果对比，可圈可点。

??让我们放大动图仔细来看，每一台?电视机都有独立的画面内容。

「Vidu」的本质仍然一款文生视频模型，采用的是“一步到位”的生成方式，与Sora一样可以直接输出高质量的“长视频”。

在底层算法实现上是基于单一模型完全「端到端」生成，与国内其他阿猫阿狗通过关键帧插帧增长的处理方式完全不同。

五大特色，国内遥遥领先

在性能参数方面，「Vidu」支持一键生成长度为16秒、1080P分辨率的高清视频内容。

该视频模型具备5大亮点：

模拟真实物理世界
富有想象力
多机位镜头语言
高时空一致性
理解中国元素等特色

模拟真实物理世界

「Vidu」能够生成复杂、细节丰富的现实世界场景，并且符合物理规律，例如：合理的光影效果、细腻的人物表情等。

比如输出一辆SUV汽车加速行驶在陡峭土路上的场景，感觉就像是无人机实拍。

富有想象力

「Vidu」能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容。

比如一艘画室里的一艘船驶向镜头”生成的视频。

多机位镜头语言

「Vidu」能够生成复杂的动态镜头，不再局限于简单的推、拉、移等基础镜头，而是能够围绕单一主题实现远景、近景、中景、特写等不同镜头取景切换，实现多样化的长镜头、追焦、转场等效果，给视频注入丰富的镜头语言。

比方说，生成一间海边的度假小屋宣传视频：阳光沐浴着房间，镜头缓慢过渡到阳台，俯瞰着壮阔的大海，最后镜头定格在大海、帆船和梦幻的云彩。

高时空一致性

在16秒的时长上始终保持着连贯流畅的镜头语言，随着镜头的移动，角色与场景在时间、空间能够保持高度一致性，不会出现掉帧或者穿模、模糊。

比如这一幅《戴珍珠耳环的女孩》经典画作的「猫咪版」变体创作，蓝眼睛的大橘取代了原本的女主，缓缓地转头回眸。

理解中国元素

作为一款国产视频大模型，「Vidu」比Sora等国外模型，更能充分理解并生成具有中式鲜明特征的画面元素，例如：熊猫、龙等。

这是「Vidu」根据提示词生成湖边弹吉他的熊猫。?将现实主义与艺术创作相结合，熊猫沐浴在阳光下光影也十分自然。

两个月快速突破的秘籍

要比拼「卷」的功力，OpenAI还真不一定卷得过中国人。

生数科技的核心团队来自清华大学人工智能研究院的班底。首席科学家由清华人工智能研究院副院长朱军领衔；CEO唐家渝出自清华大学计算机系。

唐家渝在3月份面对记者时，还显得并不那么自信，当时他给出赶上Sora的时间表，“很难说是三个月还是半年”。

如今实际还不到2个月，团队就实现了重大突破，背后是如何做到的?

据了解，选对技术路线最为关键——

「Vidu」底层架构基于完全自研的U-ViT架构，该架构由生数科技团队在2022年9月提出，甚至早于Sora采用的DiT架构。并于2023年3月，也就是一年前完善了架构的框架设计。

U-ViT架构是全球首个基于Diffusion扩散模型与生成式AI基础架构Transformer融合的视频生成架构。

Transformer被认为是当今大语言模型的理论基础，训练参数量越大，则效果越好，而Diffusion常用于AI图像与视频生成。

早在2023年3月，该团队就将U-ViT架构用于AI图像生成，这比近期刚刚切换到DiT架构的知名开源AI绘图工具Stable Diffusion 3早了一整年。

因此，「Vidu」复用了生数科技在图文生成任务的许多累积经验，快速跑通了视频生成的训练流程。在保持高效训练效果的同时，GPU算力开支降低80%，训练速度累计提升40倍。

「Vidu」的横空出世，让我们对于中国AI视频国产化技术路线落地有了更多的期待！

1

查看相关话题： #AI视频 #生数科技 #Vidu

相关文章

AI奇点网打杂的

作者已发布 631 篇文章

近期文章

更多

稚晖君发布全球最小全身力控人形机器人，上纬启元开启个人机器人时代

稚晖君发布全球最小全身力控人形机器人，上纬启元开启个人机器人时代

弋途科技 × 火山引擎共推智能座舱新品深度参与火山引擎原动力大会引关注

弋途科技 × 火山引擎共推智能座舱新品深度参与火山引擎原动力大会引关注

AI 漫短剧实干家开放麦：影伙引擎受邀探讨海外 AI 原生短剧市场

AI 漫短剧实干家开放麦：影伙引擎受邀探讨海外 AI 原生短剧市场

清华系重磅出手！国内首个「Sora级」AI视频大模型横空出世，全面对标Sora，可生成6秒时长视频

上一篇

OpenAI CEO奥特曼在斯坦福大学演讲：不要浪费时间解决GPT-4的局限性，GPT-5会让一切努力白费

下一篇