生数科技发布其最新AI视频生成模型:Vidu Q1 ,可以根据文字描述或图片,自动生成高质量、1080P 分辨率的视频,还能同时添加智能生成的音效。

而且支持多种动画风格、镜头转场效果,甚至能模拟“电影级运镜”,被称为目前全球效果最强、性价比最高的视频大模型之一。

可直接生成用于动漫、短剧、电商、品牌广告的视频内容,实现“即生成、即商用”

  • 电影级视觉效果:Vidu Q1 支持生成最长5秒的1080p高清视频,画质清晰,细节丰富,达到电影级视觉效果。
  • U-ViT架构:其独创的U-ViT(Universal Vision Transformer)架构,结合扩散模型和Transformer技术,确保视频在时空一致性和动态性方面表现出色。
  • 无缝转场:两张图即可生成自然流畅的场景转场,,首尾帧衔接技术实现电影感镜头语言,保持角色和场景一致。
  • 专业音效生成:生成48 kHz高品质背景音乐和音效,支持精准音效控制和多轨道音频叠加(最长10秒)
  • 多主体一致性:无缝整合多个主体、物体和环境,保持主体、场景、风格一致,特别优化动画生成,支持多元动画风格。
  • 多角度与镜头控制:支持360度视角视频生成,精确控制摄像机运动(如变焦、平移、倾斜),增强视觉连续性和叙事效果。
  • 提示理解遵循更强:对提示词的理解力很强,能自动识别人物动作、光影、位置关系等内容,实现更真实的视觉效果。
  • 超性价比:每秒视频价格仅为0.3元,比行业平均价格低10倍,适合商业化使用或高频率内容创作。

榜单表现:行业权威评测排名第一

  • VBench-1.0 和 VBench-2.0 两大国际权威测评榜中,Vidu Q1 均排名第一。

  • 超越了包括 OpenAI Sora、Runway、快手 Kling 等顶尖模型。
  • 在国内的 SuperCLUE 图生视频榜单中也同时拿下写实风格和动漫风格的第一。

场景与能力案例展示

动态运镜能力

从眼部特写到背影俯视,全程运动流畅、语义连贯。如下方视频案例,一位饱经战火摧残的女战士从背后拔出刀刃。由Q1 生成的视频中,仅一个镜头就能向观众传达出这位女战士的勇气和战争的残酷。

即使在宏大的奇幻场景,Vidu Q1的表现也可圈可点。如下面的案例,一只恐龙在城堡上空快速飞翔。可以看到Runway Gen-4 生成的视频存在崩坏,Veo 2中的恐龙飞翔动作不是很自然,而Vidu Q1 不仅运动自然,而且整体镜头运动的幅度大且合理。

Runway Gen-4

Veo 2

Vidu Q1

特写镜头表达力

如案例所示,从水转化为冰晶的过程,在 Q1 镜头下清晰可见——冰晶晶莹剔透,每一片都呈现出独特的花朵形态。过去需要专业摄像机长时间延时摄像才能实现的变化效果,如今在 Q1 上几分钟即可生成。

Vidu Q1 在画面逼真度和细节丰富度上优势更加明显。如下面的例子,Runway Gen-4中女生运动非常不自然,Veo 2视频中的女生几乎没有运动,相对而言,Vidu 不仅很好的理解了运镜,而且也能看到卡车里冒出的火光和黑烟,画面细节非常到位。

提示词:绿色头发的女生,走过拥挤车流和人群,远处的卡车冒出火光和黑烟,镜头推进拍摄,定格在女生的脸

Runway Gen-4

Veo 2

Vidu Q1

商业应用能力

Q1 的极致高质量不仅可应用在电影、短片领域,同时也能帮助更多广告主传达产品的质感和调性。

如用Vidu Q1生成的一款香水的广告。溅出的透明色液体体现出香水的质感,透明的玻璃材质上印有品牌“Vidu ”的logo,旁边木质的装饰和琥珀色的暖色光线烘托出这款香水的高级感,向观众传达这是一款奢侈的原木调香水。

仅需两张图,实现百万运镜转场

Vidu 的首尾帧功能在创作者中广受欢迎,仅需两张图,就能自动生成流畅自然的中间镜头,大幅节省创作成本。Q1 在此基础上再升级——镜头更丝滑、语义理解更准确,达到从业10年的摄像师水平。

无论是推、拉、摇、移等镜头动作,Q1 都能直接生成,真实自然,哪怕首尾画面完全不同,也能自动“脑补”出逻辑清晰、电影质感的完整片段。

例如:首帧是一位女特工持枪,尾帧是子弹穿破玻璃爆炸的瞬间。Q1 自动生成中间过程——特工移动、连续开枪、镜头反打到玻璃碎裂,所有细节精准自然。更惊喜的是,Q1 还完整保留了吉恩·科兰的漫画风格,风格统一、毫无破绽。

首帧

尾帧

结果

提示词:女特工手持手枪,射出子弹,子弹穿破玻璃球瞬间爆炸,吉恩·科兰的漫画风格,紧张刺激的动画场景

过去,动画特效对角色师和动作指导的要求极高,如今,Q1 就是你的 24 小时“角色师”和“艺术指导”。

更让人惊喜的是,Q1首尾帧功能还可实现一系列镜头运动,衔接非常自然。

比如下面的例子,提示词只简单的要求推进镜头,Q1就生成了一系列高运动镜头,镜头不断推进直至主角的全脸,之后左移镜头,特写,逐渐看清主角的右脸。整个镜头运动相当丝滑,背后像是有一位熟练的摄像师在拿着镜头拍摄。

首帧

尾帧

结果

提示词:镜头越过飘浮的余烬向前推进,靠近人物的脸。

此外,运用Q1首尾帧功能还可解锁“一镜到底”,不需要复杂的场面调度,再普通的图片也能变得酷炫起来。

下面的视频是由创作者@骆狮虎 利用Vidu 生成的一镜到底视频,简直太炸裂了!各类转场镜头让人眼花缭乱,Vidu首尾帧功能实在太全能。

更懂镜头语言,抽卡不再是“玄学”

"抽卡”几乎是每个创作者都经历过的难题。而决定抽卡效率的关键,在于模型是否真正“听得懂人话”。

在这方面,Vidu Q1 实现了质的飞跃,相比 Vidu 1.5,Q1的文生视频功能在理解提示词的语义和镜头逻辑方面大幅提升,极大降低了“抽不到理想镜头”的概率。

例如下面视频,提示词中包含"男子” “行人” “汽车” “街道”等多个元素,且有复杂的位置关系和光线描述,Q1 不仅精准理解了这些关系,还镜头感十足,宛如好莱坞导演的实拍作品。

提示词:镜头聚焦于一位身穿皮夹克的男子,他独自行走在白天的城市街道上。阳光在人行道上投射出逼真的阴影,背景中是汽车和行人,而模糊的画面则以电影般的照片写实风格呈现。

Vidu Q1 不仅能听懂“人话”,连专业镜头语言也拿捏得死死的。

比下面的例子,焦点从近处的粉色西装男子自然切换到他身后穿黑西装的男子,整个变焦过程流畅自然。

即使是大幅度运动,Vidu Q1也能很好遵从,AI视频生成常见的崩坏程度大幅降低。比如疾驰的日产天际线汽车在午夜时分疾驰,与其他家相比,Vidu Q1生成的视频日产汽车可以实现快速漂移,运动幅度大,同时又非常逼真。Runway Gen-3 Alpha画面出现大幅崩坏,Veo 2表现还算正常,场景还原也不错,但是运动幅度上不及Q1 。

提示词:富士胶片Portra 400H静态照片,急驰的日产天际线R33 GTR LM JGTC,大幅度运动效果,东京7-11便利店,午夜时分

更强风格表现力

前段时间,GPT 4O的吉卜力风格火爆全网,全网社交平台秒变吉卜力的世界。实际上在视频生成领域,Vidu也早已经在社交平台上刮起了一股AI动画风,无论是类似新海诚,宫崎骏,大友克洋风格的日本动画,还是类似迪斯尼、皮克斯、彼得.道格特风格的美国动画,Vidu统统都能稳定输出,表现惊艳。

有日本创作者在社交平台表示,目前只用Vidu来做动画。

即使在多主体复杂场景里,Vidu Q1依然很能打。下图是太空中宇宙飞船飞行的场景,整体画质高清,多艘宇宙飞船的运动轨迹合理且流畅自然,飞船飞行的后引擎光、远处的太阳光、以及周边的动态银色运动轨迹,让人仿佛有看科幻大片的即视感。

对比来看,Vidu Q1 更能理解多元动画风格,且在动画风格一致性上保持较好。

比如我们让各家生成80、90年代复古风格的可爱的动漫女孩。Veo 则直接生成了3D风格,Runway Gen-3 Alpha 虽然理解了复古动漫风,但是画面比较生硬、呆板,而Vidu Q1对于80、90年代复古风格理解精准,女孩的表情动作也非常自然。

Runway-Gen3 Alpha

Veo 2

Vidu Q1

此外,在动画风格表现力上,Q1的人物表现更加生动,高动态表现较为惊艳。

比如下面视频,可以看到Veo 2视频中的小狗运动不是很合理,Runway-Gen3 Alpha中的小狗则直接悬空了,Vidu Q1不仅很好理解了3D动漫风,而且镜头运动能很好体现小狗降落的极速感,以及随着降落不断变化的田园景色,非常逼真。

Runway Gen-3 Alpha

Veo 2

Vidu Q1

音效功能:一句话生成专属音效

Vidu Q1 发布同时,还推出了文生音效模型。只需一句话,即可生成最长 10 秒的专属音效,AI视频从此进入“有声时代”。

音效是视频氛围和真实感的关键。过去,创作者需在音效库中寻找素材,但常常面临版权风险、同质化问题及与视频长度不匹配的困扰。Vidu 的 AI 音效完美解决这些问题,生成的音效既独特又个性化,且无需担心版权。

此次 Vidu 发布的 AI 音效在技术创新方面有诸多亮点。

首先,用户可以精准控制生成音效的时间,音效可以在 10 秒内的任意时间点开始生成。这也是目前为止业内商业领域首个支持精细化时间控制的文生音效系统。

其次,Vidu 的文生音效功能还支持多段音效叠加,并以一个完整的音频文件输出。例如,下面的示例中,通过多段音效的叠加,成功还原了火车经过的真实感。

火车鸣笛.wav960.04 KiB

尤为值得一提的是,相比于业内普遍只能生成 16KHz或者32KHz,Vidu 的音效已经可以做到48KHz的音乐级采样率和保真度,这也是文生音效在商业化领域中首家做到48KHz的高保真音效。

来听一听效果,这个蟋蟀声是不是有种“一声入夏”,仿佛走入原始森林的感觉。

蟋蟀声.mp3576.04 KiB

Hz是评判音频质量的标准,你在耳机中听的QQ音乐一般都是48KHz,其在听觉上会比较流畅,而16KHz、32KHz会存在压缩失真问题。

当然你也可以用Vidu的文生音效功能探索更多玩法,比如生成一段爵士风格的即兴音乐

文生音效 爵士即兴音乐.mp3960.04 KiB

亦或者来一段中国风纯音乐,古筝、笛子等乐器营造出了古典的山水意境。

中国风纯音乐.wav960.04 KiB

Vidu的文生音效功能,打通了视频创作的整个工作流,从视频生成到音效生成,一个平台就能搞定。

拒绝画饼!App、网页端直接体验

Vidu Q1已全球同步上线,无需排队,也不用再申请内测,上线即可立刻体验。目前 Vidu APP 已在安卓和iOS市场上线,用户打开手机APP,或者登陆Vidu 网站即可立刻体验最新Q1模型带来的极致高质体验。

在线体验:vidu.com