声明:本文来自于微信公众号 AI新榜,作者:阿虎左卡,授权Soraor转载发布。
最近的AI视频赛道,在玩法上“卷”出了新高度。
有用户用它完善视频细节:
还有人用它创作了科幻大片:
甚至让马斯克微笑点头:
还有大鱼吃小鱼,实现普通摄像头难以拍摄的效果:
较强的灵活性和视频可控性,一下让人难以分辨虚实,而这些镜头都是靠爱诗科技的AI视频工具PixVerse实现的。
PixVerse继4月更新运动笔刷功能之后,今日又重磅上线了PixVerse V2模型。V2支持直接生成长达8秒的视频,甚至可以一次性生成1-5个视频片段,并保证风格、主体和场景的一致性。
PixVerse已经率先朝着AI视频生成的一致性方向发力。这是要进军AIGC短片吗?此次更新的PixVerse V2实力究竟如何?“AI新榜”从角色一致性、想象力、控制力维度上,第一时间给各位玩家实测了一番。
实测PixVerse新功能:一次性生成5个8秒视频
据了解,PixVerse突破了时长技术限制,能单次生成8秒的视频。但要知道AI视频生成的时长越长越容易“露怯”,出现瑕疵。那么,其文本理解能力还能稳定发挥吗?我们先用V2简单测了一下文生视频和图生视频。
文生视频
提示词:golden retriever in sunglasses sunbathing on a beach in Hawaii
PixVerse V2版本
PixVerse V1版本
从生成效果来看,动物类的表现很不错,几秒内可以动的细节更多,比如狗狗的耳朵,毛发。虽然动作幅度依旧比较小,但整体视频呈现得更完整,在视频质量以及清晰度上都有明显的进步。
另外,PixVerse V2升级了模型理解和表达能力,在真实性和细节表达上进一步加强。
提示词:A beautiful women is walking towards the camera
PixVerse V2版本
PixVerse V1版本
可以看到,人物类镜头方面,画面主体没有出现特别大的技术瑕疵,光影效果也做得很好。相比前一个版本,V2生成的人物动作幅度更大,也更真实。
但遗憾的是,和其他的AI视频工具一样,仍然是无法理解提示词当中的镜头术语,如“走向镜头”,画面中主体的运动只是简单转了下头。
图生视频
图生视频怎么能少得了这张经典梗图:
在图生视频模式下,我们没有输入任何提示词,想看看PixVerse V2的“联想”能力如何。
PixVerse V2并没有让图中男生变成“渣男”,而是转过头与红衣女孩错过,看多了其他AI视频工具的戏剧效果,PixVerse V2展现的反而有点淡淡的忧伤。
三个人的动作幅度都不大,但难能可贵的是唯一出现脸部的红衣女孩没有出现“变脸”,牺牲了戏剧效果但保证了角色的一致性。
相比之下,这张“房子着火我微笑”的梗图生成效果就比较一般了。
转头离去,但“变脸”速度巨快:
控制住了变脸,但场景突然切换:
要说整活,还是AI在行啊。但总的来说,图生视频参考了我们上传的图片元素,玩梗能力在线,做二创是个不错的选择。
在此前“AI新榜”的短片尝试,以及大量用户反馈和社区讨论反馈中,AI视频的一致性一直是一个难题,更不用说单次生成长达40秒的视频片段了,一起看看PixVerse V2的多片段生成能力。
生成多片段40秒视频
在PixVerse首页点击右侧“PixVerse V2”,就可以进入多片段生成页面,同样支持文生和图生视频。
在这里,需要我们选择“Scene1”,输入相应提示词,再添加“Scene2”,输入第二个场景想要呈现的画面,以此类推,最多添加5个不同的场景后,一次性生成完整片段。
换句话说,就是把短片的视频分镜,通过自然语言的形式呈现出来。
从官网发布的信息看,在PixVerse V2模式下,5个场景的画面风格都会与第一个场景保持一致。
如果我们还上传了图片,那么这些图片会参考场景1的图片风格进行重绘,保证生成视频风格的一致性。
比如,我们输入的提示词如下:
Scene1:the panda is playing the violin.
Scene2:It is playing the piano.
Scene3:It is eating the hamburger.
大约等待5分钟左右,V2一次性生成了长达16秒的视频片段。可以看到,在视频主体、场景以及画面色调上尽量保持了一致性,还省去了我们单个片段不断“抽卡”的时间。
只不过,最终生成的画面在精细度上还有待提高,依旧会出现小提琴、汉堡微变形的画面瑕疵。
如果我们对某个片段熊猫的动作、环境、镜头运动不满意,还可以选择替换相应的角色元素,进行二次编辑。
我们继续尝试一下人物类镜头一致性,将上述提示词中的“panda”换成了“the woman”,测试了一波V2的角色控制能力。
没想到的是,PixVerse V2直接规避了短板,生成了全是近景特写的片段,压根没出现人物。
考虑到是“the woman”太过宽泛,我们又将主体替换成确切的人物角色“Harry Potter”,测试结果显示,在多片段生成时,人物手指等细节瑕疵无可避免,但场景、风格一致性上发挥稳定。
1秒只需0.1元,AI视频的成本竞赛
今年下半年,AI视频领域掀起了一波应用间的较量,快手可灵、Runway Gen-3等陆续面向公众开放使用。
几家产品的问世,都向我们传递了一个信息“AI视频生成技术更适合短视频制作”。
除了效果表现之外,陆续有AI工具开始采取付费订阅制,快手可灵同样结束了免费试用期,正式迈入了“收费时代”。
快影App内公告
作为AI领域向来绕不开的问题,商业化的困境同样出现在了视频应用上。
当生成越长的视频,是否成本就越贵?
据调查机构Factorial Funds发文表示, Sora约30亿参数的训练成本,比1.8万亿参数的GPT-4还要多。
Factorial Funds对Sora的相关报道
对于AI视频而言,一些生成服务会根据视频的时长、所需处理的视频复杂性以及使用技术等因素来定价。
如果AI视频还包括了高度定制化的内容,对视频生成的质量、连贯程度以及真实性有要求,实际所用的推理成本自然就会更高。
曾有媒体报道,国内AI企业做过一个估算,大约两分钟的AI视频实际要花掉180元。
盈利,是摆在所有AI视频工具面前的共同问题。哪怕是PixVerse也扛不住相应的推理成本。
目前,PixVerse推出了订阅套餐方案,基础会员每月5美元,可以获得1150个积分。
PixVerse每生成8秒的视频,需要消耗30个积分,这样算来,1150个积分大约能生成20条完整的15秒短视频,一条短视频的成本折合人民币1.5元,是Runway Gen-3费用的1/3。
当然,背后的技术以及生成视频结果的不确定性,导致实际使用的成本会骤升。
费用之外,对于大多数普通用户而言,短短几秒的视频时间,如果只是简单的镜头移动,除了获得体验感,很难有真正的使用场景。
爱诗科技创始人王长虎在年初接受采访时也提到:“在未来6-12个月里,我们希望用AI制作出15秒长的可消费内容。只有当普通人都能用AI生成出好看、好玩的内容,才是AI视频的ChatGPT时刻”。
目前看来,高算力、高成本依旧是商业化的主要障碍,但不少视频玩家也从中找到了用户留存的新方法,“AI整活”“老照片动起来”“AI修复”等抽象玩法在互联网上层出不穷。
在大多数用户对AI视频工具的新鲜感褪去之后,如何用新玩法留住用户,摸索出新的赚钱方法,或许会是视频内容玩家下一个竞争赛道。