有一说一,哥们是真不知道这个月什么情形。

这些个厂商们就像扎堆看了同一本黄历一样,都赶着这个月搞事情。

12 号好几家连着开拓布会咱就不多说了,上周又是参加了一堆大会,看了各种大模型纷纭上新,给哥们都逛累了。

结果到了本日,您猜怎么着,字节又官宣了他家的新 AI ,也便是他家豆包这次支持可以视频天生了,而且效果极其强暴。

豆包这玩意谁研究的呢这视频模型真有点攒劲

也便是说,憋了这么久,这个月尾出场的字节开始上菜了,而且一来便是硬菜。

口说无凭,直接来给大家看效果:

比如这个官方演示的 “ 尘凡做伴活的潇洒脱洒 ” 场景,这视频里多人、繁芜表情的表现力可以说相称自然了,虽然是马丁老爷子的老粉丝,我也只能说这段权游味是相称重。

也便是这玩意只有 10 秒而且慢的一匹,不然真就给它骗过去当成影视片段了。

还有这段,骑火箭的男人冲向天下最高城礼堂引发大爆炸,这段分镜,前后镜头的画风同等性都很连贯;中间那个男人紧闭双眼紧张赴去世的镜头也特灵魂,画面感拉满了。


不过这玩意你要光看官方视频吧,彷佛感想熏染不到它特殊牛的地方,有时候这些AI的宣扬资料就跟方便面外包装一样,看上去是一回事,拆开往后又是另一回事。

而且视频天生这个上面, p 图微调的事也不是没有过,还有的视比年夜模型光放宣扬片,到现在也不让大家上手用,跟扇贝似的都玩成期货了。

以是只管看完这些演示视频往后,我们以为豆包可能真有两下子,但到底货对不对板,咱还是得上手试一试才知道。

这不,那边发布会一结束,世超第一韶光就薅来了这个 PixelDance (像素跳动)模型的内测,先安排上咱们 AI 测评的传统保留项目,有请我司老员工火锅给大伙儿亮个相。

喂给模型一张火锅的照片,再输入提示词 “ 狗狗站起,叼起身边的娃娃离开画面 ” 。

按照我们以往用火锅测评一些视频模型的履历,不出 2 秒,锅哥的身体和脸就会开始变形,之前乃至还有过把火锅变成拉布拉多的案例。

但你猜怎么着?

这次的视频,险些没有涌现太多画面抖动、掉帧和闪烁变形的情形。

火锅起身的动作一气呵成,仔细看它把兔子玩偶拽过来的瞬间,玩偶耳朵的抖动,脚往下踩的时候垫子上的凹陷,这些细节大伙儿品品,火锅来了都得直呼:稳啊老哥!

如果不是后面几秒火锅的毛发纹理露出了马脚,这视频能打个 9 分吧。

接着,我们又试了让不少视频天生模型屡战屡败的光影效果。

提示词 “ 摩托车飞速行驶在道路上,街景迅速退却撤退 ”

街景变革流畅,光芒的明暗变革也没啥违和感,特殊是大楼灯光和地板上的倒影都逐一对应上了。

非要挑毛病的话,便是从对向开过来的车,画面没太掌握好。

再全体经典的吃播,这回的提示词是 “ 正对镜头的男人张嘴吃下筷子上的食品 ” 。
描述相比拟较精确,基本便是让模型指哪打哪。

而 PixelDance 模型也确实没让我们失落望,拿筷子的动作很闇练,食品是真吃进了嘴里,面部也没有由于咀嚼的动作而变形。
纵然提示词里没有 cue 到后面的一群人,但模型还是让大伙儿都动了起来。

便是吧,这嚼东西的动作是不是有点忒刻意了。


实在测到这里,我们对 PixelDance 模型的水平已经有点底了。
但为了让测试更全面些,咱还是多试几次。

来看这张世超随手拍下的晚霞,提示词是 “ 远处的天空,飞来一条玄色的龙,间隔镜头越来越近 ” ,轻微繁芜了那么一丢丢。

后面的天空、一排屋子、往镜头飞来的黑龙,要素基本完好,镜头还会逐步仰拍跟随。

不过原来照片左下角该当是桥边的栅栏,不知道是不是由于太黑,导致模型没识别出来,小小变形了一下。

还有这个编辑部同事放工整点小麦果汁的视频,最让世超震荡的,便是杯子里 8+1 的效果。

由于碰杯导致的晃动、还有手部动作让液体往右边倾斜,好家伙,哥们彷佛真找到一个理解物理规律的模型了。

而且手臂的屈伸、枢纽关头的活动,彷佛也是符合人体生理布局的。

不过瑕疵也不是没有,比如手里的酒喝着喝着,溘然就喂到了隔壁同事嘴里,桌面的杯垫不知道咋回事就变成一张纸了。

相信看到这,大伙儿心里对豆包这个 PixelDance 模型已经有了基本的评判。

虽说还达不到炸裂的程度,但也肯定算得上是第一梯队了,而且 PixelDance 模型在画面稳定性、同等性上,也确实堪称独步。

不过对世超来说,实在并不是非常出乎猜想。

紧张实在不仅是我们,很多人对豆包在视频能力上的预期都挺高的。

虽然慢了一丢丢,但背靠视频行业出身的抖音,再加上对根本大模型的投入,豆包想依赖这些上风来追奋起直追,实际也是符合大家认知的。

换句话说,豆包做出这个本身就猜想之中,更别说人家取出来的东西还明显是第一档。

不过嘛,字节在这个时候取出豆包视频模型,实在挺及时的,刚好踩在视比年夜模型发展的节点上。

光是今年, 6 月份即梦 AI 就在 AIGC 短剧《 三星堆:未来启迪录 》中亮相了, 7 月 13 日快手也上线了 AIGC 短剧《 山海奇镜 》;

而在影视圈, AI 制作的声量也被喊的越来越响,前有 AI 还原 27 岁成龙的《 传说 》,后有暑期档的漫改电影《 异人之下 》,这也意味着视频天生大模型和影视行业某种意义上算双向奔赴。

东吴证券测算,海内 AI 视频潜在的行业空间可能达到 5800 亿元公民币以上,而在全 AI 模式下,影视剧的制作成本相较于传统模式,本钱能降落超过 95% 。

但这种趋势也会带来新的问题,比如模型演习须要的素材得更真实,那这些视频素材可能会有版权和隐私安全的问题。

另一方面,影视级视频天生模型也须要 AI 厂商本身有影视干系的履历,比如这次的豆包,就综合了剪映等专业剪辑和调色软件的履历,来做出更靠近影视的光影、色彩效果。

其他视频天生模型如果要在这方面连续进步,可能也须要和影视行业联系更加紧密才行。

总之,豆包这波交出的卷子值得一个高分,但对付视频模型来说这还远远不是终点,期待国产大模型接下来的表现。

顺便, Sora 怎么还不出来吱个声啊?再不给用黄花菜都要凉了。