火山引擎总裁谭待表示,“视频天生有很多难关亟待打破。
豆包两款模型会持续演进,在办理关键问题上探索更多可能性,加速拓展AI视频的创作空间和运用落地。

火山引擎总裁谭待。

视频天生大模型破解多主体互动和同等性难题

在大会上,谭待宣告豆包正式推出视频天生模型,包括豆包视频天生-PixelDance、豆包视频天生-Seaweed两款大模型,面向企业市场开启邀测。

打破主体互动难关豆包宣告视频生成模型有多镜头措辞能力

此前,视频天生模型大多只能完成大略指令,豆包视频天生模型则能实现自然连贯的多拍动作与多主体繁芜交互。
有创作者在体验豆包视频天生模型时创造,其天生的视频不仅能够遵照繁芜指令,让不同人物完成多个动作指令的互动,人物样貌、服装细节乃至头饰在不同运镜下也保持同等,靠近实拍效果。

大会上展示了很多视频天生的案例,比如输入“一个侧对镜头的白人女人,摘掉墨镜,转身看向靠近她的杀手们”。
这个描述包括了人的动作变革、镜头的变革,以及新人物的涌现,模型则是根据这个指令天生一段完全的视频。

豆包视频天生模型根据指令完成的视频。

据火山引擎先容,豆包视频天生模型基于 DiT 架构,通过高效的DiT领悟打算单元,让视频在大动态与运镜中自由切换,拥有变焦、环抱、平摇、缩放、目标跟随等多镜头措辞能力。
全新设计的扩散模型演习方法更是占领了多镜头切换的同等性难题,在镜头切换时可同时保持主体、风格、氛围的同等性。

据先容,经由剪映、即梦AI等业务场景打磨和持续迭代,豆包视频天生模型具备专业级光影布局和色彩调和,画面视觉极具美感和真实感。
深度优化的Transformer构造,则大幅提升了豆包视频天生的泛化能力,支持3D动画、2D动画、国画、黑白、厚涂等多种风格,适配电影、电视、电脑、手机等各种设备的比例,不仅适用于电商营销、动画教诲、城市文旅、微剧本等企业场景,也能为专业创作者和艺术家们供应创作赞助。

目前,新款豆包视频天生模型正在即梦AI内测版小范围测试,未来将逐步开放给所有用户。
即梦AI及剪映市场和运营卖力人陈欣然认为,AI能够和创作者深度互动,共同创作,带来很多惊喜和启示,即梦AI希望成为用户最亲密和有聪慧的创作伙伴。

同传模型采取端到真个模型架构

这次活动中,豆包大模型不仅新增视频天生模型,还发布了豆包音乐模型和同声传译模型,已全面覆盖措辞、语音、图像、视频等全模态,全方位知足不同行业和领域的业务场景需求。

对付豆包音乐模型,谭待先容称,音乐是一个繁芜的综合体,涉及到词、曲、腔调唱法,“豆包的音乐模型我们采取了全新的方案,实现了音乐天生的框架,从词、曲、唱三个方面来天生高质量的音乐。
我们只须要输入一个prompt就可以得到一个情绪表达准确的歌词。
有了歌词,我们可以通过11种不同风格和感情表达的选择进一步创作出歌曲。
同时,得益于强大的豆包语音能力,我们在全体唱的方面实在会变得非常真实,包括对气口,还有真假音转化这些技巧的仿照,去媲美真人的演唱效果。

南都在实测中创造,定制音乐分为灵感创作和自定义创作,在自定义创作下,用户可以输入歌词或者一键生词;而在灵感创作下,用户只要输入灵感,就可以天生几首不同风格的人声音乐。

而豆包的同声传译模型则是采取了全新的端到真个模型架构。
谭待表示,传统的AI同声传译模型常用的是级联的模型办法,首先进行语音识别,然后再进行机器翻译,“这个准确率低有一个很大的问题,它有可能在语音识别那一块就没有听清楚,它没听有清楚,翻译的时候就开始瞎翻了。

而端到真个办法可以让翻译更加精准、质量更高、时延更低,“我们迭代豆包语音克隆的能力,让它仿照一个真人的发音,这样去媲美一个真人的同传效果,而且在很多专业的场景里面可能会更好,由于它不会怠倦,它不会听漏。

从效果展示来看,无论是语速超快、发音繁芜的绕口令,还是文言文,又或是充满即兴和灵感的随意谈天,模型都能流畅地给出翻译结果。

豆包的同声传译模型展示。

豆包大模型日均Tokens调用量超过1.3万亿

在今年7月的巡展上,火山引擎曾表露,豆包大模型的日均Tokens调用量已经有5000亿。
而在9月24日,谭待透露,截至9月,这个数据还在持续增长,现在已经超过1.3万亿,“我们在4个月的韶光里,Tokens整体增长超过了10倍。

除了在措辞模型上,豆包大模型在多模态方面也表露了其进展。
据大会表露,目前豆包文生图模型日均天生图片5000万张,此外,豆包目前还日均处理语音85 万小时,这个数字相称于7万天的广播节目播出总时长的总和。

此前,豆包大模型公布低于行业99%的定价,引领海内大模型开启贬价潮。
谭待认为,大模型价格已不再是阻碍创新的门槛,随着企业大规模运用,大模型支持更大的并发流量正在成为行业发展的关键成分。

据谭待先容,业内多家大模型目前最高仅支持300K乃至100K的TPM(每分钟token数),难以承载企业生产环境流量。
例如某科研机构的文献翻译场景,TPM峰值为360K,某汽车智能座舱的TPM峰值为420K,某AI教诲公司的TPM峰值更是达到630K。
为此,豆包大模型默认支持800K的初始TPM,远超行业均匀水平,客户还可根据需求灵巧扩容。

“在我们努力下,大模型的运用本钱已经得到很好办理。
大模型要从卷价格走向卷性能,卷更好的模型能力和做事。
”谭待表示。

这次豆包 pro 还宣告高下文窗口也进行了升级。
原来的豆包 pro 4K版本将直接升级到 32K,同时对长文本的128K窗口也进行了升级,现在豆包最长支持 256K的窗口。
“给予最新升级的窗口,能同时处理约40万汉字,相称于一口气把《三体》第一部和第二部全部读一遍,而且我们所有的升级都是加量不加价,和原来128K完备同样的价格。
” 谭待表示。

采写:南都 汪陈晨