本日,搜狗公司与新华社新媒体中央达成计策互助,并联合发布了首个站立式AI合成主播。
新的AI合成主播将从过去的“坐着播新闻”升级成结合肢体动作的“站立式播报”,这意味着AI在模拟人类声音、唇形、表情的根本上,进一步学习人类的体态、手势等,表现力更加丰富,也代表着“搜狗分身”技能再次取得新进展。
三个月前,在2018年互联网大会期间,搜狗与新华社发布环球首个AI虚拟合成主播。搜狗公司CEO王小川表示,三个月来,首批入职新华社的一中一英两位AI合成主播,已生产3400余条新闻宣布,累计时长达10000多分钟,参与了包括第五届天下互联网大会、首届进博会、2019春运、春节等多少主要宣布,成为AI与传媒业领悟并付诸规模化运用的范例案例。
无论是初代AI合成主播,还是站立式的AI合成主播,其背后的关键技能是“搜狗分身”。
初代AI合成主播
在初代AI合成主播中,搜狗分身技能让机器可以仿照人类说话时的声音、嘴唇动作和表情,并且将三者自然匹配,从而形成一个人类的AI分身。
普通来讲,由真人主播面对镜头录制一段新闻播报的视频,搜狗分身凭借这段视频就可以将真人主播的声音、唇动、表情动作等特色进行提取,然后通过语音合成、唇形合成、表情合成以及深度学习等技能,“克隆”出与真人主播十分相似的具备新闻播报能力的AI虚拟主播。
站立式AI合成主播
而搜狗这次展示的站立式AI合成主播,则在前代合成主播的根本上,利用“搜狗分身”技能连续授予AI肢体措辞的能力,让AI合成主播的表现力更丰富更逼真,进而帮助人类提高信息表达和通报的效率。
随着“搜狗分身”技能能力的不断提高,AI合成主播的定制周期也大为降落,仅靠少量用户真实音视频数据,即可快速定制出高逼真度的分身模型。本次发布会,搜狗与新华社还推出首个AI合成女主播,正是“搜狗分身”技能持续复制不同类型、不同特点AI合成主播能力的一个体现。
最新推出的站立式AI合成主播将参与2019年全国两会的宣布,并将在搜狗搜索、输入法等资讯平台上与用户见面。
在智东西看来,搜狗分身背后则是搜狗对多模态合成技能的探索,所谓多模态即多种感官的领悟,本次的站立式AI合成主播,在语音合成、唇语合成以及表情合成的根本上,又增加肢体措辞的合成,无论是从单点图像天生,还是从不同维度的多模态合成上,都是一次技能的进步。
此外,从三个月前搜狗与新华社推出的首个AI合成主播,到本日搜狗与新华社达成计策互助,多为AI合成主播的上岗,也代表着搜狗多模态合成技能落地的深化。