环球首个AI合成主播发布会。中国青年网卢冠琼 摄
作者 | 卢冠琼 陈琛 杨月 宋继祥
来源 | 中国青年网
中国青年网乌镇11月7日电(卢冠琼 陈琛 杨月 宋继祥)11月7日,在第五届天下互联网大会上,有这样一场发布会,让发布会的主持人倍感压力和“虐心”。
当天,搜狗公司CEO王小川、新华社副社长刘思扬等高朋和著名主持人邱浩联合带来了一场跨界产品发布会:搜狗与新华社互助开拓、环球第一个全仿真智能虚拟主持人——“AI合成主播”正式亮相。
这让合成主播原型且作为现场主持人的邱浩不禁感慨:“一个真实的主播,站在现在这个地方来主持一个合成主播的发布会,而且还要向众人去发布,这样一个合成主播有多么的强大,切实其实虐心啊!我以为这须要非常强大的勇气!”
“AI合成主播”到底是什么?主播长什么样?
环球第一个全仿真智能合成主持人由搜狗与新华社互助开拓。不雅观众只要输入一句既有的新闻文本,屏幕上就会涌现一位虚拟的新华社新闻主播,他不仅会用和真人一样的声音进行播报,连唇形、面部表情也能完备吻合。这样的视频效果,无论看上去还是听起来,都与现实中的新华社主播的本人播报没有太大差别。
环球首个AI合成主播。中国青年网陈琛 摄
据理解,在合成主播的开拓过程中,搜狗公司的干系技能职员同新华社的新闻主播一同进行了各种探索考试测验,在“搜狗分身”技能的支持下,通过人脸关键点检测、人脸特色提取、人脸重构、唇语识别、情绪迁移等多项前沿技能,并结合语音、图像等多模态信息进行联合建模演习后,“AI合成主播”正式出身。
什么是“搜狗分身”技能?
据搜狗公司智能语音奇迹部总经理王砚峰先容,“搜狗分身”技能是搜狗人工智能的核心技能之一,出身于搜狗“自然交互+知识打算”这一人工智能理念之下。该技能能够利用搜狗的AI能力,从图像表情,声音措辞习气,逻辑思维等层面对AI进行拟人化演习,然后克隆制造人类的AI分身,进而帮助人类提高信息表达和通报的效率。
以“AI合成主播”为例,该产品就创造性地利用新华社中、英文主播的真人形象,合营“搜狗分身”的语音、合成等技能仿照真人播报画面,使大众享受到逼真度极高的图像效果。
这种播报形式,打破了以往语音图像合成领域中,只能纯挚创造虚拟形象,并合营语音输出唇部效果的约束,极大地提高了不雅观众信息获取的真实度。同时,利用“搜狗分身”技能,“AI合成主播”还能实时高效地输出音视频合成效果。
在“搜狗分身”技能的支持下,利用者通过笔墨键入、语音输入、机器翻译等多种办法输入文本后,将得到实时的播报视频。这种操作办法将极大减少新闻媒体在后期制作的各项本钱,让新闻视频的制作效率有了极大的提高。
据先容,早在2012 年,搜狗就开始了对语音技能研究的探索,并逐步发展为中国最大的语音识别引擎,目前,搜狗日均语音要求达5亿次,经由多年的技能沉淀和数据积累,已具备多语种、多音色的语音合成能力,并能实现个性化语音合成和情绪迁移。制作AI合成主播的技能团队,曾多次在机器视觉国际顶级赛事IEEE CVPR WAD、Pascal VOC、Mega Face以及语音合成领域最具威信性的Blizzard Challenge赛事上斩获冠军。
王小川:让产品成为个人智能好助手
搜狗公司CEO王小川在接管中国青年网采访时表示,合成主播只是“搜狗分身”技能的一个运用分支,除此之外,技能未来还将在娱乐、医疗康健、教诲、法律等多个领域供应个性化的内容。“比如我们有时会收到大量的祝福短信,一条条去回答,如果哀求回答内容还不一样,这样就很费时费力。那么把‘分身’技能用在这里,去构建一个虚拟的‘你’,去根据不同的信息进行回答,这将大大提高效率。通过技能发展,相信这个‘你’还能做更多事,我们的愿景是让产品成为个人生活的好助手、好帮手。”
编辑 | 刘小倩