六一儿童节这天,腾讯AI“艾灵”正式宣告出道。

AI“艾灵”出身自腾讯AI Lab的实验探索性技能项目——AI 数字人。
钛媒体曾在宣布《“复活”马丁·路德·金,数字人时期已经被点亮》中先容过该项目,该项目的目标是打算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然措辞理解等多模态AI能力领悟,天生可交互内容,并打造出拟人度较高的智能数字人。
在运用上,该项目紧张为了推进AI在虚拟偶像、虚拟助理、在线教诲、数字内容天生等领域的运用。

此前,该实验室还推出过电竞讲授“天鹅静”等虚拟人,比较起“天鹅静”,艾灵更“善于”感情充足的歌唱、舞蹈。
AI艾灵与她的“师傅”龟娘合唱曲目《下山》、唱跳《你最最最主要》等视频也正在陆续上岸B站。

六一这天,艾灵与王俊凯与雄安孩子共同推出的新歌《点亮》。
新歌分歧凡响的地方是,在H5界面,用户仅需选取几个关键词,艾灵就能基于此创作歌词并完成演唱。
本次艾灵能与王俊凯一同创造歌曲,则紧张依托了AI Lab两项最新研究成果:DurIAN个性化歌声合成和歌词创作模型SongNet。

不会跳舞的歌姬不是好AI腾讯AI Lab推出唱作人艾灵

艾灵可依据选取关键词作词演唱

DurIAN声学模型,让AI学会人类歌唱技巧

早期的自动合针言音听书软件,利用的是最原始的机器合针言音,即直接将各个字词的发音生硬地拼接到一起,没有人类在自然说话和唱歌时自然起伏的韵律。

但现在随着机器学习技能的发展,合针言音的拟真度也取得了进展,通过机器学习过程,AI也逐渐学会了人类唱歌的技巧,比如唱腔的时长、发音的停顿以及何时该有高音等等。
基于DurIAN声学模型,艾灵的歌声合成要经由以下三个步骤:

首先,研究者以音素为基本发音单元将任意歌曲描述为持续串音素的序列;

然后通过剖析歌谱,从笔墨、旋律、节奏等多个维度分别提取和预测词曲中每个音素的发音、时长、停顿、音高、风格和演唱技巧等特色;

末了利用由真人(中国网络声优龟娘)演唱的歌声演习得到的深度神经网络声学模型和声码器模型,合成出与真人声线高度相似歌声音频。

艾灵的歌谱剖析过程

在机器合成歌声方面,初音未来等虚拟偶像本色上并不是人工智能的产物。
而是通过“机器合成+人工调教”的模式,如果缺少了人工调教的过程,虚拟歌姬的演唱只是一堆电子音的凑集,而不会有富有感情的歌唱技巧。

在贴吧中,有网友曾吐槽“洛天依很难调教,由于须要一个音一个音去修正”,现在基于DurIAN声学模型,AI可以取代人工调教的困难过程,让AI直接学会人类的歌唱技巧。

腾讯AI Lab在端到端语音合成模型DurIAN根本上进行修正,加入基频信息、说话人信息和措辞信息来进行歌声合成的声学模型建模。
该模型不仅可以从人的说话数据直接演习出唱歌模型,还可以实现跨语种歌声合成,比如用英文说话人的声音合成中文歌声。

对付运用与前景,腾讯AI Lab表示,\"大众这项技能可以用于降落歌曲制作过程中录音环节的本钱,更可以用于打造虚拟偶像,成为广大专业和社区音乐人的制作工具。
\"大众

除了 AI 歌声合成技能之外,腾讯 AI Lab 还在研究数据量极小和录音质量差条件下的歌声合成。

歌词创作模型SongNet:为你写歌

在H5中,艾灵可以根据命题创作歌词,这是基于腾讯AI Lab最新研发的歌词创作模型SongNet。
该深度学习模型最大的特点是可以给定任意格式和模板来天生相契合的文本。

不过,当前艾灵只能根据系统供应的关键词天生根本歌词并合成歌曲,还未能实现自由创作。

腾讯AI Lab表示,这是由于艾灵利用了基于数据依赖型的深度学习方法,腾讯将连续探索自动化音乐合成及基于全新乐曲自动天生歌词模板再自动填词的新方法。

腾讯AI Lab以陈奕迅的《十年》做了次改词实验,设定这首歌词的格式,通过SongNet重新配词,可以担保格式不变,并根据原来的曲谱进行演唱:

原歌词:十年之前/我不认识你/你不属于我/我们还是一样/陪在一个陌生人旁边/走过逐渐熟习的街头

新配词:夜深人静/思念你样子容貌/多少次孤单/想伴在你身旁/是什么让我如此抱负/为何会对你那般痴狂

该任务的寻衅在于既要天生跟格式同等的文本,又要担保句子的整体性,还要有歌词的韵律以及美感。

SongNet模型的基本骨架是一个基于Transformer的自回归措辞模型,腾讯AI lab表示,他们针对格式、韵律、句子完全性设计了分外的符号来进行标识和建模。
通过局部和全局两种把稳力机制达到了对高下文语义和格式同时建模的目的。

SongNet 模型框架

此外,SongNet 也采取了类似于 BERT 和 GPT 的预演习和微调范式,通过在大规模文本语料的预演习和歌词语料的微调过程,可以进一步提升模型天生歌词的质量。

SongNet 根据给定格式填词(宋词和十四行诗)

SongNet 根据给定内容局部补全精修

天生好的歌词会提交给歌声合成模块,再与对应乐曲进行领悟,就能完成唱作的过程。

腾讯AI Lab表示,由于这次同时设置了高下文约束和蕴含特定关键词的限定,以是会在一定程度上降落模型天生歌词的逻辑性和连贯性。
未来一方面会持续增强模型对歌曲主题和情绪的感知度,另一方面也会设计模型策略来进一步提升天生的歌词的逻辑性、连贯性以及幽美度。

谈及运用,除了本次六一献唱,未来艾灵还能借助腾讯AI Lab研发的王者光彩游戏讲授天生模型来天生游戏讲授词,再通过语音合成实时天生生动活泼的讲授。

(本文首发钛媒体App,作者/芦依,编辑/宇航)