智东西("大众号:zhidxcom)编 | 王颖

导语:Facebook研发出可以转换歌声的AI模型,能在5~30分钟将一个歌手的声音转换成另一个歌手的声音。

智东西4月17日,Facebook AI研究院和以色列特拉维夫大学的科学家们揭橥了一篇关于转换歌手歌声的论文——《无监督的歌声转换》(Unsupervised Singing Voice Conversion)。

这篇论文描述了一种可以直接将一个歌手的声音转换成另一个歌手声音的系统。
这个别系能够对以前对未碰着过的,未分类、未注释的数据实行转换。

最快5分钟偷声换日Facebook用AI玩起假唱

研究小组称,他们的模型仅用5到30分钟就能学会歌手之间的转换。

一、AI模型如何转换歌声?

这个AI模型分两个阶段进行培训。
首先对每个歌手的样本分别运用一个称为softmax重构丢失的数学函数(将神经网络得到的多个值,进行归一化处理,使得到的值在[0,1]之间,让结果变得可阐明。
即可以将结果看作是概率,某个种别概率越大,将样本归为该类别的可能性也就越高)。

然后稠浊矢量嵌入(即数值表示)得到新歌手的样本,演习歌手的样本天生后再进行反向翻译步骤。

为了扩充演习数据集,研究职员通过倒向播和改变相位来转换音频剪辑。
这种方法将数据集的大小增加了四倍。
第一次增加的数据创造出了一首胡言乱语的歌曲,但仍旧可以识别为同一名歌手所演唱,第二次增加的数据创造了一个已无法辨认歌手的新歌曲。

二、歌声转换无需大量演习数据

论文作者表示:“我们的方法不以文本或音符为条件,不须要各种歌手之间的平行演习数据,供应了一定的灵巧性以及其他声音特色,可以让我们有能力从自己声音的某些局限中解放出来。

研究职员先容,他们的转换方法建立在WaveNet的根本上,这是一种谷歌开拓的自动编码器(一种无监督的神经网络模型,它可以学习到输入数据的隐含特色,同时用学习到的新特色可以重构出原始输入数据),可以从音频记录的波形中天生模型。

它采取了反向翻译,即将一个数据样本转换为目标样本(在这种情形下,一个歌手的声音转换为另一个),然后将其翻译回来,如果与原文不匹配,则调度下一次考试测验。

此外,该研究小组的合成样本,在不输入歌手真实信息的情形下,能够利用更靠近源歌手的声音信息,构成一个“虚拟身份”。

三、歌声转换相似度获好评

在实验中,研究小组网络了两组公开的数据集——斯坦福大学的移动演出数字档案馆(DAMP)语料库和新加坡国立大学的针言和口语语料库(NUS-48E)。

第一组中,他们随机选择了5名歌手演唱的10首歌(个中9首被他们用来演习AI系统)。
第二组中,他们选择了12名歌手,每名歌手有4首歌,所有这些歌曲都被用于演习系统。

接下来,他们让人类评审员以1-5的评分标准来判断天生的歌声与目标歌声的相似性,并利用一个包含分类系统的自动测试来更客不雅观地评估样本的质量。

评审员对转换后的音频均匀打分约为4分(认为质量较好),而自动测试创造,所天生样本的识别精度度险些与重修样本的识别精度一样高。

研究职员表示,未来AI歌声转换模型将可以在存在背景音乐的情形下实行歌声转换。

结语:AI技能高速发展,不断催生新技能、新产品出身

自1956年AI的观点确立以来,人类一贯在这个领域进行不断的探索。

如今,AI在根本研究和技能家当方面都进入了高速发展期间,也开始越来越多的运用于日常生活和事情的各个方面。
不断涌现的各种AI机器学习模型被运用于医疗、建筑和艺术等各个领域。

AI正在作为新一轮家当革命的核心驱动力,不断催生新技能、新产品的出身。

论文链接:https://arxiv.org/abs/1904.06590

原文来自:VentureBeat