近日,“AI孙燕姿”翻唱歌曲在各大网络平台上走红。5月22日晚,歌手孙燕姿在社交平台发文回应称,人类无法超越AI技能已指日可待,凡事皆有可能,凡事皆无所谓,“我认为思想纯净、做自己,已然足够”。AI歌手是指通过打算机程序仿照出来的声音,可以进行唱歌演出的虚拟歌手。四月份开始,“AI孙燕姿”成为了网络上最热门的歌手,其翻唱的《发如雪》《爱在西元前》《半岛铁盒》等作品广受好评。现在,除了AI孙燕姿,还有AI周杰伦、AI王菲,乃至涌现了AI特朗普、AI孙笑川。这一次AI的表现惊艳了许多听众,比如“AI孙燕姿”的音色与孙燕姿原声险些一样、高产、唱歌着调、唱功精良、情绪表现上稍有不敷。随着人工智能技能的不断发展,AI歌手已经具备了相称高的音乐表现力和艺术性。
图源:B站
一、AI歌手的技能事理
AI孙燕姿是利用名为 SoVitsSvc (SoftVC VITS Singing Voice Conversion) 的开源项目(目前更新到4.1版本),天生了孙燕姿音色的歌曲。SoVitsSvc是一个歌声音色转换模型,通过SoftVC内容编码器提取源音频语音特色,与F0同时输入VITS更换原来的文本输入达到歌声转换的效果。同时,改换声码器为 NSF HiFiGAN解决议确定音问题。
详细来说,天生一个“AI歌手”紧张分为四个步骤:
数据网络:网络大量的音频数据和歌词数据,用于演习模型。特色提取:从网络到的音频数据中提取特色,例如频率、振幅、时域特色等。模型演习:利用深度学习算法,对网络到的数据进行演习,从而天生新的音乐作品或者仿照人类歌唱的声音和表现力。歌曲天生:根据演习好的模型,天生新的音乐作品或者仿照人类歌唱的声音和表现力。Kim[1]提出了一种新的端到端文本到语音(TTS)模型,这个模型采取了变分推断(variational inference)和对抗演习(adversarial training)等技能,以提高天生建模的表现力。此外,它还引入了随机持续韶光预测器(stochastic duration predictor),以从输入文本中合成具有不同节奏的语音。下图分别展示了该模型的培训程序及推理过程。
2021年,西北工业大学的Zhang Yongmao教授[2]提出了一种名为VISinger的高质量歌声合成系统,该系统可以直接从歌词和乐谱中天生音频波形。VISinger的技能架构紧张由三个部分组成:后验编码器、先验编码器和解码器。个中,后验编码器采取了变分自编码器(VAE)的构造,先验编码器采取了基于正则化流(NF)的构造,解码器采取了对抗天生网络(GAN)的构造。这三个部分共同协作,实现了从歌词和乐谱到音频波形的端到端歌声合成。VISinger的技能架构如下图所示:
二、AI歌手未来的运用
AI歌手的运用处景非常广泛,包括音乐制作、电影配乐、广告音乐、游戏音乐等。此外,AI歌手还可以用于音乐教诲、措辞学习和文化互换等领域。
随着人工智能技能的不断发展,AI歌手的前景也越来越广阔。未来,它将成为音乐家傍边不可或缺的一部分,为音乐创作和演出带来更多可能性。虽然由于技能上的限定以及版权等问题,目前AI歌手还无法完备替代真人歌手。但随着技能的进步以及法律的完善,AI歌手会有更惊艳的表现和更规范的创作形式。