图像天生模型卷起来了!
视频天生模型卷起来了!
下一个,便是音频天生模型。
近日,谷歌研究团队推出了一种语音天生的AI模型——AudioLM。
只需几秒音频提示,它不仅可以天生高质量,连贯的语音,还可以天生钢琴音乐。
论文地址:https://arxiv.org/pdf/2209.03143.pdf
AudioLM是一个具有长期同等性的高质量音频天生框架,将输入的音频映射为一串离散的标记,并将音频天生任务转化为措辞建模任务。
现有的音频标记器在音频天生质量和稳定的长期构造之间必须做出权衡,无法兼顾。
为理解决这个抵牾,谷歌采取「稠浊标记化」方案,利用预演习好的掩膜措辞模型的离散化激活,并利用神经音频编解码器产生的离散代码来实现高质量的合成。
AudioLM模型可以基于简短的提示,学习天生自然和连贯的连续词,当对语音进行演习时,在没有任何记录或注释的情形下,天生了语法上畅通、语义上合理的连续语音,同时保持说话人的身份和语调。
除了语音之外,AudioLM还能天生连贯的钢琴音乐,乃至不须要在任何音乐符号来进行演习。
从文本到钢琴曲:两大问题近年来,在海量的文本语料库中演习出来的措辞模型已经显示出其卓越的天生能力,实现了开放式对话、机器翻译,乃至知识推理,还能对文本以外的其他旗子暗记进行建模,比如自然图像。
AudioLM的思路是,利用措辞建模方面的这些进展来天生音频,而无需在注释数据上进行演习。
不过这须要面对两个问题。
首先,音频的数据率要高得多,单元序列也更长。比如一个句子包含几十个字符表示,但转换成音频波形后,一样平常要包含数十万个值。
其余,文本和音频之间存在着一对多的关系。同一个句子可以由不同的说话人以不同的风格、情绪内容和环境来呈现。
为了战胜这两个寻衅,AudioLM利用了两种音频标记。
首先,语义标记是从w2v-BERT这个自监督的音频模型中提取的。
这些标记既能捕捉到局部的依赖关系(如语音中的语音,钢琴音乐中的局部旋律),又能捕捉到全局的长期构造(如语音中的措辞句法和语义内容,钢琴音乐中的和声和节奏),同时对音频旗子暗记进行大量的降采样,以便对长序列进行建模。
不过,从这些token中重修的音频的保真度不高。
为了提高音质,除了语义标记外,AudioLM还利用了SoundStream神经编解码器产生的声学标记,捕捉音频波形的细节(如扬声器特色或录音条件),进行高质量的合成。
如何演习?AudioLM是一个纯音频模型,在没有任何文本或音乐的符号表示下进行演习。
它通过链接多个Transformer模型(每个阶段一个)从语义标记到风雅的声学标记对音频序列进行分层建模。
每个阶段都会根据上次的标记为下一个标记预测进行演习,就像演习一个措辞模型一样。
第一阶段在语义标记上实行此任务,以对音频序列的高等构造进行建模。
到了第二阶段,通过将全体语义标记序列与过去的粗声标记连接起来,并将两者作为条件反馈给粗声模型,然后预测未来的标记。
这个步骤仿照了声学特性,例如说话者特性或音乐中的音色。
在第三阶段,利用风雅的声学模型来处理粗糙的声学旗子暗记,从而为终极的音频增加了更多的细节。
末了,将声学标记输入SoundStream解码器以重修波形。
演习完成后,可以在几秒钟音频上调度AudioLM,这能够让其天生连续性的音频。
为了展示AudioLM的普遍适用性,研究职员通过在不同音频领域的2个任务对其进行考验。
一是Speech continuation,该模型保留提示的说话人特色、韵律,同时还能输出语法精确且语义同等的新内容。
二是Piano continuation,该模型会天生在旋律、和声和节奏方面与提示同等的钢琴音乐。
如下所示,你听到的所有灰色垂直线之后的声音都是由AudioLM天生的。
为了验证效果如何,研究职员让人类评分者去听简短的音频片段,去判断是人类语音的原始录音还是由 AudioLM天生的录音。
根据网络到的评分,可以看到AudioLM有51.2%的成功率,意味着这一AI模型天生的语音对付普通听众来说很难与真正的语音区分开来。
在东北大学研究信息和措辞科学的Rupal Patel表示,之前利用人工智能天生音频的事情,只有在演习数据中明确注释这些细微差别,才能捕捉到这些差别。
比较之下,AudioLM从输入数据中自动学习这些特色,同样达到了高保真效果。
随着 GPT3 和 Bloom(文本天生)、 DALLE和Stable Diffusion(图像天生)、RunwayML和Make-A-Video(视频天生)等多模态 ML 模型的涌现,关于内容创建和创意事情正在发生变革。
未来的天下,便是人工智能天生的天下。
参考资料:
https://www.technologyreview.com/2022/10/07/1060897/ai-audio-generation/
https://arxiv.org/pdf/2209.03143.pdf
https://ai.googleblog.com/2022/10/audiolm-language-modeling-approach-to.html
https://google-research.github.io/seanet/audiolm/examples/