毫无疑问, AI 的涌现,让不少行业面临着技能改造,音乐圈子也不例外。

不仅人声仿照,在音乐创作这块儿, AI 也是卯足了劲,各种文本天生音乐模型是一个接着一个:

像是 OpenAI 的 MuseNet 、谷歌的 MusicLM 、 Meta 的 MusicGen ,还有前不久 Stability AI 家刚出来的 Stable Audio 等等等等。

这还只是一些比较出圈的 AI 音乐模型,其他的不有名的更是海了去了。

现在的AI作曲写出来的歌可以当短视频的BGM了

这么多天生音乐的 AI 模型,它们主打的,都是一个让音乐门外汉也能作曲,只要动动手会打字、会描述就 OK 了。

这么一说,让没什么乐理知识的世超其实很心动,作曲咱不会,但笔墨描述可是咱善于的领域。

于是,我们决定亲自试试目前市情上比较出圈的几款 AI 作曲模型,看看它们到底能不能实现从零作曲,以及写出来的曲子到底好不好听、符不符合哀求。

首先出场的是 Stability AI 的新作曲 AI :Stable Audio 。

官方说是用了超过 80 万个音频文件去演习模型,里面像音乐、音效、单一乐器演奏等都有包含,全体数据集的时长加起来有 19500 多个小时。

并且光靠措辞描述, AI 就能天生最长 90 秒的音乐。

风格跨度也是贼大,世超去它们官网听了下示例,有钢琴、架子鼓这种纯挚器乐的。

还有不同流派不同风格的,比如民族打击乐、嘻哈、重金属之类的。

乃至还能天生白噪音,像是一个餐馆里喧华的吵闹声, u1s1 听起来还蛮逼真的。

people-talk-in-a-busy-restaurant,差评,45秒

当然,官方公布切实其实建都是挑比较好的演示展示出来,到底用起来怎么样还是得亲自上手试试。

于是我们也注册了号,看看我这个音乐门外汉通过这个模型能创作出什么样的音乐来。

由于是刚发布,世超还花了好一下子韶光才进到 Stable Audio 的利用网页。

进去之后,我们先让它天生一段 30 秒的贝斯 solo , 112 个节拍,要 funk ,有律动一点。

天生过程大概用了一两分钟,世超听了下结果,倒是有点出乎猜想,是在弹贝斯没错,音乐风格也挺准确,但唯一的瑕疵便是这贝斯的音色不太清晰,像是指弹和 slap 的中间态。

接下来上点难度,乐器繁芜点,让它天生一段朗朗上口的盛行舞曲,中间带着热带打击乐,要有欢畅的节奏,适宜在沙滩上听。

这次 Stable Audio 有点小失落误,虽然节奏挺欢畅的,也挺适宜在沙滩蹦跶的,但提示词里的热带打击乐,我愣是没在这 30s 听出来。

再让它天生一段摇滚曲风的音乐,也是不出几分钟就搞定了,虽然听起来依旧不怎么清晰,但摇滚曲风以及电吉他、架子鼓的声音还是能听出来的。

整体体验下来,在音乐天生这块, Stable Audio 的表现确实没有什么大错,偶尔还会有一些出乎猜想的表现。

最少对付一些想给短视频插背景音乐的创作者来说,这个完备够用了。

并且这次, Stable Audio 还专门在时长高下了一点功夫,普通版可以天生 45 秒以内的音频,想要更长的话,就升级个 PRO 版,可以连续天生 90 秒。

接下来上第二位选手:Meta AI 的MusicGen ,它基于 Transformer 架构,靠上一段音频预测天生之后的音频片段。

现在 MusicGen 只公布了 Demo ,能在 huggingface 上浅浅体验一波。

比如说天生一段嘻哈曲风的音乐,听起来很抓耳,节奏倒是蛮干净利落的。

和 Stable Audio 不太一样的是, MusiacGen 在天生音乐时,提示词会更自由一点,不仅有笔墨的选项,还可以补充一些声音文件。

操作起来很大略,输入提示词,再把想参考的音乐片段直接拖到文件框内,或者现场录音,当然音频提示也可以不填。

虽然 MusiacGen 一次最长只能天生 30s 的音频,但有音频提示的加成,天生一段长音频也不是不可能,便是会有点麻烦。

只要每次天生 30s 的音频后,前后截取 10s 作为之后的提示,末了拼接起来便是一段长音频了。

不过在全体体验过程中,有一点其实会劝退一大波人,那便是它天生的速率实在是太慢了,三四分钟还算好的,离谱的是有时等了好几分钟,结果溘然弹出个崩溃了的弹窗。


今年年初,谷歌也发布了音乐大模型 MusicLM ,在现有的作曲 AI 中,谷歌的这个功能最多。

除了最根本的笔墨天生音乐之外, MusicLM 还搞了一些其他花样。

比如说故事模式,可以让它天生一段 1 分钟长的音乐: 0~15s 冥想、 16~30s 醒来、 31~45s 跑步、 46~60s 结束。

天生的音频听起来确实还挺符合哀求的,但就还是老毛病,乐器的声音不足清晰,各个段落之间的转换也有点生硬。

还有看图配乐的功能,给出一个经典的拿破仑骑马穿越阿尔卑斯山的图,再对图片进行一些描述, MusicLM 就能给天生 30s 的配乐。

这次听起还真有点戏剧的觉得。

MusicLM 同样没有对外公布,想要体验只能在 AI Test Kitchen 上排队获取内测资格。

OpenAI 的 MuseNet ,在三年前就已经在官网公布了。

不过最近这几年倒是没怎么更新,还是基于和 GPT-2 一样的技能。
并且 3 年过去了,这个 AI 还没有对外开放利用。

但看看它官网对 MuseNet 的先容以及给出的示例,估摸着出来便是吊打上面模型的存在。

先不说天生音乐的质量,就光是时长就已经很顶了,最多可以天生 4 分钟的音乐。

比拟上面提到的几个模型,天生音乐的质感也是分分钟秒杀,世超从官网下载了个示例,大家可以一起听听。

不说是 AI 创作的,我还真会以为是那个音乐大师编的新曲子,有引入、有高潮,乐器的声音也很清晰,再大略调度下便是个完全的音乐作品了。

当然,有这样的效果除了有神经网络的功劳外,演习用的数据集也是起到关键浸染的。

OpenAI 统共用了数十万个 MIDI 文件演习 MuseNet ,下面这张图便是用到的部分数据集,从肖邦、巴赫、莫扎特到迈克 · 杰克逊、披头士、麦当娜,从古典到摇滚到盛行,险些各种风格的音乐都能在里面找到。

不止国外,海内这几年 AI 音乐也是发展得火热,去年华为开拓者大会上,就公布了一款音乐 AI :Singer 模型,网易云面向音乐人推出了网易天音,作词、作曲、编曲直接都能靠 AI 办理。

在前不久的 2023 天下人工智能大会上,腾讯多媒体实验室也展示了自研的 AI 通用作曲框架 XMusic 。

总的来说,这几个 AI 作曲模型也算是各有千秋,想要的音乐风格基本都能天生,乃至有时天生的音乐不仔细琢磨还真听不出来是 AI 天生的,用在一些短视频中也是能妥妥地 “ 蒙混 ” 过去。

但若要以一个专业人士来看的话,上面这些 AI 恐怕都或多或少有些缺陷,最明显的便是上面提到的那几个 AI ,它们天生的音乐在乐器演奏上险些都不太清晰。

并且,和 AI 作画一样, AI 音乐也是版权问题的一大重灾区,由于干系法律还跟不上 AI 发展的速率,时时时就有 AI 侵权的官司。

比如今年 1 月份,美国唱片业协会向政府提交了一份侵权报告,提醒他们要重视 AI 音乐侵权的问题。

就连 MusicLM 的研究职员也亲口承认了侵权问题,在论文中写到会有盗用创意内容的潜在风险。

缘故原由是在试验这个模型的过程中,创造它在天生的音乐里,大概有 1% 是直接从演习的数据集中照搬过来的。

也难怪现在大多音乐 AI 模型要么干脆不对外试用,要么只有 demo 或者排队内测,就连对外开放的 Stable Audio 也是反复强调自己的数据集是经由 AudioSparx 授权的。

抛开版权问题不说,目前 AI 在音乐这块的发展确实是令人咋舌,拥抱 AI 音乐也已经是行业内的大势所趋。

像专门供应轻音乐的 AI 音乐公司 Endel ,已经先后得到了华纳、索尼等音乐巨子的投资, AI 音乐创作平台 Soundful 也拿到了环球音乐、迪士尼、微软的投资。

当然,入局 AI 音乐是出于商业以及科技趋势的考量,在音乐性与艺术性上,目前的 AI 还是远不及人类创作者的,而这也是未来 AI 最该当优先考虑的。