谷歌再出黑科技
用人工智能仿照出来的声音
险些可以和真人以假乱真
在我们的印象中,机器的声音都是冰冷的电子音,虽然人类也一贯致力于研究让机器“说人话”,但搞出来的成果彷佛还是跟人类真实的声音差距很大,生硬、不自然一贯是通病。
在这方面,谷歌倒是一贯不遗余力的在研究,所谓只要功夫深,铁杵磨成针。前段韶光,他们终于宣告,让机器说人话这事儿,有进展了!
!
!
谷歌最近发布了一个利用神经网络合针言音的模型,它可能会让电脑发出的声音变得更有“人味儿”。
根据dailymail宣布,谷歌最近展示了一种新的语音系统,可以让语音助手的声音听起来更加自然,更加像真人的声音。
(图片来自dailymail)
这个名为Tacotron 2的机器人,是通过真实的人类对话案例和文本记录演习出来的,听说这样可以让它的互换显得更加自然。
日前,这套机器人系统演示了一下如何顺利的朗读不同文本,乃至连Peter Piper的绕口令都读了!
!
!
嗯......只是被一些比较困难的笔墨绊住了,不过也可以理解啦,毕竟人类自己读绕口令还嘴瓢呢。
不信你试试
——
Peter Piper picked a peck of pickled peppers.
Did Peter Piper pick a peck of pickled peppers?
If Peter Piper picked a peck of pickled peppers,
where's the peck of pickled peppers Peter Piper picked?
(图片来自Tom's Hardware)
在一篇新的博客文章中,谷歌的研究职员阐明说,最新的笔墨转语音系统(TTS)可以把从培训中学到的内容用自己的话说出来。
与普通的TTS系统相反,Tacotron 2不该用繁芜的措辞和声学特性作为输入,用语音示例和相应的文本记录进行演习,使系统从文本天生更显自然的人类声音。
(图片来自TechCrunch)
关于Tacotron 2,谷歌这次综合了以前研发的Tacotron和WaveNet的思路,并且增加了更多的改进。
这里大略说一下Tacotron和WaveNet——
Tacotron是今年3月Google 提出的一种新的端到真个语音合成系统。该系统可以吸收字符输入并输出相应的原始频谱图,然后将其供应给 Griffin-Lim 重修算法直接天生语音。
WaveNet 则是由Deepmind在一年条件出的天生原始音频波形的深层神经网络模型,已正式商用于Google Assistant中。今年10月,Deepmind揭橥博客称,该模型比起一年前的原始模型效率提高1000倍,且能比目前的方案更好地仿照自然语音。
研发团队对Tacotron 2的表现也充满信心,很多听众都表示它的效果都可以拿来跟专业录音媲美了。
研究职员对此阐明说,Tacotron 2的事情事理是利用序列-序列模型来映射序列字母到编码音频的功能,这个中还结合了发音、音量、速率和语调,以是它可以捕捉到人类发音的各种奇妙之处。
比如wo cao 这个词
wō cāo 表歧视
wǒ cáo 表疑问
wǒ vào 表愤怒
wò cào 表惊叹
同理可用于fuck一词。
末了,这些特色被转换成24 kHz的波形。
虽然Tacotron 2在听众的评分中表现还不错,但研发团队也表示——
它还并不是很完美。
“只管我们的样本听起来不错,但还是有一些棘手的问题须要办理。例如,Tacotron 2系统在繁芜词语(比如“decorum”和“merlot”)方面还是有些困难,在极度的情形下乃至会随机产生些奇奇怪怪的噪音。”研究职员说。
其余有点遗憾的是,Tacotron 2系统还不能实时天生音频。
以及,虽然可以比较流畅的天生自然人声,但他们还不能掌握系统所产生的音频,比如勾引它这段音频的感情是高兴还是悲哀。
毕竟用丧气的语调读一段婚礼致辞场面还是略显尴尬的。
谷歌的研究职员对这些问题还是很乐不雅观的——“这些问题,每个都是有趣的研究问题啊”(可以说是很热爱学习和研究的一群人了)。
Tacotron 2建立在WaveNet的一些想法的根本上,WaveNet能够通过剖析来自人声的声波来创造自然的合针言音,而不是专注于人类措辞。
去年,DeepMind的研究职员声称,这个首创性的项目已经把打算机系统和人类语音之间的质量差距减半了。
最新的Tacotron 2系统旨在进一步进行文本到语音的转换,以得到更自然的打算机天生的语音。
根据宣布,Tacotron 2 模型均匀见地得分为 4.53(满分5),专业录音均匀见地得分为 4.58。
看来大多数利用者对这套新的笔墨转语音系统还是十分满意的,感兴趣的同学可以点击阅读原文链接,在网站上品品Tacotron 2 的发音够不足纯洁。