实时翻译耳机横空出世深度剖析三大年夜核心技能｜独家

实际上，耳机是一个非常成熟的家当，环球一年市场发卖量超过 3.3 亿对，每年坚持稳定的发展。
根据调研机构 Statista 预估，2016 年环球耳机销量约 3.34 亿对，预估 2017 年会发展到 3.68 亿对。
其发展可以阐明的成因除了真正无线（True Wireless）之外，再有的便是智能功能了。

同时，耳机产品也是一个相称分众的市场，追求音质的用户或是电竞玩家每每乐意付大钱购买具有高音质、立体声、高舒适度的产品，运动族群更在乎的则是防水、减少汗水或运动造成耳机掉落、或是具有生理量测的产品，其余也一群人是追求时尚、品牌而购买昂贵的耳机，例如 Apple 收购的 BEATS 。

不可否认的是，消费者可能每天会戴耳机听音乐，但不会每天都有跟外国人对话的需求，这让实时翻译成为一种有也不错而非必须性的附加性功能，因此耳机业者多会将其与更多功能结合，包括无线、智能语音助理等，因此实时翻译耳机虽后端整合了许多深度学习的技能，目前看来仍是话题性远高于实用性。

今年 Google 揭橥了一系列的硬件产品，个中 Pixel Buds 蓝牙耳机除了可以呼叫 Google Assistant 外，最吸睛的便是结合自家 Google 翻译可支持 40 种措辞实时翻译的功能。

实时翻译耳机横空出世深度剖析三大年夜核心技能｜独家

不久之前，韩国最大搜索引擎 NAVER 旗下的通讯软件 LINE 也推出 MARS 翻译耳机，对话的两个人各自利用一个耳塞，就能立即从耳机入耳到翻译的语音，背后同样是仰仗自家的 AI 平台 Clova 及 Papago 即时翻译做事，目前可支持 10 种措辞。

图｜LINE 的 MARS 翻译耳机得到 CES 2018 最佳创新奖。
（图片来源：LINE）

图｜LINE 的 MARS 翻译耳机是一人利用一个耳塞，让说不同措辞的两个人也能沟通。
（图片来源：LINE）

总部位于深圳的耳机公司万魔（1more）声学外洋奇迹部总经理陈颖达接管 DT 君采访时剖析，耳机的新趋势便是真正无线（True Wireless Earbuds）蓝牙耳机＋智能功能。
在苹果推出 AirPods 之后，True Wireless 的趋势就确立下来了，音源与耳机或是旁边耳的相通，完备不须要线路连接，跟过去蓝牙耳机的旁边耳还是有线相连不同。

在智能功能方面有三大块，首先是支持生物识别运动追踪（biometric sports tracking）的运动耳机，例如可监测用户心率、打算运动过程中燃烧的卡路里等，市场需求看好；第二则是整合语音助理如 Apple Siri、Google Assistant ；第三便是实时翻译。

耳机的上风在于遍及性及方便性，是启动个人化智能做事、翻译对话最直不雅观的第一个入口，除了大企业，不少初创或音响公司都看好这块市场，例如德国品牌 Bragi 继推出防水（可于拍浮利用）、丈量心跳的产品，又进一步推出结合 AI 技能及 iTranslate 运用，可实时翻译的 The Dash Pro 耳机，其余英国的 Mymanu Clik 耳机也可支持 37 种措辞即时翻译。

虽然说在市场层面还存在疑问，实时翻译耳机在技能上确实已经取得较大的进展。
那么，这些强调利用 AI 技能的实时翻译耳机背后究竟是如何运作的呢？“三大核心：语音识别＋机器翻译＋语音合成，”台湾的中研院资讯科技创新研究中央副研究员曹昱清楚点出关键。

全体流程便是，耳机听到对方讲话的内容，识别出这是什么措辞如英文、西班牙文等，并且把语音变成笔墨，第二步骤以翻译引擎进行笔墨对笔墨的翻译，末了便是把翻译结果做语音合成，播放出来。
可以想成这是凑集了听写员、翻译员、朗读员三个角色于一身。
只不过，实际上每一个核心涉及的技能多且繁芜。

图｜实时翻译耳机三核心：语音识别、措辞翻译、语音合成（图片来源：微软研究院）

一、语音识别

首先利用的技能便是语音识别，Speech Recognition、自动语音识别（ASR，Automatic Speech Recognition）等都是常见的技能词汇，目的便是把说话者的语音内容转变为笔墨，目前多因此利用深度神经网络（DNN，Deep Neural Network）、递归神经网络（RNN，Recurrent Neural Network）为主。

图｜语音识别的紧张流程。
（数据来源：Amazon）

语音识别的运用处景相称广泛，像是车内互动掌握、智能助理、智能音箱、居家机器人等，紧张的研究方向包括降噪、长间隔识别等，目的都是为了提升识别度，例如居家机器人的问题就必须打破长间隔语音识别的问题。

无线耳机有四个关键零组件：喇吧单体、麦克风、蓝牙晶片以及电池。
一家外商声学公司对 DT 君表示，要支持实时翻译，麦克风就很关键，收音要够清楚，语音识别度才会高，在硬件上多会利用指向性麦克风，并且搭配语音识别算法，判断声音是来自讲话者或环境，进而强化人声，降落环境噪音的滋扰。

过去语音识别紧张是采取高斯稠浊模型（GMM，Gaussian Mixture Model）＋隐马尔科夫模型（HMM，Hidden Markov Model）、支持向量机（SVM，Support Vector Machine）算法等，一贯到神经网络之父 Geoffrey Hinton 提出深度信念网络（DBN，Deep Belief Network），匆匆使了深度神经网路研究的复苏，并且将 DNN 运用于语音的声学建模，得到更好的表现，之后微软研究院也对外展示出利用 DNN 在大规模语音识别取得显著的效果提升，大量的研究陆续转向了 DNN，比来又有不少基于递归神经网络开拓的语音识别系统，例如 Amazon Echo 就利用了 RNN 架构。

二、机器翻译从规则、SMT 走向 NMT

第二个阶段便是翻译，在人工智能中，机器翻译一贯是许多人想打破的领域，观点便是通过剖析原始措辞（Source Language）找出其构造，并将此构造转换成目标措辞（Target Language）的构造，再产生出目标措辞。

初期多是采纳把措辞规则写进系统的办法，但这种以规则为主的机器翻译（RBMT，Rule-based Machine Translation）是将人类译者或是措辞学家建构的词汇、文法、语意等规则写成打算机程序，但措辞规则难以穷尽，而且例外、鄙谚也不少，除了耗费人力，翻译结果的准确性也遭人诟病，使得机器翻译的发展一度被打入冷宫。

到了 80 年代晚期，IBM 率先展开并提出统计式机器翻译（SMT，Statistical Machine Translation）理论，紧张的研究职员 Peter Brown 、 Robert Mercer 等陆续揭橥《A Statistical Approach to Machine Translation》、《The Mathematics of Machine Translation: Parameter Estimation》论文，不仅被视为是该领域的开山之作，也再次引爆了机器翻译的热潮。

SMT 紧张是通过搜集大量的原文与译文，通过统计模型让电脑学习字词的产生、转换、排列，形成合宜的句子，大略来说，例如 1000 句中文就有 1000 句英文进行对照，像是联合国有 6 种官方措辞文件，加拿大政府的官方文件也有英文及法文，以及辞典，都是常被利用的素材。

不过，就在 SMT 火红了，并且成为机器翻译领域的主流技能之后，这两位专家却加入有名的量化基金公司 Renaissance Technologies，跑去华尔街用数学及统计模型剖析股票、管理基金，变成了 10 亿美元级别的富豪。

“以机器翻译而言，20 年前 IBM 播种，20 年后 Google 收成”，台湾清华大学自然措辞处理研究室教授张俊盛曾如此形容。

Google 翻译是目前环球拥有最多用户的翻译平台，2000 年初 Google 就开始投入机器翻译的研究，并且延揽了多位重量级人物帮忙开拓，包括语音公司 Nuance 创始人 Michael Cohen 、有名机器翻译专家 Franz Och 等人。

最初卖力领导全体 Google 翻译架构及做事开拓的 Franz Och 曾表示，Google 翻译操持在 2001 年启动时只支持 8 种措辞，速率很慢、品质不佳，到了 2006 年他们开始采取统计式机器翻译，并且同时利用大量的语料库作为演习。
身为搜索引擎龙头，上风便是可通过网络搜集弘大的语料库、双语平行数据，提升机器翻译的水平。

图｜统计式翻译的观点。
（图片来源：National Research Council of Canada）

那时 Google 采取 SMT 中最遍及的一个算法——片语为本的机器翻译（PBMT，Phrase-based Machine Translation），把一个句子切成多个单字（words）或短语（phrases）之后个别翻译。
不过，这位 Google 翻译之父在 2014 年离开 Google 加入生医初创公司 Human Longevity，现则任职于癌症筛检初创公司 Grail。

但 Franz Och 的离开，并未对 Google 造成太大困扰，由于几年前 Google 就开始利用 RNN 来学习原文与译文之间的映射，到了 2016 年下旬 Google 正式揭橥翻译做事上线 10 年以来最大的改版，宣告转向采取类神经机器翻译（NMT，Neural Machine Translation），也便是现在大家耳熟能详的深度学习神经网络模型，以多层次的神经网络贯串衔接原文与译文，输出的字词顾虑到全句文脉，同时，也利用了大量 Google 自家开拓的 TPU 来处理繁芜运算，一举提升翻译的水平。

实在，利用深度神经网络进行机器翻译的观点在 2012、2013 年就被提出，DeepMind 研究科学家 Nal Kalchbrenner 和 Phil Blunsom 提出了一种端到真个编码器-解码器构造，“不过，一贯到 Google 出了论文，用 NMT 取代 SMT，让大家完备相信神经网络在翻译是可行的，现在险些所有公司都转向 NMT，我个人的想法是大概再三年机器翻译就可以达到人类翻译的水准”，专攻深度学习机器翻译的初创公司真译智能创办人吕庆辉如是说。

此后，NMT 成为了新一代机器翻译的主流，采取这种技能的做事在 2016 年下半年开始大量问世，Facebook 在今年 5 月也宣告将翻译模型从 PBMT 转向了 NMT。

Google 翻译产品卖力人 Barak Turovsky 不久前接管媒体采访时表示：“SMT 是一种老派的机器学习（an old school machine learning）”，在网络上查找人类已经翻译过的内容，将其放进一个超大型的索引中，机器就开始看统计模式学习翻译。
PBMT 的局限就在于必须把句子切成好几块，实行翻译时只能同时考量少数几个笔墨，而不是考虑高下文，以是如果要翻译的措辞是属于不同语序构造，就会显得相称困难。

NMT 最大的打破便是它的运作办法类似于大脑，将一全体文句视为是一个翻译单元（unit），而非将文句切成好几块，这有两个优点，一是减少工程设计的选择，二是可依据高下文判断，提升翻译的精确性及流畅性，听起来会更自然。

在 NMT 技能中，除了递归神经网络（RNN）、卷积神经网络（CNN）、序列到序列（sequence-to-sequence）的长期短期影象模型（LSTM，Long Short-term Memory）之外，近期的研究焦点包括了自把稳力（Self-Attention）机制、以及利用天生式对抗网络（GAN，Generative Adversarial Networks）来演习翻译模型。

三、语音合成追求人类般的自然

实时翻译耳机的第三步骤便是语音合成（Speech Synthesis）或称为文本转语音（TTS，Text to Speech），也便是让电脑把翻译好的笔墨变成语音，并播放出来。
重点在于如何天生更逼真的语音、更像人类说话的口气跟语调。

让电脑讲人话的企图心同样在很早期就涌现，1970 年代就有了第一代的 TTS 系统，例如半导体公司德州仪器（TI）开拓数字旗子暗记处理（DSP）芯片，还推出一个 Speak＆Spell 玩具，会把打字的内容念出来，帮助小朋友学习。
之后随着科技的进步，合成技能也从单音、片段变为可产生连续式的语音。

大略来说，要让电脑发出与人类相似的语音，常日会先录下人类或配音员说话，建立录音样本，再把单字切成音素（phoneme），并对录音进行剖析，量测语调、速率等，建立语音模型，就可以制造出先前未录下的单字或句子。
接着当笔墨输入，系统会选出适宜的音素、腔调、速率进行重组，再把这段笔墨转针言音播放出来，就像人说话一样。

图｜TI 开拓的 Speak＆Spell 成为美国有名的玩具。
（图片来源：Amazon）

“目前语音合成技能该当便是 DeepMind 开拓的 WaveNet 最自然”，曹昱指出。

语音合成以拼接式 TTS（concatenative TTS）为根本，须要大量的人类语音片段作为数据库，但如果想要转换为另一位说话者、或是加强语气或感情，就必须重修新的数据库才能做到，使得修正语音的难度很高。

因此，涌现了另一种参数式 TTS（parametric TTS），产生数据所需的所有信息都被存储在模型的参数之中，只要通过模型的输入值，就能掌握语音的内容和特色，再把输出值丢到语音编码器（Vocoders）来产生声音，是一种完备由机器天生的语音，优点是本钱较低，缺陷则是机器味较重。

而 WaveNet 利用 CNN 架构，同样是拿人类说话作为演习素材，但不像拼接式 TTS 把声音切成许多片段，而是利用原始波形，而且为了让声音更逼真，也必须见告机器文本（text）内容是什么，以是也将把文本转换为措辞或语音特色喂给机器，“不仅要考虑以前的音频样本，还要靠虑文本内容”，以是还可以做出像人类讲话时的口气停顿或是呼吸的声音。
这些都让 WaveNet 的语音合成更有“人味”，今年 10 月 Google 宣告把最新版本的 WaveNet 放到美式英文版以及日文版的 Google Assistant 中。

图｜DeepMind 开拓的 WaveNet 提高了语音合成的逼真度。
（图片来源：DeepMind）

随着深度学习技能的发展，不论是在语音识别、机器翻译、还是语音合成，都可看到运用水平已有所提升，不过，实时翻译耳机的实际运用仍无法知足所有人，举例来说，Google Pixel Buds 的翻译功能只限于 Pixel 2 手机利用，而且要一句一句说，还无法供应连续性的翻译，例如当你想要用它来看外国电影，这个方法就行不通。

其余，Pixel Buds 的麦克风收取利用者的声音，然后通过手机大声说出翻译，对有些人还是会感到有一些尴尬。
而 LINE 的 Mars 耳机是让对话的两人各戴一个耳塞，翻译的内容只有自己听得到，看似可以办理这个尴尬问题，但实际效果如何还得待 2019 年上市后才知道。

虽然实时翻译耳机还不足完美，是否能够通过市场的考验还未可知，但要往零阻碍沟通的方向提高，AI 无疑将扮演主要的角色。

每期AI知识网

实时翻译耳机横空出世深度剖析三大年夜核心技能｜独家

中国企业研发全球首款智能眼部OCT疾病筛查系统完成临床试验

号称我国第一部AI片子传说你怎么看