编译 | 吴菲凝

编辑 | 李水青

智东西4月17日,近日,康奈尔大学未来交互智能打算机接口(SciFi)实验室发布了一款声呐眼镜EchoSpeech,该产品能根据嘴唇、面部肌肉的运动走向来识别无声命令。
这款看似普通的眼镜利用了声学感应和AI技能,并配备两对扬声器和麦克风,目前可以连续识别多达31条“无声语音指令”,准确率高达95%。

EchoSpeech的紧张运用处景包括喧华环境、未便利交谈的场合以及私密对话,还能帮助措辞障碍者与他人进行互换,兼具商业消费和医疗保健功能。
研发团队通过AI深度学习管道,来破译面部运动的声波传输轨道,利用卷积神经网络来解码无声措辞。

AI声呐眼镜来了读懂唇语隔空操控手机准确率达95

此外,研发团队目前正通过帮助项目Ignite来实现设备技能的商业化,未来将实现一定范围内的推广利用。

这篇名为《EchoSpeech:由声学传感驱动的眼镜上的连续无声语音识别(EchoSpeech:Continuous Silent Speech Recognition on Minimally-obtrusive Eyewear Powered by Acoustic Sensing)》的论文本月将在德国汉堡举行的CHI(Conference on Human Factors in Computing Systems)打算机协会会议上揭橥。

论文链接为:

https://dl.acm.org/doi/10.1145/3534621

一、可识别佩戴者唇部运动,转换准确率高达95%

康奈尔大学信息科学学院博士生张瑞东,也是EchoSpeech声呐技能研究的紧张参与者、论文的紧张作者,在视频中演示了EchoSpeech眼镜的形状、事情事理和利用方法。

在外人看来,张瑞东像是在奇怪地自言自语,他明明在说话却没有发生任何声音。
实际上,他正在向EchoSpeech念密码来解锁自己的手机,并让它播放音乐列表中的下一首歌曲。

这种像在电影中才能实现的场景不是心灵感应,而是康奈尔大学最新发布的一项新产品EchoSpeech。
该产品能根据嘴唇、面部肌肉的运动走向来识别无声命令。

据康奈尔大学打算与信息科学学院助教、科学实验室主任张成说,研究团队正在通过这项技能,将声呐“转移到人们的身上”。
EchoSpeech眼镜下方配备了一对麦克风和一个比铅笔头上的橡皮擦更小的扬声器,这两个工具组成了眼镜的AI声呐系统,能向面部发送和吸收声波并感应佩戴者的唇部运动。

与此同时,当佩戴者试图无声互换时,研究职员开拓出的深度学习算法会实时剖析这些回波轮廓,目前的准确率约为95%。

在张成看来,之前的无声语音识别技能最大的障碍就在于预定命令,而且用户必须要佩戴一个不小的摄像头,这导致这项技能既不实用也难以实现。
而且技能上还涉及到可穿着摄像头的用户隐私保护问题,更须要加强安全管理。

EchoSpeech利用的声学传感技能降落了对可穿着摄像机的哀求。
由于音频数据比图像或是视频数据要小得多,因此只需较小的带宽就能处理,还能通过蓝牙实时传输到智好手机上。

信息科学学院教授、论文合著者弗朗索瓦·金布雷迪尔(François Guimbretière)说:“由于数据是在用户的手机受骗地处理的,没有上传到云端处理,因此可以确保所有隐私敏感信息都不会分开用户的掌握。

EchoSpeech最普遍的利用场景是未便利交谈或是无法发言的场合,比如喧华的餐厅或是安静的图书馆。
在公开场合当中,当人们想评论辩论一些较为私密的话题,或是涉及到高保密性的事情内容时,EchoSpeech可以帮用户保护好这些隐私,让外人无法听到双方的发言。
EchoSpeech还能与手写笔配对,并于CAD等设计软件一起利用,险些不用鼠标和键盘就能完成事情任务。

谈及这项技能在未来发展中的用场时,该研究的紧张参与者信息科学博士生张瑞东称,对付那些听障人士、措辞表达障碍人士而言,这种无声语音技能可能是语音合成器的绝佳拍档,它可以让他们流畅自然地发出自己的声音。
据悉,当前版本的眼镜声学感应电池续航韶光可持续约10小时,配备摄像头版本的则是30分钟。

无论用作商业消费级智能穿着设备,还是用作医疗保健功能,EchoSpeech将智能可穿着技能的实用性发挥到了最大。

二、连续识别31项指令,匹配新用户仅需6分钟

EchoSpeech看上去就像一款普通的近视眼镜,但事实上并非如此。
在一项12人参与的小型测试中,EchoSpeech可以连续识别出31个独立的无声命令,以及一串由被试者发出的的连续数字,它在测试中的缺点率低于10%。

EchoSpeech在发布的论文中详细阐明了这项技能的事情事理。

两对微型扬声器和麦克风放在镜框下方来监测面部门歧侧面的运动,当扬声器发出约20000赫兹的声波时,声波会沿着一块镜片到嘴唇的特定路径传播到另一块镜片上。
当来自扬声器的声波感知到唇部运动后进行反射和衍射时,麦克风会捕捉这些声波的独特模式,并为每个句子或是命令制作一个“反应配置文件”,这就像一个完全的小型声呐系统在镜片下方事情。

图为系统布局和回波配置文件。

在上图中,图a展示了传感器的终极位置,图b代表者旗子暗记通报路径,即从P1到P4,S1、S2为扬声器,M1、M2为麦克风。
每条路径都由多个路径反射和衍射组成,它们源自源扬声器,结束于麦克风。
图c是EchoSpeech对不同指令形成的声波配置文件。

通过机器学习,人们可以通过这些反应配置文件推断佩戴者的无声措辞以及他们想说的单词。
虽然措辞模型是在选择命令上经由统一的预先演习的,但它会根据每个佩戴者来进行微调,须要约6到7分钟来为新用户进行匹配。

声波传感器通过定制的扬声器连接到微掌握器上,扬声器还能通过USB电缆与电脑进行连接。

在实时演示中,团队演示了低耗能版本的EchoSpeech如何通过蓝牙和微掌握器来与手机进行无线通信,设备连接到安卓手机之后,能进行面部动作预测并将转换结果传输到某个“动作键”上,发布指令来让手机播放音乐、激活语音助手或是掌握手机,这便是张瑞东在演示中“自言自语”就能切换音乐播放列表的技能事理。

此外,研发团队还设计了一个定制的深度学习管道,用来破译面部运动的无声语音的声波轨道。
通过反应曲线打算模型来解析面部运动模式,研究职员为EchoSpeech添加了一个基于卷积神经网络(CNN,Convolutional Neural Networks)的模型,用来解码来自反应轮廓(echo profiles)的无声措辞。

研究团队还在CNN末端添加了韶光递归神经网络(RNN,recurrent neural network),包括是非时影象神经网络(LSTM)和门控递归单元层(GRU)来提高性能,在这样一个卷积循环神经网络构造(CRNN)模型上进行了实验。
研究结果显示,GRU的性能明显优于LSTM,在大多数情形下,CNN与CRNN的事情办法是类似的,但在音频数量相同的期间,CNN的收敛速率比CRNN要更快一些。

三、单句、整句都可识别,静态、动态效果一样

据研究表明,隐私问题和社交尴尬是人们乐意利用无声语音助手的主要成分,他们希望不用大声说话就能互换,而且不会向外界透露半点声音,无声语音助手在这点上很好地保护到了用户的隐私。
为了知足用户对付无声语音界面(SSI)功能的更多需求,研发职员希望EchoSpeech能无限靠近现实生活场景。

在实验中,团队首先设计了两组命令来考验EchoSpeech识别离散和连续语音方面的能力,并考虑到了最常见的两种情形:静态和动态。

离散研究紧张关注独立命令,连续研究则关注连续无声语音识别,每位被试者都须要完全这两个测试。
在数据网络过程中,电脑屏幕上涌现被试者须要实行的命令,他们说出电脑上涌现的词但不能发生发火声音,电脑摄像头将这一完全过程录制下来,清晰地检测到每位被试者的面部肌肉运动走向。

在离散研究中,每个无声指令最长的持续3秒,3秒之后就自动跳到下一个指令;在连续研究中,被试者有4秒的韶光来把每句话通报给声呐眼镜,完成后按空格键或是右箭头跳到下一个指令,被试者们尽可能以自然的速率和语气“说话”。

为了测试在静态(如坐在办公桌前)和动态(如在马路上走时)两种环境下,声呐眼镜的识别性能是否能保持稳定,一部分被试者用自己习气的办法和速率在房间里随意走动,其余一部分则是抱着电脑走,结果显示两种情形下眼镜的表现并无显著差异。

EchoSpeech在静态和移动状态下的语音识别性能比拟

研究团队称,用户只需供应6-8分钟的静态演习数据,就可以在静态和移动环境中无差别利用声呐眼镜,而且性能良好。

随着未来潜在的大规模支配,这种性能可以进一步改进。
这将成为SSI迈向日常生活运用处景当中的坚实一步。

四、技能或将商业化,成为日常消费级产品

除了EchoSpeech以外,SciFi实验室之前还开拓过一款称为EarlO的系统,该系统用配备声呐的耳机来捕捉佩戴者的面部表情,佩戴者的面部皮肤会在发声时涌现移动、伸展和起皱,反应配置文件据此而进行调度,再利用算法识别这些反应配置文件,并快速重修用户面部表情,显示在数字化身上。

纽约发布罗大学的一个研究团队也研发过一款类似设备EarCommand,当我们默默说出一个单词时,肌肉运动和骨骼移动会导致耳道以独特的办法发生变形,这就意味着特定的变形模式可以与特定的单词相匹配,打算机利用这些AI算法来确定耳道的变形从而确认佩戴者所说的单词。

SciFi实验室还在积极参与康乃尔大学的Ignite项目来探索EchoSpeech技能的商业化。
未来,研究职员们还将研发智能玻璃运用,用来跟踪用户的面部、眼睛和上半身的活动。
张成称,未来智能玻璃将成为探知人们在日常环境中活动的主要个人智能平台。

结语:智能可穿着设备进入研发成熟期,三大瓶颈有待打破

自2012年谷歌发布Project Glass智能眼镜以来,智能可穿着设备市场可谓是备受关注。
康奈尔大学研发的EchoSpeech声呐眼镜的涌现证明了可穿着设备的功能、运用处景不断得到优化拓展,可以说可穿着设备行业已迈入研发的成熟期。

无论是EchoSpeech还是其他智能可穿着设备也好,目前在关键技能上仍有不少瓶颈须要逐一打破,包括产品形态、AI算力等。
紧张问题是功耗大、续航韶光短导致无法用户无法永劫光利用,这一弊端在配备摄像头版本的EchoSpeech上暴露得尤为明显。
其次是产品功能集成度还不足完善,三是产品设计上不足日常,这就须要研发更微型的硬件来配备产品形态。

在用户实际需求和技能更新迭代的推动下,未来的EchoSpeech无论在可穿着性、移动性、交互性以及持续性年夜将会有更大的改进。

来源:康奈尔大学官网