文 | 脑极体

相信在人们的印象里,AI都是一个属于“大多数”的技能门类。

所谓大多数,第一意味着干系数据量大、便于累积,适用于AI对海量数据极度依赖的特性;第二意味着运用处景广泛、便于变现回收本钱,适用于AI研发的高门槛投入。

目前我们身边常常涌现的人脸识别、语音交互等等,实在都符合以上这些特色。
不过这并不虞味着,属于“少数派”的AI是一片空缺。

AI进入无障碍时代手语识别翻译的应用究竟意味着什么

昨天是“环球无障碍宣扬日”,我们把目光投向于那些能够消弭“少数与多数”差异的技能发展,例如做事于听障人群的手语识别,便是一个范例的例子。

你我不懂的手语,为什么AI也很难读懂?

手语是用手势比量动作,根据手势的变革仿照形象或者音节以构成的一定意思或词语,是听障人群独占的一种沟通办法。
但这种沟通办法虽然能让听障人士之间彼此沟通,或让理解手语的普通人与之沟通,但仍旧不能知足听障人士与普罗大众之间的互换需求。

这便意味在一些社会公共空间之中,例如政务场景或做事业场景,听障人士可能都会碰着一些不便。

而AI,恰好成为了一种办理方案。

我们在一些软件中,已经开始运用到了AI的手势识别能力,像是拍照时“比心”来触发一些AR殊效。
将这种对付手势的捕捉,和手势语义对应起来,不就能实现对付手语的翻译和天生了吗?

这一逻辑是精确的,可从逻辑精确到运用可行,却还隔着一段不短的路程。

首先,手语的表达有一定的分外性,想进行捕捉并不随意马虎。

我们知道在“比划手势”这种行为上,本来就不存在绝对的精准度,加之一些手语词汇的表达非常靠近,而且手语表达常日因此句子为单位,词与词之前不会有明显的间隙。
以往手势识别中利用前置摄像头捕捉的办法,基本是不可行的。

于是很多科技和团队给出的办理方案是加以外设,例如中科大和微软推出了基于Kinect的手语翻译系统,加州大学曾经推出过的手语识别手套等等便是这样。
可这些外设要么便携程度低,要么造价昂贵,推广起来有很大的困难。

同时,手语表达同样也有国别性和地域性,在模型通用性上存在着困难。

手语中有“文法手语”和“自然手语”两个观点,文法手语既是通用的普通话,至于自然手语则犹如方言一样平常,在国别、地方乃至城市之间都有着不小的差异。
这也造成了手语数据网络、标注会是一项本钱高、事情量大的事情。

例如亚马逊曾经提出过,对智能音箱Alex进行改造可以使其翻译出一些大略的旗子暗记。
可是由于缺少大规模的演习数据集,目前这一功能只能识别出一些大略的美国手语,勾留在实验室阶段。

手语破题没有秘法,AI家当本该平权

虽然探索困难,但科技企业们和学界还是不断在手语AI上取得成果。
例如腾讯优图实验室推出的 “优图AI手语翻译机”、爱奇艺推出的AI手语主播等等,都在手语AI的运用上取得了不小的进展。

手语AI的打破可以分为两条路线,一方面是手语AI本身技能的进展,另一方面是运用处景的打破。

在手语AI技能本身上,可以分为识别模型和数据集两个办理路径。
在数据集上,可以像优图一样,通过和社会干系机构以及听障人士的打仗自建手语识别数据集,并且针对手语表达的地方性差异,做出表达习气和速率上的多样性拓展。

至于识别模型上,业内也有全新的算法搭建观点,例如通过2D卷积神经网络和3D卷积神经网络分别提取手势中静态和动态的信息,经由综合处理来提升视频识别效果,彻底摆脱其他传感器的桎梏。
同时针对手语表达的整句化的征象,在视频帧的末了加入了词级信息挖掘,对特色提取器提出的信息进行核验,进一步去确定手势对词语表达边界,除了提升识别精准度以外,还能提升对自然手语中地域表达的总结能力。
在此根本上,还可以算法模型中引入了高下文理解能力,以便于面对更加繁芜的手语识别翻译需求。

不过技能虽然得以提升,运用处景端仍旧会受到一些限定。
例如手语识别可能会依赖较强大的算力,短韶光内很难便携化、消费化。
但完备可以通过和政府的互助,让手语识别进入一些公共做事场景。
或者像爱奇艺一样,从手语天生方面入手,同样也能帮助到听障人士。

实在我们不难创造,可如果将技能拆分来看就能创造,手语AI取得的进步,并不是由于在某项根本科学上溘然取得了什么惊人的打破,而是有越来越多的企业和学者在研发和数据累积上一向长期的投入,才能解脱于以往手语语料库匮乏的困境,在算法上不断迭代。

换句话说,企业和学者们在“少数派”的AI技能中投入了险些与“大多数”AI技能相匹配的精力与财力。
对付AI家当来说,这无疑是一种平权精神。

从以人为本到科技向善:我们为何要对技能洋流的勾引更加主动?

腾讯优图在手语AI方面的投入,实在也是AI家傍边一种模糊冒出势头的洋流方向。

几天以前,在福州的数字中国峰会上,马化腾首次提到了“科技向善”这一观点,提出“我们相信,科技能够造福人类;人类该当善用科技,避免滥用,杜绝恶用;科技该当努力去办理自身发展带来的社会问题。

不足为奇,李飞飞在回归斯坦福后,就动手创办了HAI研究所(以人为本斯坦福人工智能研究所),并在今年开始担当所长。
HAI的研究目标,便是推动AI技能向造福人类的方向发展,预测AI对人类生活的切实影响。

科技巨子和学界旗帜都将目光投向了同一方向,是由于人们已经开始逐渐创造AI、5G、家当数字化等等技能力量的势头之强,已经到了不得不对其加以勾引乃至约束的地步。

犹如上文所说,科技企业在这一波技能发展的过程中,起到了很大的促进浸染,而逐利自然是企业的本能和天性,因此企业会率先投身于那些知足大多数人、运用处景广泛、研发成本相对低的技能。

这种行为本身无可厚非,但AI等等新技能带来的效率提升实在过于显著,是否会会对那些暂时无法接入新技能的领域和群体进行挤压乃至边缘化,是很多人都在思考的一个问题。

例如随着英汉日法俄等等主流语种的机器翻译能力不断增强,那些语料库不充足、运用人数更少的小语种是否会由于得不到技能赋能,而被进一步的边缘化?

同样的,当公共事务办理越来越多的被语音交互、图像识别等等AI技能替代,听障、视障群体在获取做事时会不会碰着更多麻烦?

类似的情形实在已经发生:2018年年底,联合国发布了对英国政府数字化成果的报告,结果是数据显示在英格兰,自2010年以来无家可归者增加了60%,保障住房的等待名单上有120万人,用来救援穷汉的食品银行需求量增长了近四倍——由于很多穷苦人群并不知道如何在互联网上申请穷苦补助,乃至家里都没办法连接互联网,终极只能在穷苦中越陷越深。

很多时候,纵然是无恶意的技能,也可能会涌现无法预测走向。
我们对付科技向善的勾引,或许该当更主动一些。

结束语

末了,我们不如来看看这样一组数字:

据2017年北京听力协会预估数据,我国听障人群数量约达到7200万。
在环球范围内,天下卫生组织发布的最新数据显示,全天下有共计约4.66亿人患有残疾性听力丢失。

——你看,这天下上所谓“大多数”和“少数派”本来便是一个相对性的观点,并不存在黑白光鲜的区隔。
尤其对付AI这种长于模拟人类能力的技能来说,它的存在本可以推倒阻碍各个群体沟通互换的空气壁,而不是让这种趋势愈演愈烈。
我们关于利用技能搭建美好天下的目标,既然可以不抛下任何一个人,就不该抛下任何一个人。

好在从做事于听障人群的手语识别翻译上,我们已经能看到这种趋势走向——精于打算的大脑不是AI唯一的仿照工具,还有人类的炽热心脏。
我们相信,在学界和巨子的勾引之下,未来会有越来越多的企业关注到无障碍AI技能的发展,不断的冲破各种隔膜阻碍。

爱虽沉默,也有回响。

AI虽沉默,也有回响。

更多精彩内容,关注钛媒体微旗子暗记(ID:taimeiti),或者下载钛媒体App