作者:蛋酱

与你对话的智能客服,可能比想象中更懂你。

2012 年 10 月的一天,Geoffrey Hinton 发送给邓力一封邮件,提到了自己最近在做的一项事情。
与往常不同的是,Hinton 在邮件正文中利用了「look at this huge margin!!!」这样的描述。

这项研究成果便是大名鼎鼎的 AlexNet。
在当年的 ImageNet 寻衅赛上,AlexNet 将图像识别的缺点率从 26% 直接降落到 16%,一战成名。

对话式AI落地最难的一道题在京东云被这些科学家搞定了

现在看来,这个成果就像是清晨时分的第一缕阳光。
人们对深度学习的质疑自此打消,AI 的第三次发展浪潮终于到来。

Hinton 和邓力在深度学习方面的互换实在始于良久之前。
2008 年的 NIPS 大会,时任微软研究院语音研究首席研究员的邓力和同事何晓冬在温哥华举办了一场语音措辞研讨会,约请过 Hinton 来做报告。
但当时的深度学习始终短缺具备说服力的成果,尚不被看好。

之后,邓力多次约请 Hinton 到访微软互换。
同时,邓力和微软的同事开始考试测验将深度神经网络运用于语音识别领域,在 2012 年于天津举办的「二十一世纪的打算」论坛上,微软环球技能副总裁 Richard Rashid 演示了用深度学习进行语音识别,比较之前的语音识别系统缺点率降落 30% 以上,引发业界轰动。

语音、语义、视觉等领域的突飞年夜进,展示出一种希望:以往那些尚不可用的人工智能技能,在不久的未来就能真正为人类做事。

Hinton 终极选择了谷歌,但微软研究院陆续出身了一系列最具影响力的早期成果,也造就了一批有名 AI 学者。

提到深度学习领域,微软的邓力、俞栋、何晓冬都是最早一批入场的人。
在密苏里大学哥伦比亚分校取得博士学位之后,何晓冬就加入了微软。

邓力与何晓冬。

2013 年,何晓冬、邓力等人提出了深度构造化语义模型 DSSM (Deep Structured Semantic Models)。
这一模型在工业界的适应性是前所未有的,至今险些所有做搜索推举场景的大厂仍在利用 DSSM 及其衍生模型。

大洋这一边的中国,也正在经历一场巨变。
移动互联网的高速发展,衍生出大量的数据以及丰富的运用处景。
京东便是极具代表性的企业之一。

2018 年,何晓冬选择返国,加入京东。
从环球范围内来看,京东在人工智能技能上不是起步最早的企业。
但和其他公司不同,京东的 AI 技能从一开始就脱胎于大规模的家当实践,带着明显的「家当烙印」。

这正是推动何晓冬选择京东的关键成分。

走抵家当的「最深处」

何晓冬一贯认为,「AI 本身是个科学问题,实在也是个运用问题。

微软在 2014 年专门成立了深度学习技能中央(DLTC),展开了一系列探索性研究。
如今的热门方向「多模态深度学习」,便是在那个时候启动的。
环绕微软的 MSCOCO 数据集,一众大学和研究机构考试测验教会模型用一句话来描述一张图片。

2015 年,何晓冬在 CVPR 大会上先容了 DSSM 升级版本——DMSM,为模型添加了「看图说话」的多模态能力,这在当时是一项很前沿的研究,立即引起了大量关注。

在波士顿的会场,当时的微软环球实行副总裁沈向洋穿过人群找到他,表示「就想来看看这个论文的海报」,并希望这项研究不但勾留在实验室,而是真正成为一个产品。
后来,DLTC 成立了一个产品团队,并将其视觉模块更换为孙剑、何恺明等人最新提出的 ResNet。

DMSM 的「看图说话」能力:「Jen-Hsun Huang, Xiaodong He, Jian Sun et al. that are posing for a picture.」(黄仁勋、何晓冬、孙剑等合影留念)

在 2016 年初微软研究院举办的技能节(TechFest)上,何晓冬也在自己的「摊位」向微软 CEO Satya Nadella 展示了这项事情。

同年 3 月,这项技能被 Satya Nadella 拿到了微软 Build 大会上先容,在场的们取出手机拍照,创造天生的描述意外地精确,环球轰动。

「在微软研究院,你可以做任何研究;但是如果想放大,就要选择场景,选择得当的家当和行业。
中国互联网做事的天花板更高,做事量更大,运用处景更广,后来我们想到,比如京东的人工智能技能很多便是在实践中打磨的,某种意义上说,京东的智能客户做事场景,可能是海内涵客服领域最佳的 AI 实践场景。

2017 年到 2018 年间,几位 AI 领域的有名学者陆续加盟京东。
他们的初衷是相似的:将学界最前辈的技能带过来,在家傍边真正用一用。

全面向技能转型之后,京东内部曾就「走哪种 AI 发展路线」进行过一番磋商和方案。
他们得出的结论是,要从技能、产品、生态三方面启动搭建。

2019 年底至 2021 年初,京东云经历了两次组织架构上的调度。
第一次是京东云与人工智能、IoT 三大奇迹部整合为京东云与 AI 奇迹部,第二次是京东将云与 AI 业务与京东数科整合,成立京东科技子集团。

三年两次的架构调度,伴随着的是京东在 AI 落地履历上的不断深化。
大家的共识逐渐清晰:一定要更懂家当,在家当做事上做文章。

据统计,京东体系目前用于技能研发的投入超过了 800 亿,京东科技 60% 以上的员工都是技能和产品人才,何晓冬、郑宇、陶大程、梅涛 4 位科学家入选 IEEE Fellow,此外还包括 40 + 位环球顶级科学家。
迄今为止,京东累计申请专利 4635 个,在国际 AI 顶级会议共揭橥近 500 篇论文,得到了 25 项国家 AI 竞赛冠军。

几年纪后,京东在 AI 技能上的积累愈发深厚。
更主要的是,京东可以供应基于最佳实践的办理方案,通过产品为客户创造代价,客户不须要是有履历的开拓者,用户只须要做出商业上的决策。

如何成为「最懂家当的云」

来到京东之后,何晓冬延续了此前在对话式 AI、多模态等领域的研究,并带领团队将一系列研究成果迅速转化,运用在京东的智能做事业务中,包括知识领悟的预演习模型 K-PLUG、长文本阅读 Read-over-Read 模型、数值推理 OPERA 模型、时序知识图谱 TSQA 模型等。

个中,基于领域预演习 K-PLUG 的商品文案天生模型已经覆盖了京东的 3000 多个三级品类,人工审核通过率 95% 以上,媲美精良的人类写手,目前共天生文案 30 亿字,已运用于京东创造好货频道、搭配购、AI 直播带货等,累计带来超过 3 亿元 GMV。

一键天生 3000 + 品类文案。

同时,何晓冬还牵头搭建了京东内部大规模对话式 AI 系统的搭建事情。

和国外紧张针对 To C 业务的「闲聊机器人」比较,京东的智能对话系统以 To B 为主,每每是来自真实场景的详细问题或任务驱动型的对话。
京东积累了大量与真人沟通的场景数据,为智能人机对话与交互等前沿技能的落地供应了最好的实践场。

技能上的差距已经不构成绝对寻衅,但到了落地运用又是其余一回事。
拿对话式 AI 来说,比较常见的技能壁垒包括口语不流利、话语权决策、鲁棒性这三个问题。

业界一贯在探求好的破解路径。
在今年 5 月的谷歌 I/O 大会上,为理解决语音背景噪声、用户说话磕巴、语句断断续续产生的问题,谷歌宣告 Google Assistant 已经进一步优化了神经网络模型,可以对非连续的对话进行理解。

京东云碰着此类问题的韶光要比谷歌早,形成了有效办理方案的韶光也更早。

2020 年底,业界首个大规模商用的智能对话与交互系统「言犀」应运而生。
针对上述的问题,言犀给出了自己的办理方案。

以口语不流利的问题为例,我们都知道,口语化表达常常包含磕巴、语句断断续续的情形,还会有大量的重复、停顿、自我改动等表述;不同文化背景、不同地区的方言习气也存在不同的呈现办法。
此外,险些每年都会涌现大量互联网新词汇。
这些都会对下贱的语义理解造成滋扰。

言犀采取序列标注模型对句子中的每个字进行分类,从而识别句子中须要删除的冗余身分,达到口语顺滑的目的。
面向为了缓解模型对付标注数据的过度依赖,言犀采取自监督学习的办法,通过对大规模的书面流畅文本进行插入、删除等操作,从而天生大量的不流畅文本。
同时,还联合语法判别任务,对付输入的文本,从全体句子层面判断是否语法精确。

还有一个问题是怎么学习「接话」问题。
对付智能对话系统来说,判断在得当的机遇接过话语权,并且在听者和说话者之间流畅、自然地转换,是个有些超纲的问题。

对此,言犀引入了多模态技能,不再单凭语音旗子暗记来判断是否接过话语权,而是分别利用语音、语义以及时间三种不同纬度的特色来判断是否切换话语权。

多模态领悟的话语权决策 (Turn taking)

对付语义特色,言犀采取 transformer 等措辞模型,根据高下文来判断当前语句是否完全;对付语音特色,言犀会将音频片段分桢,提取每一帧的特色向量,再将其输入到一个深层的 ResNet 网络,提取其特色表示。
如果提取的特色有腔调偏低、语速变慢等特点,则代表可能是结尾的末了一个字;此外,还会基于语音片段的时长、语速、音调等韶光维度进一步判断,末了通过领悟三种不同模态的特色,来判断是否接过话语权。

一个形象的比喻是:京东每天有千万级的对话量,相称于千万次「图灵测试」。
通过和用户间的不断沟通,言犀持续测试最佳的应答办法,提升自己办理问题的能力。

在近日举行的 2022 京东云峰会上,言犀官宣了品牌升级动作。
升级后的「言犀 2.0」,家当标签更加突出。

比较于第一代,言犀 2.0 最大的特点是突出了交互型多模态数字人的运用,在语音、语义的功能之上,增加了视觉技能的驱动。

言犀多模态数字人平台定位「家当做事型数字人」,集成智能多模态技能于一身,包括语音语义、多轮对话、表情形象驱动等能力,可以天生生动的语音、自然的面部表情和身体姿势,供应身临其境的交互体验。

在 2022 京东云峰会上,全新发布的多模态数字人「言小希」。

言犀多模态数字人平台已经通过信通院首批数字人系统根本能力评测,现在拥有 100 + 数字人形象,广泛运用在零售直播、银行业务办理、政务做事等场景。

数智供应链的末了一环

在当前环境下,以及家当数字化正由量变向质变进化。
京东指出,家当数字化的下一站一定是数智供应链。

智能做事则是「数智供应链的末了一环」。
京东 2009 年就自建了客服团队,2012 年就开始做智能客服,至今已超过 10 年。
目前,京东云自研的言犀平台已涵盖了售前、售中、售后、物流等全链路做事。

在大会上,何晓冬还分享了一些数字:

目前,言犀平台拥有海量的脱敏数据,每天可供应1000万次的智能客户做事,每月共计200万小时通话语音,成功抗住了春晚5.5亿次做事流量洪峰和多个京东618和11.11。
言犀拥有业内最细粒度的知识库,包括4层知识体系,40+独立子系统,3000+意图,3000万个高质量的问答知识点,覆盖1000万自营SKU的电商知识图谱。
言犀每天自动回流7万+知识点,可以实现动态措辞模型更新以及对话路径自动挖掘。

作为一家新型实体企业,京东一端连接消费互联网,一端连接家当互联网,已经将对话式 AI 技能做事于京东 5.8 亿用户和 17.4 万商家。
今年 618 期间,京东智能客服累计咨询做事量 6.1 亿次,物流智能外呼累计供应电话预约做事 253 万通;还累计完成了 3.3 亿次智能质检与风控。

同样的能力,也已经运用在全国多地的政务咨询业务中。

疫情之下,各个城市的防控需求变得常态化。
常规的疫情防控与排查须要城市各级单位进行大量的调查拜访,人力物力花费极大,同时人群聚拢更易增加疾病传播风险,这为科技防疫供应了用武之地。

在这样的情形下,京东言犀推出了疫情防控与排查办理方案,30 分钟内就可以从 0 到 1 搭建完成,且拥有高并发稳定可靠的系统架构,最高可支撑 100 万人次 / 小时,支持多批次需求的外呼任务。
今年 5 月北京疫情防控过程中,一些北京市民接到过 96010 打来的流调电话。
这个「外呼职员」,就来自京东言犀。

在北京生活的市民群众来自全国各地,口音皆不相同,且电话端还可能存在高噪音的问题。
针对这些寻衅,言锐利用其深度语音识别引擎以及口语顺滑、话语权决策等前沿技能进行优化,担保了通话流畅自然。

北京市通州区政府联合京东云言犀平台,对近 3 日未做核酸检测的市民进行了超过 50 万人的智能外呼排查,在 5 个小时内就完成了关照、提醒近 40 万人参与核酸检测,为疫情防控大大减轻了压力,节约了大量人力本钱。
作为抗疫外呼的官方电话号码,96010 正在推广至全北京市,以供应疫情防控智能外呼做事。

政务热线被称为「民情的温度计」,特殊是疫情期间,人们会打政务热线咨询能不能打疫苗、能不能出门的问题,但很多群众会觉得到「打不通、说不清、办不了」,这就对智能对话系统提出了哀求:首先相应速率要快,然后要能准确识别方言浓厚、断断续续的句子。

在「大同 12345 政务热线」的互助项目中,运营职员经由一段韶光的数据追踪创造:京东言犀的呼入电话接起率达到了 92%,遥遥领先于其他城市。
同时,言犀也自动完成了工单创建、智能匹配至对应委办局、跟踪工单实行情形、自动对市民回访等全闭环流程。

从场景中来,到场景中去。
凭借 19 年来高效、创新、可持续的超过式发展,京东已履历证和凝练了一套完全的能力体系。
对话式 AI 落地再难,京东的科学家们也早已准备好了答案。

用何晓冬博士的一句总结:「如果想走得更远,AI 必须要成规模的覆盖低频、长尾的场景。
将单点的、最前辈的科研模型在产品上综合落地,这是真正能够拓展 AI 代价边界的事情。

最前辈的人工智能算法,做事最接地气的场景,便是京东云的本色,也该当是家当 AI 发展的本色。