解码讯飞再登世界第一技能底气进军虚拟人赛道构建立体AI生态

看懂更多的措辞：在覆盖 40 种措辞的天下威信多措辞理解评测 XTREME 比赛中以总均匀分 84.1 的成绩夺冠，并刷新天下记录。
听懂更多的措辞：在国际低资源多语种语音识别竞赛 OpenASR 中，参加 15 个语种受限赛道和 7 个语种非受限赛道，以显著上风一次拿下 15 个语种 22 项第一。

图｜在国际大赛中所获名誉（来源：科大讯飞）

这标志着科大讯飞多措辞理解与跨措辞迁移能力再上新台阶，在实现人机交互更自然、大家沟通无障碍的探索征程中又迈出了坚实的一步，也为中国多语种语音措辞技能的国际领先、中国智能制造的环球化奠定了坚实的根本。

目前，人工智能正面临着场景驱动、数据支撑、技能驱动等新机遇，以人工智能助力办理社会重大命题，源头创新持续引领人工智能发展方向，成为科技企业当下之时期命题。

解码讯飞再登世界第一技能底气进军虚拟人赛道构建立体AI生态

据统计，2018 年至今，科大讯飞已经在语音识别、语音合成、机器翻译、自然语义理解、图像识别等方面取得 39 项天下冠军。

从零到数个天下第一奖项殊荣背后，科大讯飞的技能创新密码何在？

近日，ＤeepTech 深科技深度对话科大讯飞高等副总裁、研究院院长胡国平。
他总结：办理时期命题，重点要进行技能的系统性创新。
“在科大讯飞的理解中，系统性创新有三个关键要素：一是重大系统性命题到科学问题的转化能力；二是从单点的核心技能效果上取得打破，跨过运用门槛；三是把创新链条上各个关键技能深度领悟，终极实现真正意义上的系统性创新。
”

攻坚 “四大源头” 技能，推动 “AI 科技树” 发展

作为一家科技创新型龙头企业，科大讯飞一贯坚持源头核心技能创新，用科学的方法合理有序地构建科技树，从而担保科技树的根基稳固，以及多个技能职业之间的高效协同。

正是这些科学问题的勾引，使得科大讯飞研发投入始终保持在相瞄准确的方向，而通过系统性创新方法论的辅导，不仅可以将单点技能一步一步踏实做好，同时也要把大部分技能做到保持引领。

一年不到，科大讯飞携手各行各业的开拓者与互助伙伴，已灌溉出一片 AI 科技树密林。
是什么牵引了讯飞 AI 科技树的构建？又是什么推动着讯飞科技树的发展？

胡国平说：“科大讯飞坚持在人工智能的技能层面进行源头技能的打破和多技能的领悟，来推动实现系统性创新。
”

图｜科大讯飞高等副总裁、研究院院长胡国平（来源：科大讯飞）

胡国平认为，各种详细技能的成长和发展，都须要强大的源头技能打破和滋养。
在过去的几年，科大讯飞特殊关注并持续投入在以下 4 个方面的人工智能更源头更底层的技能上打破。

第一个关键技能是端到真个建模。
在深度学习的框架下，端到真个建模可以有效的缓解分段建模所带来的信息丢失，以及缺点的级联传播问题。

繁芜场景语音识别是人机交互向更多场景拓展必须要占领的难题。
今年针对实际语音交互场景中可能涌现的音乐、人声等各种繁芜多样的噪声背景，科大讯飞提出了前后端一体化的语音识别框架。
以电视语音交互家庭或卖场的繁芜场景为例，新方案语音识别效果由 35% 提升为 88%，语音唤醒效果由 40% 提升到了 90%，可以说科大讯飞重新定义了繁芜场景语音识别。

图｜繁芜场景下的前后端一体化语音识别（来源：科大讯飞）

其余把端到端建模的技能成功利用到语音的翻译任务上，实现了 CATT 语音翻译技能，实现了语音识别和机器翻译任务的统一建模，缓解语音识别缺点对翻译效果的影响。

第二个关键源头技能是无监督演习。
在无监督的源头之上，科大讯飞也实现了两个方面的关键打破。
一是基于海量原始数据，二是充分借助其他弱标注的指标，将弱监督数据更好地实现了模型优化演习。

今年，科大讯飞还提出了全属性可控语音合成方法。
首先，从海量数据中无监督的学习这3个属性；其次，利用互信息约束演习模块，使得 3 个属性相互解耦，实现了从海量语音数据中无监督的学习发音内容、情绪和音色这三个属性。

为了对海量文本数据的充分利用，基于语音和文本统一空间表达的半监督语音识别技能，终极可以实现 100 个小时的有监督数据，加上大量的无标签的文本数据，就可以达到1万小时有监督语音数据的效果。

图｜基于统一空间表达的半监督语音识别技能（来源：科大讯飞）

除此之外，科大讯飞还在七大民族措辞的语音措辞技能上取得了非常好的进展。

第三个关键的源头技能是多模态的领悟。
人机交互便是多模态领悟的范例运用处景，如在多模态免唤醒的交互系统中，每次交互前均须要喊唤醒词，非常不自然，为此，科大讯飞提出基于多模态的免唤醒交互。

以车载交互为例，通过多模态技能，可以只关注目标人和目标人语音，降落语音误触发；通过端到端意图理解，可以实现大家交互和人机交互的区分；而且，通过视线检测能够得到驾驶员的视线聚焦方向，进一步区分驾驶员是在和人谈天还是在跟机器交互。
这种办法不仅提升了模型性能，更增加了模型的泛化性，减少了对有标签数据的依赖。

科大讯飞基于多模态信息领悟的技能，不仅利用题目中的干系的语义的信息，还用到了各种版面的特色。

例如“表示质地大小”这样的视觉特色，“表示缩进居中”这样的空间特色等等，终极实现了不同场景下文档构造化的精度的提升。
类似于教诲场景下的教辅作业的语义构造化的精度，语义构造化精度从 92% 提升到了 98%。

图｜多语种语音措辞技能打破（来源：科大讯飞）

第四个关键技能是知识与算法的领悟。
科大讯飞在这方面做了两个关键技能打破，首先，在语音交互任务中把人类的知识、知识总结为道理图谱，融入到全体交互的系统中，从而实现机器能够与人的主动交互。

其次，科大讯飞将海量医学文献知识和病例的诊疗推理进行融入，并且利用图神经网络对付图谱进行编码，基于深度实时的推理网络，可以综合决策并给出终极的治疗结果。

破局系统创新难题，加强多技能领悟创新

除以上单点技能上持续进步外，讯飞也关注三个方面的系统层面的技能寻衅，毕竟人工智能是一个繁芜的系统。
胡国平认为，从单点技能的创新到深度领悟的繁芜系统演进，须要占领以下三个方面的系统层面的技能寻衅：第一，面向全局目标的技能架构的解析能力；第二，全链条贯穿的多技能领悟的这样一个创新能力，以及人基于人机耦合繁芜系统的自进化能力；第三，基于人机耦合的智医助理系统迭代演进。

图｜AI赋能实际运用处景（来源：科大讯飞）

在胡国平看来，人工智能落地必须要知足真实可见的实际运用案例、能规模化推广的对应产品和可用统计数据证明的运用成效等条件，他以三个详细繁芜系统的构建案例做了进一步阐述。

第一，阐明面向全局目标技能架构的能力。
以低延时下的多技能领悟的语音同传系统为例，讯飞已经建立模型，端到真个实现了从语音到文本的自动翻译；接着是把传统句子级别的语音合成系统改造为流式的语音合成，对实时输入的片段文本进行合成；同时实现基于一句话的语音合成系统的音色迁移，使得合成的语音人能够保持原始说话人的音色，实现更好的同传体验。

为提高类似于大会演讲上语音识别和翻译的效果，还进一步把大会演讲 PPT 中的笔墨全部 OCR（特殊是干系的专业术语），并且实时送入语音识别系统进行实时的优化，终极在尽可能担保翻译效果的同时实现低延时的同传翻译。
目前讯飞最新的翻译系统的均匀延时已经从原来的 8 秒低落到 4 秒。

第二，新推出多模态虚拟人交互系统。
以情绪维度为例，讯飞实现了基于多模态信息的感情感知，基于感情的回答对话文本天生以及可展现对应感情的虚拟人的表情和语音合成。
基于全局的系统性的方案设计，以及全链条单点技能的有效合营，造就爱加有情绪、有个性的多模态虚拟人。

第三，推出讯飞自研系统。
以智医助理的系统为例，智医助理系统在基层年夜夫的诊断过程中就直接供应包括诊断建议、合理用药、进一步问诊问题等核心的功能，帮助基层年夜夫实现更好的诊疗。
两年来，智医助理和所做事的 5 万多基层年夜夫的 3 亿次的持续互动，机器的自动诊断的精确率从 95% 进一步提升了 97%。
基层年夜夫的诊疗水平在机器赞助下，从 70% 提升到了 90%。

更值得关注的是，针对繁芜的科学问题，科大讯飞也在不断探索技能领悟的办法，结合场景大胆的布局，通过运用迭代来快速验证技能的可行性。

胡国平表示：“科大讯飞作为一个致力于推动人工智能技能实现持续进步的公司，要进一步在人工智能更远的源头，包括脑科学、数学、量子等方面进行了长期的根本研究的布局。
例如在脑科学、数学方面与学研机构有很多互助。
”

共建共享平台生态，加码虚拟人和开放平台 2.0

前不久，“Facebook” 改为 “Meta” 这预示着扎克伯格全面加码 “元宇宙” 的计策决心，他还宣告在 VR 实验室团队下成立元宇宙产品子团队，持续加码 VR / AR 及其他元宇宙干系领域的产品研发。

“元宇宙” 热已经成时下人们磋商中绕不开的话题。

实在，科大讯飞早在去年春晚拜年时就用了元宇宙技能，如虚拟主持人。
科大讯飞可以快速“捏”一个虚拟人主持人，包括眼睛、嘴巴、表情等可以自由设定。

图｜科大讯飞个性化真人捏脸系统（来源：科大讯飞）

然而，要想把虚拟人的微表情 “捏” 的维妙维肖，并非易事，这是该行业的一大痛点。

为理解决虚拟人目前面临的诸多寻衅，进一步布局虚拟人赛道，科大讯飞隆重发布了 “虚拟人交互平台 1.0”，旨在用情绪贯穿文本语义到语气强调，再到面部表情等的后台逻辑，让每个人能够在虚拟天下中感想熏染到一个真实的助手、真实的互助伙伴。

图｜虚拟人交互平台 1.0（来源：科大讯飞）

据悉，此虚拟人交互平台，不仅可以通过语音、手势、肢体措辞，嘴型等各种能力来进行感知，同时还能测血压、心跳、脉搏等各种干系身体指数。
更有趣的是，虚拟人交互平台 1.0 还能够实现情绪贯穿、多维表达、自主定制。

今年的环球开拓者大会核心看点，除了“虚拟人交互台 1.0”，还有“开放平台 2.0 版本”，旨在构建未来属于每个人的人工智能！

与开放平台 1.0 版本相比，开放平台 2.0 版本最主要的是从二维升级到三维，科大讯飞希望和行业龙头共同来打造一个行业的人工智能基线底座，把行业中一些主要的专家和知识融入进来，与不同的软硬件环境去适配，进而形成完全的办理方案。

图｜科大讯飞开放平台 2.0 版本（来源：科大讯飞）

为了加快落实开放平台 2.0 计策，科大讯飞提出包括标准体系，测试平台、认证体系、培训平台、低代码开拓平台，开拓者大赛 6 大举措。

未来，科大讯飞操持一方面联合多方资源共同搭建好行业的基线底座，另一方面向广大开拓者开放浩瀚场景汇聚各种创意，丰富全体平台体系。
科大讯飞乐意与广大的开拓者们一起共创、共建、共享繁荣的人工智能时期。

-End-

每期AI知识网

解码讯飞再登世界第一技能底气进军虚拟人赛道构建立体AI生态

有点器械谁告诉你AI是这么玩的

月薪几千块他们把工作租给大年夜学生