一、语音交互流程简介

AI 对话所须要的技能模块有 4 个部分,分别为:

自动语音识别(Automatic Speech Recognition, ASR)自然措辞理解(Natural Language Understanding, NLU)自然措辞天生(Natural Language Generation, NLG)笔墨转语音(Text to Speech, TTS)

以叮咚开拓文档中的语音交互流程图来看Ai 对话技能的紧张路径:

从上图中可以看到,用户与设备之间的交互,紧张是采取语音办法处理和完成的。

AI语音二三事你需要理解这些AI 语音对话技能

二、语音交互流程设计

一次完全的语音交互流程,成功的语音对话,常日是有以下几个阶段。

1.交互流程的核心—意图

所谓意图,表示用户在利用运用时所做的动作(譬如:问一个问题或发送一条指令),这些意图代表了运用的核心功能。

如果运用成功地识别了用户意图,则须要在完成业务动作后,将结果反馈给用户;如果运用无法识别用户意图,则须要给用户友好的提示,辅导用户利用。

用户:七星彩的开奖韶光是什么时候?Ai:体育彩票七星彩每周二、周四和周日开奖。

2. 如何识别意图—语义解析

对语音识别结果进行剖析理解,大略来说便是将用户语音输入映射到机器指令。
它可能定义了一组包含指定的单词或短语的语法构造,用户通过说出知足这种构造的语句,来调用意图。

用户:我要{听} {周杰伦}的{稻喷鼻香}

Ai:稻喷鼻香.mp3

3.如何处理意图—云端交互

调用意图的构造化要求,向做事器要求处理后做出反馈相应。
普通来讲该流程紧张处理用户的要求,办理用户问题的答案。

4.高下文意图的处理-对话管理

在用户进行自然对话时,可能会由于表达事情的复 杂

度、韶光、地点、效率等,产生具有脉络的对话过程,所有的对话元素会编织在一个连贯的线性对话中。

用户:来日诰日北京景象如何?

Ai:来日诰日北京景象晴,温度16到23度

用户:后天呢?{后天北京景象如何?}

Ai:后天北京景象晴,温度17到28度

5,措辞合成模块 – 组织措辞

根据解析模块得到的内部表示,在对话管理机制的浸染下天生自然措辞句子。
同时将天生模块天生的句子转换针言音输出。
(把回答的机器措辞再转换成 口语措辞)

三、 中文自然措辞处理的关键技能1、词法剖析

词法剖析包括词形和词汇两个方面。
一样平常来讲,词形紧张表现在对单词的前缀、后缀等的剖析,而词汇则表现在对全体词汇系统的掌握。
在中文全文检索系统中,词法剖析紧张表现在对汉语信息进行词语切分,即汉语自动分词技能。
通过这种技能能够比较准确的剖析用户输入信息的特色,从而完成准确的搜索过程。
它是中文全文检索技能的主要发展方向。

2、句法剖析

句法剖析是对用户输入的自然措辞进行词汇短语的剖析,目的是识别句子的句法构造,实现自动句法剖析过程。
其基本方法有线图剖析法、短语构造剖析、完备句法剖析、局部句法剖析、依存句法剖析等。

3、语义剖析

语义剖析是基于自然措辞语义信息的一种剖析方法,其不仅仅是词法剖析和句法剖析这样语法水平上的剖析,而是涉及到了单词、词组、句子、段落所包含的意义。
其目的是从句子的语义构造表示言语的构造。
中文语义剖析方法是基于语义网络的一种剖析方法。
语义网络则是一种构造化的,灵巧、明确、简洁的表达办法。

4、语用剖析

语用剖析相对付语义剖析又增加了对高下文、措辞背景、环境等的剖析,从文章的构造中提取到意象、人际关系等的附加信息,是一种更高等的措辞学剖析。
它将语句中的内容与现实生活的细节干系联,从而形成动态的表意构造。

5、语境剖析

语境剖析紧张是指对原查询语篇以外的大量“空隙”进行剖析从而更为精确地阐明所要查询措辞的技能。
这些“空隙”包括一样平常的知识,特定领域的知识以及查询用户的须要等。
它将自然措辞与客不雅观的物理天下和主不雅观的生理天下联系起来,补充完善了词法、语义、语用剖析的不敷。

四、 Ai对话目前存在的问题

人机对话过程中,用户难免会涌现表达失落误的情形,导致机器对用户措辞理解涌现偏差,在这时,纠错机制对机器而言则非常主要,如短缺这个机制,用户须要花费相称长的韶光将其意图阐明清楚,相应的用户体验也会十分糟糕。
另一方面,虽然可以很好的识别语音,但是却不能理解你的对话目的,语义理解上有偏差。

当前,包括Alexa在内的国内外智能音箱之以是没有表现的那么智能,涌现了“人工智障”的嘲笑也是由于在以上两方面没有处理太好。

因此语音交互终极须要办理的关键问题是歧义消解问题,和未知措辞征象的处理问题。

五、 智能语音助手背后的生态做事

Amazon Echo 的胜利在于其语音助手 Alexa 节制的无数技能,Google Assistant 以及Google Home之以是被人看好是在于其 Android 后发上风所具备的开放性。

智能语音助手类的产品要想在中国落地着花,它不仅仅是大略的语音识别那么大略,还有集成做事,一整套的中文生态、内容、做事等配套举动步伐,是一种涵盖很多根本能力的生态系统。

未来基于语音交互的语义技能,必须要能够达到几万、几十万乃至上百万种的时候,才能匆匆使语音交互时期操作系统真正走向成熟,未来语音交互产品的形态和样式也将越来越丰富。

让我们期待未来Ai语音交互的发达发展,期待未来对技能的无限寻衅!

本文由 @ Baolan 原创发布于大家都是产品经理。
未经容许,禁止转载。

题图来自PEXELS,基于CC0协议