编译 | Vendii编辑 | 漠影

智东西9月19日,据VentureBeat今日宣布,AI情绪创企Hume AI于9月11日发布了Empathic Voice Interface 2(EVI 2)。

EVI被流传宣传为环球首个具有情商的对话式AI。
EVI能够通过剖析用户的语音,如口音、语气、语调、拟声词、节奏和停顿等,来理解用户的感情和生理状态,并做出实时相应。

与EVI 1比较,新发布的EVI 2的相应延迟减少了40%,且本钱降落了30%。
此外,新一代EVI还进行了一系列功能增强与更新:语音质量的提高,情商与同理心的增强,支持自定义语音……

抢先OpenAIHume AI宣告第二代情感智能AI支持自定义语音

Hume AI由前谷歌DeepMind研究员Alan Cowen于2021年创立,他现在担当该公司的首席实行官兼首席科学家。
该公司于今年3月27日完成了5000万美元的B轮融资。

官网地址:https://www.hume.ai/

一、功能增强:语音质量和情商的提升,还支持自定义语音

EVI 2集成了一个前辈的语音天生模型和情绪大型措辞模型(eLLM),能够处理和天生文本及音频。
这种多模态方法使得EVI 2天生的语音听起来更自然,语调更恰当,表现力更高,输出更连续。

此外,在同一模型中处理语音和措辞,使得EVI 2可以更好地理解用户输入内容的情绪方向,从而做出相应调度,在内容和语气方面天生更具有同理心的相应。

除了在语音质量和情商方面的提升,新一代EVI 2还支持用户自定义语音。
开拓职员可以设置腔调、鼻音和性别等参数,根据特定的运用需求定制EVI 2的语音,比如运用于客服机器人、虚拟AI助手。

EVI 2还支持用户在交互过程中通过语音提示,动态修正EVI 2的说话风格。
例如,“说得更快”、“语调听起来很愉快”,乃至还可以“进行说唱“。

根据Hume AI的先容,EVI 2还能够与其他运用程序、大措辞模型进行集成,在客服通话、网页搜索等功能中利用。

Cowen在上周与VentureBeat的视频通话中谈道:“我们希望开拓者能够将这个模型集成到任何运用中,创建他们想要的品牌语音,并根据他们的用户需求进行调度,使其品牌语音变得值得相信且具有个性。

此外,他透露道,EVI 2并不打算供应语音克隆的功能。

“我们当然可以用我们的模型克隆声音,但我们没有供应这一功能,由于它的风险太高、益处也不清晰。
”他阐明道,“人们真正想要的是能够定制声音。
我们开拓了新的语音,让用户可以创建不同的个性化语音。
比较于克隆特定声音,开拓者彷佛对创建新语音更感兴趣。

定制语音功能体验地址:https://platform.hume.ai/evi/voices

二、性价比提高:相应延迟降落40%,定价降落30%,年底估量能支持更多措辞

EVI 2与EVI 1比较,延迟降落了40%,现在均匀相应韶光在500到800毫秒之间。
速率的改进使对话相应更快、更像人类。

EVI 2还有一大亮点是其本钱效益的提高。
Hume AI将EVI 2的定价降落了约30%,从第一代的每分钟0.102美元降落到每分钟0.072美元。
企业用户还可以享受批量折扣。

不过,根据VentureBeat的打算,OpenAI目前供应的文本转语音做事(非新推出的ChatGPT高等语音模式)要比Hume AI的EVI 2便宜很多。
OpenAI的文本转语音做事每1000字符收费0.015美元(大约每分钟语音0.015美元),而Hume AI的EVI 2为每分钟0.072美元。

EVI 2目前仅支持英语,Hume AI操持在2024年底之前推出对西班牙语、法语和德语等多种措辞的支持。

Cowen向VentureBeat透露道,得益于他们的演习过程,EVI 2实际上自主学习了多种措辞,不须要由工程师进行人为的演习。

“我们没有专门演习模型输出某些特定的措辞,但它从演习数据中学会了说法语、西班牙语、德语、波兰语等多种措辞。
”Cowen阐明道。

结语:先于竞争对手公开拓布,有望抢占市场

据传,Hume AI潜在的竞争对手Anthropic正在重新打造其投资方亚马逊的Alexa语音助手并准备推出。

另一方面,OpenAI在今年5月展示的由GPT-4o模型支持的ChatGPT高等语音模式,目前只对少数用户开放,在候补名单中的用户仍需等待。

只管Hume AI并没有像OpenAI或Anthropic那样广为人知,但Hume AI已经抢先于它们公开推出了一个人性化语音助手,并且客户现在就可以立即将其投入利用。
这可能为Hume AI在竞争激烈的市场中抢占一席之地。

来源:VentureBeat