建立一个具有自然情绪和流畅表达的情绪语音数据库已经逐渐成为国内外的研究热点。最新揭橥的论文《Construction and Evaluation of Mandarin Multimodal Emotional Speech Database》(https://arxiv.org/abs/2401.07336)旨在建立一个具有真实情绪刺激、自然表达和离散和维度注释信息共存的高质量情绪语音数据库。这篇论文是由太事理工大学信息与打算机学院的Zhu Ting, Li Liangqi, Duan Shufei, Zhang Xueying, Jia Hairng, 苏州大学光电信息科学与工程学院的Xiao Zhongzhe,以及纽卡斯尔大学打算学院的Liang Huizhi等七位中国专家作者共同撰写的。这篇论文先容了一个包含发音运动、语音、声门和视频四种模态的中文情绪语音数据库,以及对该数据库进行的维度标注和情绪识别的评估。论文的主题是非常前沿和有代价的,由于情绪语音是人类互换中不可或缺的一部分,而多模态数据可以供应更丰富和准确的情绪信息,有助于提高情绪识别的性能和鲁棒性。他们的创新点有三个:
1)这是国内外第一个将发音运动、声门、语音和视频四种模态结合的情绪语音数据库。
2)第一个利用了7点语义差异法对情绪语音进行PAD维度标注的数据库,改进了9点语义差异法的不准确性和5点语义差异法的不敷。
3)第一个将PAD标注与SCL-90生理量表相结合,剖析标注者内部生理成分对PAD标注的影响的数据库。
七位专家设计并建立了包括发音运动学、声学、声门和面部微表情在内的多模态情绪语音普通话数据库,从语料库设计、主题选择、录音细节和数据处理等方面进行了详细描述。个中,旗子暗记被标记为离散的情绪标签(中性、快乐、愉快、冷漠、愤怒、悲哀、悲哀)和维度情绪标签(愉悦、唤起、支配)。通过对标注数据的统计剖析,验证了标注的有效性。对注释者的SCL-90量表数据进行验证,并与PAD注释数据相结合进行剖析,以磋商注释中的非常征象与注释者生理状态之间的内在关系。为了验证数据库的语音质量和感情辨别能力,利用SVM、CNN和DNN三个基本模型来打算这七种感情的识别率。结果表明,单独利用声学数据时,七种感情的均匀识别率约为82%。当单独利用声门数据时,均匀识别率约为72%。仅利用运动学数据,均匀识别率也达到55.7%。因此,该数据库质量很高,可以作为语音剖析研究的主要来源,特殊是用于多模态情绪语音剖析的任务。
关键词:情绪言语数据库;多模式感情识别;维度情绪空间;三维电磁发音仪;电子声门装置
01
数据库的构建方法和内容
他们构建的数据库名为STEM-E2VA,即Speech, Tongue, EGG and Micro-expression Emotional Database,是一个多模态的中文情绪语音数据库,包含了发音运动、语音、声门和视频四种模态的数据。他们采取了非专业演出者进行情景描述的演出录制办法,以期得到更自然和真实的情绪语音。选择七种情绪,即高兴、愉快、生气、冷漠、悲哀、悲痛和中性,分别对应了强弱两种情绪强度。他们招募了22名大学生作为演出者,分别演出了两种类型的文本,即元音和句子。元音文本是由五个中文元音组成的随机序列,用于不雅观察发音运动和声门旗子暗记的变革;句子文本是由八个中文句子组成的,用于不雅观察语音和视频旗子暗记的变革。他们利用了多种仪器和设备来录制和采集数据,包括:
发音运动数据:利用电磁伺服发音运动丈量仪(EMA)来丈量舌头和嘴唇的运动轨迹,每秒采样500次,共采集了八个轨迹点,分别是舌尖、舌中、舌根、舌后、上唇、下唇、上齿龈和下齿龈。
图1:校准头部传感器设置
语音数据:利用麦克风和录音机来录制语音旗子暗记,每秒采样16,000次,采取16位量化精度,保存为WAV格式的文件。
声门数据:利用电声门图(EGG)仪来丈量声门开合的周期性变革,每秒采样4,000次,保存为WAV格式的文件。
视频数据:利用高速摄像机来录制演出者的面部微表情,每秒采样200帧,分辨率为640×480像素,保存为AVI格式的文件。
通过以上的方法和设备,他们共录制了2,943个声音、发音和声门数据样本,以及24.5小时的面部微表情数据。这些数据可以为情绪语音的研究供应丰富和多样的信息,也可以为发音运动和声门旗子暗记与语音旗子暗记之间的内在联系供应依据。
02
数据库的维度标注方法和结果
他们利用了PAD三维情绪模型来对数据库进行维度标注,该模型将情绪分为愉悦度、唤起度和支配度三个维度,每个维度有四个项目,每个项目有七个等级。他们采取了微信小程序作为标注平台,约请了28逻辑学生和社会人士对数据库中的语音进行标注,分为两个实验,实验一用于筛选标注者,实验二用于标注八种情绪的语音。
图2:PAD事理图
他们剖析了标注结果的同等性、可靠性和有效性,并与其他情绪模型进行了比较,证明了PAD模型在语音情绪标注中的适用性和优胜性。他们的维度标注方法和结果有以下几个特点:
他们对PAD情绪量表进行了改进,利用了7点语义差异法,使得标注者可以更准确地表达情绪强度,避免了9点语义差异法的稠浊和5点语义差异法的不敷。
他们对标注数据进行了统计剖析,创造标注数据的标准差在0.90到1.50之间,表明数据具有一定的分散度,而不是集中在一个区域。同时,标注数据在PAD三维空间中的分布也表明,不同的情绪可以在空间中被很好地区分,且标注数据基本环绕中央点分布,表明数据具有一定的集中度。
他们对标注数据中涌现的非常值进行了剖析和处理,利用密度估计曲线、箱线图和抖动散点图等方法,根据标注值的均匀值和标准差,确定了非常值的阈值,并对非常值的产生缘故原由进行了磋商,认为紧张是由于标注者对情绪强度的理解和感想熏染存在差异所致。
他们利用了自评症状清单90 (SCL-90)来评估标注者的生理症状状况,并探索了非常值与生理症状的干系性。对SCL-90的信度和效度进行了剖析,结果表明该量表具有良好的信度和效度,可以用于进一步的剖析。他们利用了多元线性回归剖析,创造了生理症状的九个成分与高低维度标准的六个种别之间的关系,建立了初步的模型,并利用逐步回归剖析法,担保只有显著的独立变量被纳入回归方程。
03
数据库的非常值剖析和处理
他们对标注数据中涌现的非常值进行了剖析和处理,利用密度估计曲线、箱线图和抖动散点图等方法,根据标注值的均匀值和标准差,确定了非常值的阈值,并对非常值的产生缘故原由进行了磋商,认为紧张是由于标注者对情绪强度的理解和感想熏染存在差异所致。他们的非常值剖析和处理有以下几个步骤:
首先,他们利用密度估计曲线来不雅观察标注数据的分布情形,创造标注数据呈现出多峰的特色,表明标注数据存在一定的分散性,也反响了标注者对情绪强度的不同认知和感想熏染。
其次,他们利用箱线图来确定非常值的阈值,根据标注值的均匀值和标准差,打算出高下四分位数和高下四分位距,以及高下非常值的界线。他们认为,超出高下非常值界线的标注值为非常值,须要进行处理。
第三,他们利用抖动散点图来展示标注数据的分布情形,以及非常值的位置和数量。他们创造,非常值紧张集中在高兴、愉快、悲哀和悲痛四种情绪中,而且非常值的数量和比例也不同,表明标注者对这些情绪的标注存在一定的偏差和不一致性。
末了,他们对非常值的产生缘故原由进行了剖析,认为紧张是由于以下几个方面的成分:
图3:个体感情的标准差
标注者的个体差异:不同的标注者可能对情绪强度的理解和感想熏染有不同的标准和偏好,导致标注结果的差异和不一致。
标注者的生理状态:标注者在标注过程中可能受到自身的生理状况的影响,如感情、压力、疲倦等,影响标注的准确性和稳定性。
标注者的标注技巧:标注者可能对标注工具和标注方法不熟习,或者对标注任务不足专注和负责,导致标注的质量和效率低落。
标注者的标注环境:标注者可能在标注过程中受到外界的滋扰和滋扰,如噪音、光芒、温度等,影响标注的舒适度和专注度。
图4:感情的均匀分布
他们对非常值进行了处理,利用了以下两种方法:
1)删除法:将非常值直接删除,只保留正常值,以提高数据的同等性和可靠性。
2)更换法:将非常值用正常值的均匀值或中位数更换,以保持数据的完全性和连续性。
他们对两种方法的优缺陷进行了剖析,认为删除法可以减少数据的噪声和偏差,但也会降落数据的规模和多样性;更换法可以保持数据的规模和多样性,但也会引入数据的偏差和不准确性。他们根据不同的情形选择了得当的方法,以达到最佳的效果。
04
数据库的情绪识别评估和比较
他们利用了支持向量机、深度神经网络和卷积神经网络等方法对数据库进行了情绪识别的评估,结果表明该数据库具有高质量的语音和明显的情绪区分度,可以为国内外的情绪识别研究供应良好的数据支持。他们的情绪识别评估和比较有以下几个特点:
他们利用了OpenSMILE工具提取了声学、声门和运动学特色,分别是INTERSPEECH 2009 Emotional Challenge特色集(简称IS09特色集)、声门周期特色和发音器官的位移和速率特色。这些特色可以反响语音旗子暗记的不同方面,也可以与情绪维度有一定的干系性。
公式中:Pk表示传感器的左唇、右唇、上唇、下唇、舌基、舌心和舌尖在k轴方向上的位移特性;k分别是X、Y和Z轴;V是每个咬合架的速率特色,共有28个维度的发音运动学特色。
他们利用了80%的语音样本作为演习集,剩余的20%作为测试集,分别利用了支持向量机、深度神经网络和卷积神经网络作为分类器,对数据库中的七种情绪进行了识别。结果显示,三种基本模型在声学数据上的识别率分别达到了82.57%、85.28%和79.85%;在声门数据上的识别率分别达到了72.28%、79.85%和65.42%;在运动学数据上的识别率分别达到了53.57%、61.17%和52.28%。这些结果表明,该数据库可以通过大略的基本特色和基本识别网络,实现高识别率,证明了该数据库的语音质量和情绪区分度。
他们对识别结果进行了稠浊矩阵的剖析,创造了一些情绪之间的稠浊征象,例如高兴和愉快、冷漠和悲哀等。这些稠浊征象可能是由于这些情绪在特色和情绪强度上有一定的相似性或差异性所致。他们认为,可以通过增加更多的模态和特色,以及利用更繁芜的识别网络,来提高情绪识别的准确性和鲁棒性。
展望
普通话多模态情绪语音数据库的构建与评估的研究为情绪语音的多模态剖析和识别供应了一个有代价的数据资源和参考依据,也为未来的研究提出了一些可能的方向,例如:
连续探索发音运动、声门、语音和视频四种模态之间的关联和领悟,以提取更有效的情绪特色和信息。
同时探索PAD维度标注与SCL-90生理量表之间的联系和影响,以揭示标注者的生理状态对标注结果的浸染和机制。
探索更前辈的情绪识别方法和技能,如深度学习、迁移学习、多任务学习等,以提升情绪识别的性能温柔应性。(END)
参考资料:https://arxiv.org/abs/
噬元兽(FlerkenS)是一个去中央化的个人AI数字代价容器,同时也是数字经济的新型资产捕捉器和转化器,用数据飞轮为用户供应无边界的数字化、智能化和资产化做事。
噬元兽(FlerkenS)构建AI市场、AI发布器和一个在通用人工智能(AGI)上培植可扩展的系统,AI-DSL让不同类型和领域的AI运用和做事可以相互协作和交互,通过RAG向量数据库(Personal Vector Database)+ Langchain技能方案(Langchain Technology Solution)+大模型的技能实现路径,让用户得到个性化的AI做事,在分布式的网络环境里与AI技能下的做事商实现点到点的连接,培植一个智能体和经济体结合的数智化整体。
颠簸天下(PoppleWorld)是噬元兽平台的一款AI运用,采取AI技能帮助用户进行感情管理的工具和通报感情代价的社交产品,采取Web3分布式技能培植一套采集用户感情数据并通过TOKEN勉励聚合形成情绪垂直领域的RAG向量数据库,并以此演习一个专门办理用户感情管理的大模型,结合Agents技能形成情绪类AI聪慧体。在产品里植入帮忙用户之间深度交互供应感情代价的社交元素,根据用户的更深层化的需求处理准确洞察匹配需求,帮助用户做有信心的购买决定并供应基于意识源头的商品和做事,建立一个辅导我们的感情和反应的代价体系。这是一款针对普通人的基于人类认知和行为模式的情绪管理Dapp运用程序。