然而,对付这项技能,您又理解多少呢?让我们从深入阐发和定义那些使语音识别技能得以实现的关键技能开始。

2 特色提取

在进行语音识别之前,紧张任务是将人类产生的声波(sound wave)转换成机器能够理解的数据格式。
这个过程包括预处理(pre-processing)和特色提取(feature extraction)。
特色提取是语音识别系统中的关键步骤,它将声波的原始数据转换成一组特色,这些特色能够代表语音旗子暗记的关键属性。
有两种最常见的特色提取技能,梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)和感知线性预测(Perceptual Linear Predictive,PLP)系数。

2.1 梅尔频率倒谱系数(MFCC)

MFCC 是一种广泛利用的特色提取技能,它通过剖析音频旗子暗记的功率谱来捕捉声音的独特特色。
MFCC 的处理流程如下:

预加重:首先,对旗子暗记进行预加重,以强调高频部分,由于人耳对高频的感知不如低频敏感。
分帧:接着,将旗子暗记分割成短帧,常日每帧的时长为20到40毫秒。
这仿照了人耳对声音的感知办法,即短韶光内的声音片段。
加窗:对每个帧运用窗函数,以减少帧边界处的不连续性。
快速傅里叶变换(FFT):对加窗后的旗子暗记进行快速傅里叶变换,从而得到频谱信息。
梅尔滤波器组:利用一组梅尔滤波器对频谱进行过滤,这些滤波器模拟人耳对不同频率的敏感度。
对数运算:对过滤后的频谱取对数,以进一步仿照人耳的非线性相应特性。
离散余弦变换(DCT):末了,通过离散余弦变换将梅尔滤波器的输出转换成MFCC系数。

MFCC 供应了一种紧凑且有效的表示方法,能够捕捉到语音旗子暗记的关键特色,这些特色随后可以被声学模型用于进一步的语音识别处理。

三分钟理解语音识别技能技能寻衅与未来瞻望

2.2 感知线性预测(PLP)系数

PLP 系数是另一种特色提取方法,它旨在更精确地仿照人类听觉系统的特性。
PLP 的设计基于对人耳听觉感知的深入理解,特殊是在频率相应和响度感知方面。

与 MFCC 类似,PLP 首先通过一系列的滤波器来处理声音旗子暗记,这些滤波器试图仿照人耳对不同频率的敏感度。
PLP 处理流程的关键步骤如下:

预处理:对旗子暗记进行预处理,包括预加重,以强调高频身分。
分帧和加窗:将旗子暗记分割成短帧,并为每帧运用窗函数,减少边界效应。
倒谱剖析:对旗子暗记进行倒谱剖析,这有助于捕捉旗子暗记的共振特性,即声音的"形态"。
等效矩形带宽滤波器(ERB 滤波器):利用等效矩形带宽滤波器代替梅尔滤波器,ERB 滤波器能更准确地反响人耳的频率分辨率。
对数压缩:对滤波后的旗子暗记进行对数压缩,以仿照人耳对不同响度级别的非线性相应。
线性预测:通过线性预测模型估计旗子暗记的频谱包络,这有助于捕捉语音旗子暗记的基频和共振峰。
离散余弦变换(DCT):末了,利用 DCT 将预测的系数转换为 PLP 系数,这些系数供应了对语音旗子暗记的紧凑表示。

PLP 系数通过这些步骤供应了一种对语音旗子暗记的感知加权表示,这使得语音识别系统在处理各种环境噪声时更加鲁棒。

2.3 MFCC 和 PLP 的比较

梅尔频率倒谱系数(MFCC)和感知线性预测(PLP)系数的比拟表如下:

特色

MFCC(梅尔频率倒谱系数)

PLP(感知线性预测系数)

定义

一种基于梅尔刻度的倒谱系数,仿照人耳的听觉感知

一种基于人耳听觉感知的预测模型,用于提取语音特色

起源

基于对数功率谱的倒谱变换

基于线性预测模型的倒谱变换

滤波器

梅尔滤波器组,仿照人耳的非线性频率相应

等效矩形带宽(ERB)滤波器,更精确地仿照人耳频率分辨率

压缩

对数压缩,仿照人耳对响度的非线性感知

对数压缩,但与MFCC比较,PLP的压缩可能更符合人耳感知

变换

离散余弦变换(DCT)

离散余弦变换(DCT)

运用

广泛用于语音识别、语音编码、语音合成等领域

用于语音识别,特殊是在须要更精确仿照人耳特性时

特点

- 大略易实现- 打算效率高- 广泛利用

- 更精确地仿照人耳特性- 可能供应更好的噪声鲁棒性- 打算繁芜度略高

上风

- 打算速率快- 特色稳定,易于从语音旗子暗记中提取

- 对噪声有更好的抑制能力- 更符合人耳听觉特性

局限性

- 对付某些语音特色的捕捉可能不如PLP精确

- 打算上可能比MFCC繁芜- 实现起来可能更困难

适用场景

适用于须要快速且稳定特色提取的场合

适用于对语音质量哀求较高,须要更精确仿照人耳特性的场合

2.4 其它特色提取方法

语音识别系统中的特色提取是至关主要的一步,它直接影响到识别的准确性和效率。
除了感知线性预测(PLP)和梅尔频率倒谱系数(MFCC)之外,还有多种特色提取方法可以用于提高语音识别的准确性,以下是一些常见的方法:

线性预测系数(Linear Predictive Coefficients, LPC):线性预测剖析通过建立一个线性差分方程来预测旗子暗记确当前样本值。
LPC系数可以捕捉到语音旗子暗记的共振特性。
倒谱(Cepstral Coefficients):倒谱是通过对旗子暗记的功率谱进行对数变换和逆傅里叶变换得到的,它有助于强调旗子暗记的共振峰。
倒谱线性预测(Cepstral Mean Subtraction, CMS):CMS通过从倒谱系数中减去其均匀值来减少噪声的影响,这在噪声环境下特殊有用。
Mel频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC):虽然已经提到,但MFCC是语音识别中最常用的特色之一,它通过梅尔滤波器组来仿照人耳的听觉感知。
感知加权倒谱(Perceptually Weighted Cepstral Coefficients):这种方法通过考虑人耳对不同频率的感知权重来改进倒谱系数。
Rasta-PLP(Relaxed-Atkinson Speech Transform-Perceptual Linear Predictive):Rasta-PLP是对PLP的一种改进,它通过预加重和滤波器组来减少噪声和提高语音特色的稳定性。
深度神经网络特色(Deep Neural Network, DNN Features):随着深度学习技能的发展,直接从原始语音旗子暗记中学习特色的深度神经网络也被用于语音识别。
频谱比拟特色(Spectral Contrast Features):频谱比拟特色通过剖析频谱的局部最大值来捕捉语音旗子暗记的腔调信息。
基频(Fundamental Frequency, F0):基频是语音旗子暗记中周期性波形的频率,它携带了说话人的腔调信息,可以作为特色之一。
零交叉率(Zero Crossing Rate, ZCR):零交叉率是旗子暗记波形在正负之间交叉的次数,它可以供应有关旗子暗记节奏和音高变革的信息。
3 声学建模(Acoustic Modeling)

声学建模是语音识别系统的核心,它建立了音频旗子暗记(声音)与语音单位(构成措辞的不同声音)之间的统计关系。
目前,最常用的技能包括隐马尔可夫模型(Hidden Markov Model,HMM)和深度神经网络(Deep Neural Network,DNN)。

3.1 隐马尔可夫模型(HMM)

自20世纪70年代以来,HMM已成为语音识别中不可或缺的工具。
HMM通过将连续的语音旗子暗记分解为离散的音素(phoneme),并为每个音素分配一个状态,从而实现对语音的建模。
模型通过打算从一个状态到另一个状态的转移概率来处理语音的时序特性。
这种基于概率的方法使系统能够在噪声滋扰和个体语音差异的情形下,从声学旗子暗记中推断出连续的语音流。

3.2 深度神经网络(DNN)

随着人工智能和机器学习技能的飞速发展,DNN已经成为语音识别领域的新宠。
DNN不依赖于预定义的状态和转移,而是直接从原始数据中学习特色。
它们由多层神经元组成,能够自动提取语音旗子暗记的高等特色表示。
DNN通过捕捉语音中的高下文信息和繁芜的声学模式,展现出比HMM更高的准确性和鲁棒性。
此外,DNN能够通过额外的演习适应不同的口音、方言和说话风格,这在环球化和多措辞环境中尤为主要。

3.3 其它声学建模技能

除了隐马尔可夫模型(HMM)和深度神经网络(DNN),还有几种常用的声学建模技能,它们在语音识别系统中各有其上风和运用处景:

高斯稠浊模型-隐马尔可夫模型(Gaussian Mixture Model - Hidden Markov Model, GMM-HMM):GMM-HMM是HMM的一种,个中状态的输出概率密度由高斯稠浊模型定义,常用于传统的语音识别系统。
连接时序分类(Connectionist Temporal Classification, CTC):CTC是一种用于序列建模的丢失函数,可用于演习DNN以进行序列识别,特殊是在没有明确对齐的输入和输出序列时。
循环神经网络(Recurrent Neural Network, RNN):RNN能够处理序列数据,捕捉韶光序列中的动态特色,适用于语音旗子暗记的建模。
是非期影象网络(Long Short-Term Memory, LSTM):LSTM是RNN的一种,它通过引入门控机制办理了传统RNN的梯度消逝问题,适宜处理和预测韶光序列中的长期依赖关系。
门控循环单元(Gated Recurrent Unit, GRU):GRU是LSTM的变体,它简化了门控机制,但同样能够学习长期依赖信息。
卷积神经网络(Convolutional Neural Network, CNN):CNN在图像处理中非常盛行,但它们也可以用于语音旗子暗记的特色提取,尤其是在处理频谱图时。
深度置信网络(Deep Belief Networks, DBN):DBN由多层受限玻尔兹曼机(RBM)堆叠而成,能够学习数据的高维表示,可用于语音特色的提取。
Transformer和自把稳力机制(Transformer and Self-Attention):Transformer模型通过自把稳力机制处理序列数据,能够并行处理序列中的所有元素,非常适宜长间隔依赖问题。
端到真个深度学习模型(End-to-End Deep Learning Models):这些模型直接从输入数据到终极输出进行演习,无需传统的声学特色提取步骤,例如直接从波形到词序列的模型。
把稳力机制(Attention Mechanisms):把稳力机制许可模型在处理序列数据时聚焦于输入序列的特定部分,提高了模型对高下文的理解能力。
4 小结

只管语音识别技能已经取得了显著的进展,但仍存在一些寻衅,须要我们连续努力。
背景噪音、多说话情面况、多样的口音以及说话延迟等问题仍旧是技能完善的障碍。
为了战胜这些寻衅,工程师们正在探索创新的办理方案,个中包括结合隐马尔可夫模型(HMM)和深度神经网络(DNN)的上风的稠浊模型。

随着人工智能研究的不断深入,深度学习在各个领域的运用也日益广泛。
传统上用于图像剖析的卷积神经网络(CNN)在语音处理方面也展现出了巨大的潜力,特殊是在处理频谱图和声学特色时。

另一个令人愉快的进展是迁移学习的运用。
这种方法许可在大型数据集上预演习的模型针对特界说务进行微调,纵然是在只有相对较小的赞助数据集的情形下。
这不仅减少了开拓高性能语音识别系统所需的韶光和资源,而且促进了更加环保和高效的模型支配策略。

此外,随着个性化和高下文感知模型的发展,未来的语音识别系统将更加智能,能够更好地适应用户的语音特色和环境变革。
通过不断的技能创新和研究,我们有情由相信,语音识别技能将不断进步,为用户带来更加准确和便捷的体验。