- 文献综述(或调研报告):
语音识别系统一般由1)预处理2)特征参数提取3)识别模型4)数据库四个部分组成。
预处理:
由于实用语音识别中存在很多问题:连续语音中音素之间没有明显的停顿,分割比较困难;单个字母及单个词语发音时语音特性受上下文环境的影响,使相同字母有不同的语音特性;不同人、不同心理和不同说话环境下,词的声学特征会发生变化;词的读音除了词义,还包括性别、年龄、情绪等特征,这些信息和词义的分离是比较难的;环境的噪声和干扰对语音识别有严重影响。为了消除或减弱这些影响,通常需要进行反混叠滤波、模数转换、预加重、端点检测、噪声滤波等操作。
特征参数提取:
预处理后的语音信号,提取特征参数,以使在语音识别时类内距离尽量小,类间距离尽量大。
对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。语音信号的特征主要有时域和频域两种。时域特征:短时平均能量、短时平均过零率、共振峰、基音周期等;频域特征:线性预测系数(LPC)、LP倒谱系数(LPCC)、线谱对参数(LSP)、短时频谱、Mel频率倒谱系数(MFCC)等。时域和频率结合的特征,如即时频谱,充分利用了语音信号的时序信息;以及基于听觉模型的特征参数提取,如感知线性预测(PLP)分析。刘丽媛等人[1]采用LPCC参数,得到了性能良好的语音识别系统。本文选用MFCC参数,计算过程是,先将信号进行短时傅立叶变换得到其频谱,再求频谱幅度的平方,即能量谱,并用一组三角滤波器在频域对能量进行带通滤波,最后对滤波器的输出取对数,然后作傅立叶逆变换即可得到MFCC。2015年,吴佳龙等人[2]用MEL频率倒谱系数特征参数提取算法和动态时间规整的模型匹配方法,得到了具有较强的实时性和较高的识别率的系统。Wahyuni[3]采用MFCC参数应用于神经网络模型,字母识别平均准确度为92.42%
识别模型:
通常有三种,模式匹配的方法、统计模型的方法、人工神经网络的方法。模式匹配常用的技术有矢量量化VQ和动态时间规整DTW;统计模型方法常见的是高斯混合模型GMM、隐马尔可夫模型HMM;神经网络有反向传播BP网络、深度神经网络DNN、卷积神经网络CNN、递推神经网络RNN。
矢量量化VQ是70年代后期发展起来的一种数据压缩技术,将若干个标量数据组构成一个矢量, 然后在矢量空间给以整体化, 从而压缩了数据而不损失信息.
DTW通过把时间序列进行延伸和缩短,来计算两个时间序列性之间的相似性,在语言识别中的应用, 一般是把整个单词作为识别单元。在训练阶段,用户将词汇表中的每一个单词说一遍,提取特征后作为一个模板,存入模板库。在识别阶段,对一个新来的需要识别的词,也同样提取特征,然后采用DTW算法和模板库中的每一个模板进行匹配,计算距离。求出最短距离也就是最相似的那个就是识别出来的字。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。