论文题目:基于 LSTM 神经网络的语音情绪识别Speech Emotion Recognition Based on LSTM Neural Network 论文作者:辛创业 许 芬
数据库:基于现实场景的 CHEAVD2.0 情感数据库进行实验。 在对音频信息进行预处理后,进行音频特征的提取,提取了梅尔倒谱系数、短时过零率、基音周期和频率等特征。 为抓取音频数据在时间维上的关联性,使用长 短时记忆网络的方法进行情绪识别分类任务。
随着语音识别技术的发展,在实验室环境中情绪识别较为成功,但在实时环境中的识别效果不佳。语音情绪识别的过程由语音信号预处理、 特征提取、情感分类三部分组成,其中特征能否代表该类别是影 响识别率的关键因素。 本文使用 OPENSMILE 软件进行特征的 提取,提取基音频率、梅尔倒谱系数、短时能量等特征。 在特征提取后,需要使用分类器对其进行分类。有支持向量机[6](Support Vector Machine SVM)进行语音情绪识别的研究,深度神经网络(Deep Neural Networks,DNN)、卷积神经网络[7](Convolution Neural Network,CNN)以及循环神经网络(Recurrent Neural Network RNN) 都在情绪识别领域被广泛应用。 本文使用对循环神经网络改造后的长短时记忆神经网络构建模型进行实验。 1. 语音情感特征提取 1.1 预处理:语音信号的预处理包括:采样与量化、加窗分帧。
采样:为了将语音信号转换为数字信号, 需要按照一定时间间隔获取语音信号的幅值。 这个时间间隔就是采样周期,其倒数就是采样频率。 根 据采样频率的不同可以将语音划分为低(11.25kHz)、中(22.05kHz)、高(44.1kHz)三种品质,高品质频率不在人的辨别范围内没意义, 一般使用 22.05kHz 就可以。语音信号采样后通过量化得到离散的语音信号。分帧加窗:语音信号是不平稳的,但一定的频率内可以将其视为稳态信号,理论是10-30ms。将语音信号进行分帧,其实就是将语音信号划分为段,每一帧就代表了一个稳态,语音信号就变为帧的序列。使窗函数将语音信号分帧(加窗),使用移动的窗口在语音信号上滑动,把窗函数与语音信号相乘【常用窗:汉明窗,矩形窗,海宁窗】。 1.2 语音特征提取 语音特征十分丰富,一般将其分为三大类:韵律特征、音质特征、谱特征。下面将介绍较为常用的特征。短时过零率:过零率就是统计了一定时间内信号幅度经过零点的次数(短时过零率的相关参数包括短时平均过零率最大值,短时平 均过零率最小值,短时平均过零率均值,短时平均过零率范围等)。短时能量:短时能量反映了语音信号的强度, 能量的高低能够区分清音和浊音、声母和韵母以及声音的边界(短时能量中的重要参数包括:短时能量最大值、短时能量最 小值、短时能量平均值、短时能量的范围等)。短时能量公式如下(xn(m)为第 n 帧语音信号,N 为帧长): 梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC):MFCC根据人耳听觉机理提出,人的听觉是一个非线性系统,对频率的高低具有不同的灵敏度,MFCC 与频率成非线性的关系也不依 赖于语音信号的性质。 梅尔倒谱系数特征的提取过程如下: 1)对语音信号进行预处理,进行加窗分帧的操作; 2)使用傅里叶变换将语音信号处理到频率域信号; 3)使用三角带通滤波器组进行滤波,计算滤波器组的输出 的对数能量; 4)用离散余弦变换(DCT)计算梅尔倒普系数。 【注:音频特征提取工具包:OpenSMILE,使用 INTERSPEECH2009 基准进行特征的选 择 ,提 取共 384 维的声学特征使用的config 文件为 e-mo_IS09.conf。 这些特征包括 PCM 响度、F0 包络、Voicing 概 率、线谱对频率、周期差(DDP)、短时能量、短时平均幅度、短时过零率、基音周期和频率、梅尔倒谱系数(MFCC)】 2. 基于 LSTM 的情感分类方法 循环神经网络(RNN)是一类以序列数据维输入,循环神经网络较其他网络最大的不同 是相同层之间也建立了连接, 上一时刻的输出对下一时刻的输出也造成了影响。RNN结构如如下: 循环神经网络和其他神 经网络一样都存在梯度消失的问题, 这就导致前面较长时刻信息对当前时刻输入产生较小影响, 这就是循环神经网络存在的长时依赖问题 ===》LSTM。 LSTM结构图如下: LSTM为了解决RNN长时依赖问题其内部包含了3个单元门控制单元:输入门、遗忘门、输出门,这三个门的作用是让信息进行选择性通过。各门结构如下: 遗忘门决定了上一时刻有多少信息(旧信息)保留多少。 输入门决定了当前时刻网络的输入有多少信息保存到Ct。 输出门控制单元状态Ct有多少输出到LSTM,当前输出值ht。 3. 实验分析 3.1 情感数据库:中 国 自 动 化 研 究 所 发 布 的 多模态情感数据库 CHEAVD2.0[11]。数据库具有图像及音频的数据信息,这里的音频片 段摘自于综艺节目、电视剧以及电影中,来源非常广泛,音频片段的多样性以及真实性使得视频的情绪识别难度较大, 此数据 是其对情感的自然流露而非刻意表达。 数据库中中共有 7030 个音频片段, 其中训练集有有 4917 音频片段,验 证集有 707 个音频片段,测试集有 1406 个音频片段。 这些片段被标记为高兴、悲伤、愤怒、担心、焦虑、惊奇、厌恶、中性八种情绪类别[12]。 3.2 网络模型训练及结果分析 对LSTM网络的层数、节点数、学习率、 优化函数、Dropout 等参数进行设置不 断的进行实验, 最终保存实验结果最 好的网络模型。如下: 模型评测标准:准确率 (precision)和宏平均准确率(macro average precision,MAP),公式如下: 其中 S 为情绪类别数目,Pi 为第 i 种情绪类别的精确度,TPi 与 FPi 分别为第 i 种情绪判断正确与错误的个数。 表 2 为情绪识别的混淆矩阵: **总结:**首先,此文采用了一个比较真实的数据库对人们的自然流露出的各种情绪进行情绪识别;其次对于音频的特征提取,使用OPEMSMILE 工具对音频数据进行预处理, 然后使用 INTERSPEECH2009 基准提取了 384 维的音频特征。最后基于LSTM在时间维度的优势建模,分类。缺点是单一的LSTM网络建模深度和网络性能不佳,还需要改进,但LSTM确实在时间维度上有很好的处理效果。