基于神经网络堆叠自编码器多特征融合的声音识别方法与流程

文档序号:13514316阅读:2672来源:国知局
基于神经网络堆叠自编码器多特征融合的声音识别方法与流程

本发明涉及声音识别技术领域,尤其涉及一种基于神经网络堆叠自编码器多特征融合的声音识别方法。



背景技术:

声音识别是人工智能的目标之一,对声音信号能够进行准确的识别分类,对于人工智能的发展起到关键作用。现有的技术中,传统的特征提取加分类器的方法已经得到广泛运用。但特征提取要根据不同类型的声音来选择,由于声音信号来源不同,特征提取的方法也不相同,针对不同声音要有相对应的专业知识选择特征提取方法。此外,某些环境下声音的情况比较复杂,传统的特征提取方法无法取得期望的识别性能。针对声音的差异导致的特征提取方法选择的差异性,最直接的方法是采用多种声音特征提取算法分别对声源进行特征提取,将提取到的多种特征直接进行拼接,然后采用分类器进行训练识别。但这种方法无法保证各个特征之间的无关性,即直接拼接得到的特征向量中存在冗余性,从而使得导致训练的得到的模型分类效果差。模型训练效率低等都是制约声音识别技术领域的难点。



技术实现要素:

本发明为了克服上述存在的传统的声音识别技术中的不足,提出了一种基于多层神经网络堆叠自编码器多特征融合的声音识别方法。该方法首先提取典型的声信号时域线性预测倒谱系数(lpcc)与频域mel频率倒谱系数(mfcc)特征;再对所提取的特征进行拼接,构建声信号的初步特征表示向量并创建训练特征库;然后采用多层神经网络堆叠自编码器(stackedautoencoder,sae)进行特征融合与学习;该多层自编码器采用超限学习机算法学习训练;最后所提取的特征再采用超限学习机分类算法训练得到分类器模型。

本发明解决其技术问题所采用的技术方案,采用声信号的线性预测倒谱系数和梅尔频率倒谱系数为基础特征构建特征融合算法,具体步骤如下:

(一)模型训练

步骤1、对原始声音数据进行分帧加窗,帧长为n,帧移为加汉明窗;

步骤2、采用不同的特征提取算法对处理过的原始数据分别提取不同的特征,将不同的特征拼接获得r维特征向量。

步骤3、将采集到的声源数据按步骤1和2进行处理,得到训练数据集为x={x1,x2,…,xp},其中xi,i=1,…,p为一帧声源数据的rlpcc+rmfcc维的特征向量,p为总共的样本个数。同时将需要识别的声源类型进行标号,即第一类声源记为1,第二类声源记为2,以此类推,总共有m类声源。然后将训练数据集中的每一个样本对应的声源类号组成集合t={t1,t2,…,tp}。

步骤4、将训练数据集x={x1,x2,…,xp}作为输入,输入至超限学习机自编码器(extremelearningmachinebasedautoencoder,elm-ae)进行特征融合。记第k个elm-ae的输入为xk,特别的,第1个的elm-ae的输入x1=x。假设总共k个elm-ae,以第k个elm-ae为例。首先获得第k个elm-ae的隐藏层输出为hk=g(wkxk+bk),其中wk为第k个elm-ae的输入层与隐藏层之间的输入权重矩阵,bk为第k个elm-ae的隐藏层偏置向量,且wk和bk均为随机生成,与训练集无关。

步骤5、求解最小化问题

其中,c是一个权衡系数,用来权衡两项之间的权重。βk是第k个elm-ae的输出权重,即elm-ae训练出的模型参数。求解上述问题得:

其中,lk是第k个elm-ae的隐藏层神经元的数量。

步骤6、求解第k+1个elm-ae的输入为

步骤7、得到最终的elm分类器的输入为xk+1。

步骤8、以xk+1作为输入,得到elm分类器的隐藏层输出为helm=g(welmxk+1+belm),其中welm和belm分别为随机生成的elm的输入权重和隐藏层偏置向量。求解最小化问题

得到输出权重

其中lelm为elm分类器的隐藏层神经元数量。

(二)声源预测:

对于一个新的未知类型的声源数据,我们对它进行如下处理得到其类型:

步骤(1)、采用训练中的不同的特征提取算法提取其不同的特征进行拼接,得到特征向量x。

步骤(2)、求得特征融合的结果xk+1,xk+1=βkβk-1…β1x。

步骤(3)、得到elm的隐藏层输出h=g(welmxk+1+belm)。

步骤(4)、获得未知声源的类型为hβelm。

本发明有益效果如下:

使用自编码器相较于传统的声音识别方法,训练效果较好,泛化能力强,基于特征融合的自编码器的超限学习机,效率提升效果明显,对远距离声源识别效果优于传统方法。

相比较于传统特征融合算法及单一的特征提取方法,本发明可以有效融合声信号时频域的典型特征,采用随机隐层神经元参数的超限学习机自编码算法能快速实现特征融合与学习,从而有效提高声信号的识别率与计算效率。本发明对复杂的环境噪声的识别性能有明显的改进,而且依据本发明的方法,可以降低特征维数,加快模型训练的速度。

附图说明

图1为基于自编码器的极限学习机构建流程;

图2为单层的基于自编码器的极限学习机结构图;

图3为多隐藏层的基于自编码器的极限学习机结构图。

图4为基于多层神经网络堆叠自编码器多特征融合的声音识别方法基本流程。

具体实施方式:

下面以4种开挖设备(包括手持电动镐、挖掘机、切割机、液压冲击锤)为例,使用线性预测倒谱系数特征(linearpredictioncepstrumcoefficients,lpcc)和梅尔频率倒谱系数(melfrequencycepstrumcoefficients,mfcc)这两种特征提取方法,对本发明作进一步说明。以下描述仅作为示范和解释,并不对本发明作任何形式上的限制。

模型训练:

步骤1、对采集的4种开挖设备作业时的声音数据进行分帧加窗,帧长为n,帧移为加汉明窗得到声音数据库;

步骤2、使用lpcc特征提取算法对每一帧的声源数据进行特征提取,其中lpcc的阶数(即lpcc特征个数)我们记为rlpcc。

步骤3、使用mfcc特征提取算法对每一帧的声源数据进行特征提取,其中mfcc的阶数我们记为rmfcc。

步骤4、将每一帧提取的lpcc特征和mfcc特征进行拼接,组成rlpcc+rmfcc维的特征向量。

步骤5、将采集到的声源数据按上述步骤进行处理,得到训练数据集为x={x1,x2,…,xp},其中xi,i=1,…,p为按上述步骤得到的一帧的rlpcc+rmfcc维的特征向量,p为总共的样本个数。我们将手持电动镐作业时的声音记为第1类,切割机记为第2类,液压冲击锤记为第3类,挖掘机记为第4类,其他声源为噪声,记为第5类。然后我们将训练数据集中的每一个样本对应的声源类号组成集合t={t1,t2,…,tp}。

步骤6、将训练数据集将训练数据集x={x1,x2,…,xp}作为输入,输入至elm-ae,训练得到k个elm-ae的输出权重β1,β2,…βk,同时得到特征融合后的数据集xk+1=βkβk-1…β1x。

步骤7、以xk+1作为elm分类器的输入,先随机产生输入权重和隐藏层偏置welm和belm。然后得到lm分类器的隐藏层输出为helm=g(welmxk+1+belm)。最后求解elm分类器的输出权重为

其中lelm为elm分类器的隐藏层神经元数量。

声源预测:

对于一个新的未知类型的声源数据,我们对它进行如下处理得到其类型:

步骤1、采用lpcc特征提取算法和mfcc特征提取算法对未知类型的声源数据进行特征提取,将两种提取的特征进行拼接得到特征向量x。

步骤2、求得特征融合的结果xk+1为xk+1=βkβk-1…β1x。

步骤3、得到elm的隐藏层输出h=g(welmxk+1+belm)。

步骤4、获得未知声源的类型为hβelm。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1