基于十字形声阵列宽带波束形成的声识别方法

文档序号：10654539阅读：812来源：国知局

基于十字形声阵列宽带波束形成的声识别方法
【专利摘要】本发明公开了一种基于十字形声阵列宽带波束形成的声识别方法。本发明包括如下步骤：1、将十字形声阵列对准所需方向采集声音信号；2、对采集到声音信号进行预处理；3、对预处理后的每一帧数据进行离散傅里叶变换，然后根据需要的频带进行频带提取；4、提取的各频带分别在所需方向上进行LSMI?MVDR波束形成。5、将波束形成后的频域信号进行逆离散傅里叶变换；6、对应分帧时的原则进行帧重叠合成，输出信号；7、对输出信号进行特征提取和分类学习、识别。本发明能够提高期望方向接收信号的信噪比并且抑制其他方向的干扰信号，将其用于声音识别系统的信号处理阶段，能够有效的提高识别系统对识别对象的识别率和可靠性。
【专利说明】
基于十字形声阵列宽带波束形成的声识别方法
技术领域
[0001] 本发明属于信号处理技术领域，尤其设及一种基于十字形声阵列宽带波束形成的声识别方法。
【背景技术】
[0002] 传统的单传声器声识别系统中，存在W下几个问题：
[0003] 1.声识别系统只需要对某一个方向的信号进行识别，然而由于单个传声器的全向性，当识别对象并不在该方向附近时，识别系统依然会被触发，从而造成了误警。
[0004] 2.在真实的复杂环境中，识别对象附近存在多种干扰声源W及严重的背景噪声，运就会造成系统的整体识别率急剧下降，误警率、漏警率会急剧上升。
[0005] 3.在实际应用中，为了提高识别系统的作用区域的极限距离，就会使用高灵敏度的传声器，然而高灵敏的传声器势必会导致背景噪声的增强，从而造成对远距离的识别率并不会有着明显的增高，反而会下降。

【发明内容】

[0006] 针对W上问题，本发明提供了一种基于十字形声阵列宽带波束形成的声识别方法。
[0007] 为了实现上述目的，本发明采用的技术方案包括如下步骤：
[000引步骤1、将十字形声阵列对准所需方向采集4通道声音信号；
[0009] 步骤2、对采集到的4通道声音信号进行预处理，包括分帖、加窗；
[0010] 步骤3、对预处理后的每一帖数据进行离散傅里叶变换，离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取；
[0011] 步骤4、提取的各频带分别在所需方向上进行LSMI-MVDR波束形成；
[0012] 步骤5、将波束形成后的频域信号进行逆离散傅里叶变换；
[0013] 步骤6、对应分帖时的原则进行帖重叠合成，输出信号；
[0014] 步骤7、对输出信号进行特征提取和分类学习、识别。
[0015] 所述的步骤1:将十字形声阵列的其中一个通道对准声源方向，作为LSMI-MVDR宽带波束形成的方向，采集4通道声音信号，采样频率记为fs。
[0016] 所述的步骤2:预处理包括数据的分帖、加窗，对声音信号进行分帖，声音信号每帖选取1024个采样点，帖移为512个采样点;然后采用汉明窗对声音信号进行加窗；
[0017] 所述的步骤3:通过FFT来实现信号的离散傅里叶变换，其中，每一帖信号经过FFT 后频率分辨率为第P个通道的第m帖信号经过FFT后的结果为：
[001 引
[0019]其中，L=1024为每一帖的长度，为第P个通道第m帖的信号，k为是各个频带的编号，其对应的中屯、频率为：
[0020]
[0021] 然后，根据芦音信号的频率特性，选取相应的频率带，比如信号所在的频率带为
[fi，f2]，贝峨们提取FFT后的k所在的区间另
。
[0022] 所述的步骤4:设第k个频带的中屯、频率为fk，则对于十字形阵列，首先将十字形阵列建立在直角坐标系下，则十字形阵列接收到的第m帖信号在时域内表示为：
-子、'一
[C ' Cl)
[0024] 其中，S(t)为声源信号，它的方位角为0;
为方向矢量；
是噪声向量；O为s(t)的中屯、角频率，Tp(0)(p = l，2,3,4)是第p个阵元相对于参考点即坐标原点的延时，对于十字形声阵列，其值为：
[0025]
[0026] C是声音在空气中的传播速度，r是十字形声阵列的半径。
[0027] 将(1)式进行离散傅里叶变换得到在频域下表示方式为 -''I''
[002引
[0029] 其中，k = 0，I，. . .，L-1; a(目，fk)是中屯、频率为fk的第k个频带所对应的方向矢量，即
[0030]
[0031] 对于MVDR波束形成原理，表述为在保证期望方向0de的信号功率不变的情况下，使給t山於TTll盛鳥/1、刖
[0032] VV
[0033] 其中，R = E[X化)XH(k)]是接收信号在频域下的自相关矩阵。在实际应用中，用估计值巧来替代R，估计值巧的计算如下：
[0034；
[0035] 其中Nf表示声音信号的帖数。
[0036] 因此，MVDR波束形成的最值权矢量WDDt为：
[0037]
[003引
是一个比例系数。
[0039] 为了提高MVDR波束形成的稳健性，我们使用基于对角加载的改进MVDR波束形成算
法，其原理是在自巧关巧降的对巧线K增化一个加载量，即
[0040
[0041
[0042
[0043 3；
[0044
[0045]所述的步骤5:将第m帖频域信号Yfml化)通过逆离散傅里叶变换转换到时域，其中逆离散傅里叶变换通过IFFT来实现，其中第m帖时域信号/">( i)为：
[0046]
[0047] 所述的步骤6:将经过逆离散傅里叶变换的各帖声音信号按照分帖时的原则进行重叠，然后再输出信号；其中：第一帖信号不变，后面每一帖信号去掉前面的512个点，只保留后512点，然后再添加到前一帖信号后面。
[004引所述的步骤7:将输出信号作为原始信号，进行特征提取和分类学习、识别。其中，声音的特征提取算法主要有线性预测倒谱系数化inear Prediction Cepstral Coefficients,LPCC)或者梅尔频率倒谱系数（Mel Frequenc^y Cepstrum Coefficient, MFCC)等，而分类学习识别算法主要有支持向量机(Suppod Vector Machine，SVM)或者极限学习机化xtreme Learning Machine，ELM)等。
[0049] 本发明有益效果如下：
[0050] 本发明使用4通道十字形声阵列采集声音信号数据进行LSMI-MVDR宽带波束形成，能够提高期望方向接收信号的信噪比并且抑制其他方向的干扰信号，达到空间滤波和噪声抑制的效果，提高的接收信号的信干噪比，非常有效的解决了上述的提到的缺陷，将其用于声音识别系统的信号处理阶段，可W有效的提高识别系统对识别对象的识别率和可靠性。
【附图说明】
[0051] 图1是本发明提出的基于4通道十字形声阵列LSMI-MVDR宽带波束形成的声识别方法的流程图
[0052] 图2是基于LSMI-MVDR算法的宽带波束形成的流程图
[0053] 图3是识别系统的特征提取、模型库建立和识别部分的流程示意图
[0054] 图4为4通道十字形声阵列建立在直角坐标系下的结构图
【具体实施方式】
[0055] 下面结合附图和【具体实施方式】对本发明作详细说明，W下描述仅作为示范和解释，并不对本发明作任何形式上的限制。
[0056] 如图4所示为4通道十字形声阵列建立在直角坐标系下的结构图，其中d为两个相邻传声器的间距;r为十字形阵列的半径;S(t)为声源，它的方向为0;图中的A、B、C、D分别对应于通道1、通道2、通道3、通道4。假设只需要识别0度方向的信号，则将十字形声阵列的通道1对准0度方向，即在图4中，使得声源位于X轴正半轴上，然后采集信号，总共会采集至Ij4个通道的信号，分别记为Xl(t)，X2(t)，X3(t)，X4(t)。
[0057] 图2展示了基于LSMI-MVDR算法的宽带波束形成的实现流程图，按照图2中的步骤，我们首先将4通道信号分别进行分帖加窗，其中帖长为1024,帖移为512,加汉明窗。
[005引将4通道的每一帖后的数据通过FFT算法进行离散傅里叶变换。第P个通道的第m帖信号FFT后的结果为，
[0化9]
[0060] 第k个频带对应的中屯、频率为
[0061]
[0062] 假设，我们需要进行波束形成的信号频带的区间为[fi，f2]，则对应的频带编号k的区间关
，其中floor为向下取整函数。然后取出各通道同一帖下k对应的FFT结果;写成向量形式，比如我们取出各通道第m帖信号第k个频带为
[0063]
[0064] 接下来W第k个频带为例来讲述LSMI-MVDR波束形成，其他的频带都通过同样的方法来进行LSMI-MVDR波束形成。
[0065] 首先，我们需要估计接收信号的自相关矩阵，通过
[0066]
[0067]来进行估计，其中Nf为采集的信号分帖后的总帖帖数。然后计算期望方向（本例中是0度方向）的方向矢量曰(〇°，fk)，其中fk表示第k个频带的中屯、频率，a(0° ,fk)的计算公式为
[006引
[0069] 得到自相关矩阵和方向矢量后，就可W计算LSMI-MVDR波束形成的最优权矢量的比例系数y，其值为
[0070]
[0071] 然后我们需要确认对角加载量A的值，该值可W通过组成十字形声阵列的传声器参数W及各传声器的幅相响应的差别来确定，或者也可W根据LSMI-MVDR波束形成后的波束响应图来不断进行调整W确定一个比较好的加载量A。当A被确定后，就可W计算LSMI- MVDR波束形成的最优权矢量，公式为
[0072]
[0073] 将第k个频带下求出的最优权矢量分别对每一帖信号的第k个频带信号进行处理，得到运一侦信号的LSMI-MVDR妮巧形成绳果
[0074]
[0075] 通过同样的方法对其他频带进行LSMI-MVDR波束形成。
[0076] 将各帖下LSMI-MVDR波束形成后的各频带合成在一起进行逆离散傅里叶变换，通过IFFT进行，IFFT后的第m帖信号结果为
[0077]
[0078] 最后，需要将各帖信号进行合成输出，由于我们分帖时采取的帖移是512个点，即有512个点的重叠。因此，在将各帖信号进行重叠输出时，也需要采取同样的方式。首先，第 1帖信号不做改变，从第二帖信号开始，我们只取后512个点，而前512个点我去舍去，然后将后512个采样点叠加到上一帖的尾端。通过运种方式就完成了信号的合成。
[0079] 经过LSMI-MVDR波束形成后的数据就可W作为声识别系统的输入进行特征提取W 及分类学习识别的输入。图3展示了识别系统的特征提取、模型库建立和识别部分的流程示意图。在运里我们WLPCC特征提取和SVM分类学习算法为例来说明，其中，我们使用16阶 LPCC系数，SVM的核函数我们选取径向基函数(Radia 1 Bas i S化nction，RBF)，需要进行识别的声音类型有A1，A2，A3S种类型。
[0080] 首先，我们将经过LSMI-MVDR波束形成后的声音进行分帖加窗。然后求得每帖信号的12阶线性预测系数(^Linear Prediction Coefficients，LPC)值，其中LPC值可W采用 Levinson-Durbin算法来求解。接下来通过LPCC值与LPC值的对应关系求得16阶的LPCC值。 [0081 ]所述的声指纹库建立方法如下：
[0082] 对每帖信号提取出来的16阶LPCC值按行排列，然后在前面加入一列作为类标，标号'0'代表Al,'1'代表A2,'2'代表A3。从而构成一个17阶的特征向量。
[0083] 用现有的Iibsvm库来实现SVM算法，选取RBF作为分类器函数;RBF有两个参数:惩罚因子C W及参数gamma,可W通过Iibsvm的网格捜索函数opt i_svm_coeff选取出最优数值。
[0084] 训练过程使用1 ibsvm库中的svnrtrain函数，包含四个参数:特征向量，用上述提取出的有标号的LPCC值;核函数类型，选用RBF核函数;RBF核函数参数C和gamma,使用网格捜索法确定;调用svmtrain后会得到一个名为model的变量，运一变量保存了训练所得模型信息，即所述的声指纹库，将运一变量保存下来供下一步识别用。
[0085] 而声音的识别是通过Iibsvm库中的svmtest来实现的，将每帖信号得到的LPCC值用Iibsvm的svmtest函数进行智能分类，svmtest有S个参数:第一个为类标，用来测试识别率用的(在对未知类型的声音进行识别时，该参数不具有实际意义）；第二个为特征向量，即存储LPCC值的变量，第S个为匹配模型，就是上述步骤训练过程svmtrain函数的返回值。调用svmtest得到的返回值就是分类所得结果，即类标，从而能确定产生运一声音的设备类型。
[0086] 在实际应用中时，将实际采集到的声信号先进行LSMI-MVDR波束形成算法进行滤波，然后提取特征与已建立的声指纹库进行比较，来做到识别。其具体流程图见图1。
【主权项】
1. 基于十字形声阵列宽带波束形成的声识别方法，其特征在于包括如下步骤：步骤1、将十字形声阵列对准所需方向采集4通道声音信号；步骤2、对采集到的4通道声音信号进行预处理，包括分帧、加窗；步骤3、对预处理后的每一帧数据进行离散傅里叶变换，离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取；步骤4、提取的各频带分别在所需方向上进行LSMI-MVDR波束形成；步骤5、将波束形成后的频域信号进行逆离散傅里叶变换；步骤6、对应分帧时的原则进行帧重叠合成，输出信号；步骤7、对输出信号进行特征提取和分类学习、识别；所述的步骤1:将十字形声阵列的其中一个通道对准声源方向，作为LSMI-MVDR宽带波束形成的方向，采集4通道声音信号，采样频率记为fs; 所述的步骤2:预处理包括数据的分帧、加窗，对声音信号进行分帧，声音信号每帧选取 1024个采样点，帧移为512个采样点;然后采用汉明窗对声音信号进行加窗；所述的步骤3:通过FFT来实现信号的离散傅里叶变换，其中，每一帧信号经过FFT后频率分辨率为第p个通道的第m帧信号经过FFT后的结果为：其中，L=1024为每一帧的长度，为第p个通道第m帧的信号，k为是各个频带的编号，其对应的中心频率为：然后，根据声音信号的频率特性，洗取相应的颇率带，比如信号所在的频率带为[5， f2]，则我们提取FFT后的k所在的区间^2. 根据权利要求1所述的基于十字形声阵列宽带波束形成的声识别方法，其特征在于所述的步骤4:设第k个频带的中心频率为fk，则对于十字形阵列，首先将十字形阵列建立在直角坐标系下，则十字形阵列接收到的第m帧信号在时域内表示为：是噪声向量；ω为S(t)的中心角频率，τρ(θ)(ρ = 1，2,3,4)是第p个阵元相对于参考点即坐标原点的延时，对于十字形声阵列，其值为：c是声音在空气中的传播速度，r是十字形声阵列的半径；将(1)式进行离散傅里叶变换得到在频域下表示方式为其中汰=〇，1，...儿-1;&(0，&)是中心频率为&的第1^个频带所对应的方向矢量，即对于MVDR波束形成原理，表述为在保证期望方向0de的信号功率不变的情况下，使得阵列输出的功率最小，BP其中，R=E[X(k)XH(k)]是接收信号在频域下的自相关矩阵;在实际应用中，用估计值遍来替代R，估计值i的计算如下：其中Nf表不声音信亏的顿数；因此，MVDR波束形成的最佳权矢量《_为：为了提高MVDR波束形成的稳健性，我们使用基于对角加载的改进MVDR波束形成算法，其原理是在自相关矩阵的对角线上增加一个加载量，即从而，改进的最佳权矢量WLSMI变为波束形成后的第m帧频域信号Y(m) (k)为：3. 根据权利要求2所述的基于十字形声阵列宽带波束形成的声识别方法，其特征在于所述的步骤5:将第m帧频域信号Yw(k)通过逆离散傅里叶变换转换到时域，其中逆离散傅里叶变换通过IFFT来实现，其中第m帧时域信号y (m) (i)为：4. 根据仪利妥求3所还的基于十子形戸阵列苋带汲來形成的戸识别万法，具特征在于所述的步骤6:将经过逆离散傅里叶变换的各帧声音信号按照分帧时的原则进行重叠，然后再输出信号;其中：第一帧信号不变，后面每一帧信号去掉前面的512个点，只保留后512点，然后再添加到前一帧信号后面。
【文档编号】G01H17/00GK106023996SQ201610409905
【公开日】2016年10月12日
【申请日】2016年6月12日
【发明人】王天磊, 王建中, 曹九稳, 赖晓平
【申请人】杭州电子科技大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王天磊;王建中;曹九稳;赖晓平;
技术所有人：杭州电子科技大学;
我是此专利的发明人