基于谱时幅度分级向量辨识环境声音事件的方法

文档序号：2833270阅读：218来源：国知局

专利名称：基于谱时幅度分级向量辨识环境声音事件的方法
技术领域：
本发明涉及声音事件辨识技术领域，特别是一种基于谱时幅度分级向量(time-spectral amplitude scale vector, TSASV)辨识环境声音事件的方法。
背景技术：
环境声音辨识试图在声音信号中辨识出隐藏在它们中的真实事件。它被用于很多领域，如，环境监控，声场景分析和多媒体数据检索等。声音事件辨识的一般方法，包括从音频数据中抽取可识别的特征，并把它们作为模式分类器的输入。在声音事件辨识中，从声音信号中抽取的特征越有效，辨识的性能越好。习惯上，音频信号被特征化成麦尔频率倒谱系数(MFCCs)，或MFCC与带有隐马尔可夫模型(HMM)识别器的MPEG-7描述符相结合。最近，相关的研究包括一些其它的时-频表示，如短时傅立叶变换和小波变换，或音频信号的高维特征结合带有离散Gabor小波的MFCC0其他的包括听觉激发的方法，用听觉激发滤波器组，把波形信号进行时-频表示，然后，得出子带时间包络(subband temporal envelopes, STE),并把它作为特征对音频信号进行特征化，通过STE特征的通用ga_a模型，把STE的分布作为声音特征。然后，把声音样本STE分布之间的参数概率距离用于SVM分类器进行分类。然而，环境声音事件的物理特性很复杂，如线性预测、周期性以及特定的模型等假设，对很多声音事件不一定有效。用上述方法来识别声音事件的常见问题是，当存在噪声时，性能锐减。在实际的听觉应用中，由于声源不确定，设计合适的检测器有很多困难。为了解决这些问题，新的研究包括时间编码信号处理与识别(time encoded signal processingand recognition, TESPAR)矩阵、能量检测、谱图表示和谱图的可视信息。M. V. Ghiurcau等使用TESPAR矩阵监视野外区域，通过检测并辨识三类声音，即源自人的声音、鸟声和汽车声，来检测相关区域的入侵情况。J. Moragues等针对未知延续的自然声音事件,用时-频多能检测器特征，进行自然声音的检测和分类。L. Neal等提出分段的方法，首先，把输入信号转换成谱图表示，然后，应用监督分类器为每个时-频单元创建一个二值掩模标签作为鸟声和背景声。J. Dennis等使用声谱图的视觉信息来产生声音分类的特征。这些过程试图抽取独特的环境声音事件的特征，包括在声音事件发生重叠的时候，来实现对环境声音事件的识别。除了单独的声音事件之外，在获取声音过程中，还可能存在发出环境声音事件的多个声源。如，风声、小溪的激流声和其它背景噪声削弱了我们所关心的声音信息，来自于其它动物和周围环境的声音干扰了我们关心的环境声音事件。更为复杂的情况，在获取声音期间，所关心的声音事件可能同时来自于两个或多个单独的声源。因此，在噪声及多声源的环境下，对声音事件的辨识面临着挑战。

发明内容
本发明的目的在于提供一种基于谱时幅度分级向量辨识环境声音事件的方法，该方法有利于提高环境声音事件辨识的有效性。为实现上述目的，本发明采用的技术方案是一种基于谱时幅度分级向量辨识环境声音事件的方法，首先计算各种相关声音事件的TSASV作为辨识原型，并将各辨识原型保存在数据库中作为分辨待测声音事件的模板；然后计算待测声音事件的TSASV，并将所述待测声音事件的TSASV与保存在数据库中的各辨识原型进行比较，与所述待测声音事件的TSASV最接近的辨识原型对应的原型声音事件，就是所要识别的声音事件；
所述谱时幅度分级向量TSASV的构造方法包括以下步骤
步骤I :对获取的环境声音事件进行快速傅立叶变换，生成声谱步骤2:对生成的声谱图进行不同频率分辨的采样，用声谱图构建不同频率分辨的子声谱图；· 步骤3 :对子声谱图进行信号增强，生成信号增强的子声谱步骤4 :对信号增强的子声谱图进行幅度分级；
步骤5 :对幅度分级后的子声谱图进行编码，生成TSASV。本发明的有益效果是以谱时能量为基础，采用谱时幅度分级向量来特征化声音信号，用于辨识环境声音事件，采用这种方法，检测器不仅能够检测到背景噪声中的声音事件，而且能够对环境声音事件进行有效的辨识与分类，其性能优于基于MFCC的SVM分类模型。

图I是本发明实施例的谱时幅度分级向量的构造过程示意图。图2是本发明实施例中一段录制于校园的带有各种环境声音的原始声音波形图。图3是本发明实施例中G=3，d=l时的幅度分级编码图。图4是本发明实施例中信号增强子声谱图I的编码过程。
具体实施例方式本发明基于谱时幅度分级向量辨识环境声音事件的方法，首先计算各种相关声音事件的谱时幅度分级向量TSASV作为辨识原型，并将各辨识原型保存在数据库中作为分辨待测声音事件的模板；然后计算待测声音事件的TSASV，并将所述待测声音事件的TSASV与保存在数据库中的各辨识原型进行比较，与所述待测声音事件的TSASV最接近的辨识原型对应的原型声音事件，就是所要识别的声音事件。所述谱时幅度分级向量的构造方法如图I所示，包括以下步骤
步骤I:对获取的环境声音事件进行快速傅立叶变换，生成声谱步骤2:对生成的声谱图进行不同频率分辨的采样，用声谱图构建不同频率分辨的子声谱步骤3 :对子声谱图进行信号增强，生成信号增强的子声谱步骤4 :对信号增强的子声谱图进行幅度分级；
步骤5 :对幅度分级后的子声谱图进行编码，生成TSASV，用TSASV来特征化声音信号，并用于辨识声音事件。在步骤I中，对采样的带噪声的环境声音事件信号y(i)，它是纯净的声音事件信号S(i)与干扰噪音n(i)的和，即y(i)=s⑴+η⑴，i表示采样次数的索引，通过窗口 h(i)对N个连续的信号y(i)进行加窗，并对窗内的样本进行快速傅立叶变换，把带噪声的时域信号y(i)转换成频域信号；把窗口下移M个采样点，再计算下一个快速傅立叶变换，得到环境声音事件信号y(i)的谱为
权利要求
1.一种基于谱时幅度分级向量辨识环境声音事件的方法，其特征在于首先计算各种相关声音事件的谱时幅度分级向量TSASV作为辨识原型，并将各辨识原型保存在数据库中作为分辨待测声音事件的模板；然后计算待测声音事件的TSASV，并将所述待测声音事件的TSASV与各辨识原型进行比较，与所述待测声音事件的TSASV最接近的辨识原型对应的原型声音事件，就是所要识别的声音事件；所述谱时幅度分级向量的构造方法包括以下步骤步骤I :对获取的环境声音事件进行快速傅立叶变换，生成声谱图；步骤2:对生成的声谱图进行不同频率分辨的采样，用声谱图构建不同频率分辨的子声谱图；步骤3 :对子声谱图进行信号增强，生成信号增强的子声谱图；步骤4 :对信号增强的子声谱图进行幅度分级；步骤5 :对幅度分级后的子声谱图进行编码，生成TSASV。
2.根据权利要求I所述的基于谱时幅度分级向量辨识环境声音事件的方法，其特征在于在步骤I中，对采样的带噪声的环境声音事件信号y(i)，i表示采样次数的索引，通过窗口 h(i)对N个连续的信号y(i)进行加窗，并对窗内的样本进行快速傅立叶变换，把带噪声的时域信号y(i)转换成频域信号；把窗口下移M个采样点，再计算下一个快速傅立叶变换，得到环境声音事件信号y(i)的谱为
3.根据权利要求2所述的基于谱时幅度分级向量辨识环境声音事件的方法，其特征在于在步骤2中，对环境声音事件信号y(i)的谱Y(k，I)进行一定频率分辨的采样，得到子采样谱Yd，谱Y (k，I)以及子采样谱Yd表示如下 Y [Y1，Y2，-Yd,…，Y11] 其中，D表示对频谱Y每隔D个频率分辨点采一个点作为频率分辨点，即把频谱图Y分解成子谱Yd的数量，d表示频率分辨采样子谱图的索引，d e (1，2，…，0)，^表示一个(N/D) XL的矩阵，Yd可以表示为Yd (b, I) =Y ( kd, I ) 其中，b表示子谱Yd在谱Y中进行频率采样的索引，b e (0，I,…，N/D-1)，N/D表示子谱Yd的行数，N/D e {正整数}，kd表示频率分辨的采样点，kd = b*D+d_l。
4.根据权利要求3所述的基于谱时幅度分级向量辨识环境声音事件的方法，其特征在于在步骤3中，对子采样谱Yd进行信号增强处理，将子采样谱Yd转换成信号增强的子采样谱Xd，信号增强的谱X (k，I)以及子采样谱Xd表示如下 X [X1，X2’ ...xd，…，Xd] 其中，D表示对频谱Y每隔D个频率分辨点采一个点作为频率分辨点，即把频谱图Y分解成子谱Yd的数量，d表示频率分辨采样子谱图的索引，d e (1,2,…，0)，乂<1表示一个(N/D) XL的矩阵，Xd可以表示为Xd (b, 7) = X ( kd, 7 ) 其中，b表示子谱Xd在谱X中进行频率采样的索引，b e (O，I,…，N/D-1)，N/D表示子谱Xd的行数，N/D e {正整数}，kd表示频率分辨的采样点，kd = b*D+d_l。
5.根据权利要求4所述的基于谱时幅度分级向量辨识环境声音事件的方法，其特征在于在步骤4中，对信号增强的子声谱图进行幅度分级包括以下步骤对于第d个信号增强子谱Xd，将幅度分级阈值i (d)表示为 i (d) = fd/2 其中，fd表示第d个信号增强子谱Xd的最大值，即fd=max (I Xd I)；对于第d个信号增强子谱Xd，根据幅度分级阈值i (d)，得到G个分级范围 d-1: |Xd| e ( 2°Xi(d), 2^1((1)]d-g: |Xd| e ( 2g_1 X i (d), 2gXi(d)]d-G: |Xd| e ( 2g_1 X i (d), 2GXi(d)] 其中，g表示幅度分级的级数，g e {I, 2，…，G}，G表示最多可以分级的级数；根据G的取值范围，对Xd进行分级得到
6.根据权利要求5所述的基于谱时幅度分级向量辨识环境声音事件的方法，其特征在于在步骤5中，按如下方法对幅度分级后的子声谱图进行编码以生成TSASV 把环境声音事件表示成由一个信号增强子谱I组成的TSASV(I)V AA 或者由d个信号增强子谱I、子谱2、…、子谱d组成的TSASV(I)Qh-(Cl)
7.根据权利要求6所述的基于谱时幅度分级向量辨识环境声音事件的方法，其特征在于对于待测声音事件，TSASV (d)表示如下
全文摘要
本发明涉及一种基于谱时幅度分级向量辨识环境声音事件的方法，首先计算各相关声音事件的谱时幅度分级向量(TSASV)作为辨识原型，并保存在数据库中作为分辨待测声音事件的模板；然后计算待测声音事件的TSASV，并将其与各辨识原型进行比较，最接近的一个就是所要识别的声音事件；谱时幅度分级向量的构造方法包括对获取的环境声音事件进行快速傅立叶变换，生成声谱图；对生成的声谱图进行不同频率分辨的采样，用声谱图构建不同频率分辨的子声谱图；对子声谱图进行信号增强，生成信号增强的子声谱图；对信号增强的子声谱图进行幅度分级；对幅度分级后的子声谱图进行编码，生成TSASV。该方法有利于提高环境声音事件辨识的有效性。
文档编号G10L15/06GK102789780SQ20121024282
公开日2012年11月21日申请日期2012年7月14日优先权日2012年7月14日
发明者李应申请人:福州大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李应
技术所有人：福州大学
我是此专利的发明人