基于声谱图双特征的动物声音识别方法

文档序号：8906480阅读：1362来源：国知局

基于声谱图双特征的动物声音识别方法
【技术领域】
[0001] 本发明设及一种基于声谱图双特征的动物声音识别方法。
【背景技术】
[0002] 生态环境与我们的生活密切相关，生态环境下的动物叫声包含丰富的信息。通过对动物声音的识别，可W对其生活习性和分布做一定的了解与分析，从而可W有效地对其进行监控和保护。近年来，动物声音识别受到越来越多的关注。
[0003] 动物声音识别，一般W声谱图、时间序列、Me1频率倒谱系数（Me1化equency CepstrumCoefficient,MFCC)、声音库索引W及小波包分解为基础，通过支持向量机 (SuppodVectorMachine,SVM)等分类识别。比较典型方法包括，基于声谱图相关系数（SpectrogramCorrelation)识别动物声音，对平滑处理的声谱图使用边缘检测 ('edge'detector)提取特征进行露脊嫁化i曲tWhale)叫声检测，基于时间序列特征的动物声音识别，Mel频率倒谱系数结合支持向量机的鸟类声音分类等。此外，也借助于经典的基于文本（Text-based)数据库查询方法，采用基于索引（index-based)的动物声音检索， W及基于上下文变量（contextvari油les)的动物声音检索。近期，Exadakt^os等通过声音识别确定动物的状态，用于畜牧业生产优化。Potamitis等提出在连续和真实的现场录音中，识别特定的鸟类声音。我们也在最近的工作中，提出经过自适应能量检测（AED)后，基于Mel尺度的小波包分解子带倒谱系数（MWSCC)特征和MFCC，结合支持向量机（SVM)的鸟声检测方法。
[0004] 由于真实环境中存在各种各样的噪声，因此对动物声音的识别带来一定的挑战。尤其，实时获取的声音信号，当信噪比很低时，对动物声音的识别尤为困难。对于低信噪比情况下，声音信号的分析、分类和识别，目前已有一定的研究。对于低信噪比声音识别的特征，常见的有基于时间与频率相结合的特征和基于声谱图及其相关的特征。
[0005] 关于时间与频率相结合的特征，主要有时间、频率特征，小波域特征，G油or字典匹配追踪算法提取的特征等。近期的研究还包括，小波包（Wavelet化ckets)过滤的低信噪比声音事件识别，基于高通滤波的MFCC扩展特征的声音事件识别，基于多个交叉超级帖的随机回归森林的声音事件识别和检测。其中，利用匹配追踪算法从G油or字典中选择重要的原子，用主成分分析（PCA)和线性判别分析（LDA)确定声音事件的特征，最后采用SVM分类器进行分类识别，对于低信噪比声音事件的识别效果明显。
[0006] 关于声谱图及其相关的特征，主要是声音信号经过短时傅里叶变换（Shod-Time FourierTransform,STFT)得到声谱图，借助图像特征，一些图像识别的方法可W用于低信噪比声音识别。如，化unarsal等提出利用声谱图模式匹配结合前馈神经网络和k近邻化-NN)的环境声音分类方法。我们也对声谱图提取灰度共生矩阵特征，并结合随机森林分类器识别鸟类声音。在非平稳的噪声环境中，Duan等提出基于非负声谱图分解 (non-negativespectrogramdecomposition)的声音增强算法。Dennis等提出基于声谱图特征的声音事件识别方法。Czarnecki和Moszyfiski使用集中摄谱（Concentrated Spectrograph)的方法进行声音信号的时频分析。Dennis等提出局部声谱图特征（Local SpectrogramFea1:ures)使用广义的霍夫变换（GeneralisedHou曲Transform)投票系统识别重叠的声音事件。McLou曲lin等提出谱图基于图像的前端特征（Spectrogram Image-basedRrontE；ndFea1:ures)使用SVM和深度神经网络分离器值eepNeural Network)分类器分类声音事件。尤其，Dennis等提出的子带功率分布（sub-bandpower distribution,SPD)特征，在谱图中将可靠的声音事件与噪声分开，并用最近邻居分类器 (kNN)对特征进行识别。该种方法能在信噪比低至0地时，也可能识别相关的声音事件。然而，对于不同的声音环境，对于各种低信噪比声音信号，整体识别精度依然很低。

【发明内容】

[0007] 本发明的目的在于提供一种基于声谱图双特征的动物声音识别方法，改善不同声音环境下各种低信噪比动物声音的识别率。
[0008] 为实现上述目的，本发明采用如下技术方案；一种基于声谱图双特征的动物声音识别方法，其特征在于包括W下步骤：
[0009] 步骤S1 ;建立一声音样本库，用W预存声音样本；
[0010] 步骤S2 ;采集待识别的声音信号；
[0011] 步骤S3 ;将所述预存声音样本及待识别的声音信号转化成声谱图；
[0012] 步骤S4 ;将所述声谱图进行规范化，并对所述规范化后的声谱图进行特征值分解和投影，将其转化得到一投影特征Xk;
[0013] 步骤S5 ;将所述声谱图转化成等价LBP值矩阵U，统计每一个等价LBP值对应的像素与周围像素灰度值的方差，形成一特征向量LBPV;
[0014] 步骤S6 ;将所述投影特征Xk和特征向量LBPV结合，形成双层特征XK+LBPV;
[0015] 步骤S7 所述声音样本库中预存声音样本对应的双层特征集为训练样本集，W 待识别的声音信号对应的双层特征为输入样本，通过随机森林的训练，得出待识别的声音信号于声音样本库中对应的类别并输出结果。
[0016] 进一步的，所述步骤S3转化过程具体内容如下：
[0017] 对所述预存的声音样本或采集的声音信号进行STFT，得到其幅度谱S(t，f)，其中，t为帖索引，f为频率索引，对应的幅度谱S(t，f)的值转化为灰度级所构成的二维图像即为所述声谱图。
[0018] 进一步的，所述步骤S4的具体内容如下：
[0019] 将所述幅度谱S(t，f)第t帖的数据视为一个向量马=口化0)，…，、S'化~'-〇]/，所述向量g包含N个频率数据，进一步，将所述向量g转化为规范化的log尺度向量St:
[0022] 所述规范化的log尺度向量St表示规范化的log尺度的第t个帖的数据；
[0023] 假设所述幅度谱S(t，f)共有M个帖，将所述M个帖的向量表示为一声谱图矩阵X =時，…，S。…SJT，XGrmxw，由于特征分解的对象为方阵，因此，计算c=扔得到矩阵X的协方差矩阵CGRWXW，按W下公式利用特征值分解对所述协方差矩阵C降维：
[0024]C=UA护 (3)
[00巧] / \ / 'X
(4)
[002引 C=入lUiUi' + 入 2+…+ 入N%U'N妨
[0027] C> 入lUiU/+ 入gUgUg'+…+ 入机％',K< <N (6)
[002引其中，矩阵UGR胃包含矩阵C的所有特征向量y1，…，Uw，A是对角矩阵，其对角线上的元素是特征值A。…，Aw，所述特征值…，入W代表对应特征向量的权重，而且入AAW，再通过W下公式计算前K个特征值的贡献比重riK来衡量前K个特征向量在表示声音中的重要性：
[0029] (7)
[0030] 矩阵U携带了声音的主要信息，选取前K个特征向量组成基本向量矩阵UkGRWxk，所述投影特征Xk是对所述声谱图矩阵X在所述基本向量矩阵UkGRWXK上进行投影；
[00引]Xk=XUk做
[0032] 其中XkGRMxk。
[0033] 进一步的，所述步骤S5的具体内容如下：
[0034] 纹理T是Wg。像素为中屯、，在半径为R的环形邻域上的P个像素点的联合分布T:
[0035] Tt (s(g〇-ge),S(gj-gc), ???,s(gp-i-gc))巧）
[003引其中，g。表示所述环形领域的中屯、像素的像素值，gi(i= 0, 1，…，P-1)表示环形邻域上的P个像素点的灰度值，S为符号函数：
[0037]
(10)
[0038] 根据所述联合分布T按特定方向排序构成的0/1序列结合LBP算子计算其二进制模式，形成LBP值，即LBPp，c;
[003引
（11)
[0040] 环形领域上具有P个像素点，LBP产生2P种二进制模式，即2P个不同的LBP值；
[0041] 提出一等价模式，所述等价模式对应的循环二进制从0到1或从1到0最多有两次跳变，U值表示所述等价模式中跳变的次数，并用U值判定等价模式：
[0042]
[0043]所有满足U《2的模式都称为等价模式，所述等价模式的值称为等价LBP值，用 l',B巧];恩衰示;
[0044]
[0045] 其中，所述LBP值左公的上标u2表示LBP对应的U值最大是2,所述等价模式把模式的数量从2P减少为P(P-1)+2,除所述等价模式W外的模式都归为第P(P-1)+3类；
[0046] 对一MXN的声谱图提取其等价LBP，每个像素点（m，n)都得到一等价LBP值，该些等价LBP值组成一等价LBP图，所述等价LBP图即为等价LBP值矩阵U，统计所述等价LBP 图中每个数字出现的频率，得到所述声谱图的纹理特征向量，但对于相同等价LBP值的等价LBP图，其纹理可能不同，统计每一个等价LBP值对应的像素与周围像素灰度值的方差，形成一特征向量LBPV，特征向量LBPV的第k个成分LBPV(k)表示为；
[005。其中，整数k的范围为kG[1，P(P-l)+3]，w(m,n,k)表示声谱图中像素（m,n)对应于LBPV第k个成分的等价LBP值的权值，LBPV(k)是把声谱图中所有像素对应于第k个成分的等价LBP值的权值进行累加，根据公式（14)，得到的LBPV化)，LBPV(2)，LBPV化)，… ，LBPV(P(P-1) +3)，最终形成一个大小为P(P-1) +3的特征向量LBPV。
[0052] 进一步的，所述步骤S7的具体内容如下：
[0053]将所述声音样本模块中预存的声音样本对应的双层特征集为训练样本集 W= (乃+ 相+ …，At+ 巧，从所述训练样本集中自助重采样，生成S棵决策树，并形成一随机森林；
[0054] 将所述测试声音模块采集的声音信号对应的双层特征LSPr为输入样本，置于所述随机森林中S棵决策树的根节点处，按照决策树的分类规则向下传递，直到到达某一个叶节点处，该个叶节点对应类标便是该棵决策树对所述双层特征左APF所属类别1所做的投票，所述随机森林的S棵决策树均对所述双层特征式+心BPr的类别1进行投

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李应;吴志彬;
技术所有人：福州大学;
我是此专利的发明人

上一篇：使用音频对象的时间变化的音频对象聚类的制作方法
上一篇：一种云智能学习机器人的制作方法