一种基于背景噪声最小统计量特征的声音环境识别方法

文档序号：2826371阅读：424来源：国知局

一种基于背景噪声最小统计量特征的声音环境识别方法
【专利摘要】一种基于背景噪声最小统计量特征的声音环境识别方法，涉及声音场景的分类识别技术，为了解决在声音环境识别中由于声音环境结构复杂、易混淆、声学特征不确定和维度高所造成的提取有效特征、建立统计模型困难，导致识别性能差的问题。本发明提出了噪声最小统计量特征的提取、建模以及识别方法：在特征提取与建模阶段，分别对声音信号的能量谱进行频域平滑和时域平滑并追踪其最小统计量，将最小统计量转换到对数域进行标准化和降维处理，从而提取出声音环境的噪声最小统计量特征，并采用高斯混合模型对噪声最小统计量建模；在识别阶段，对输入声音进行特征提取，计算所提取出的最小统计量特征在每个模型下的似然值，并依据此似然值进行类别决策。
【专利说明】一种基于背景噪声最小统计量特征的声音环境识别方法
【技术领域】
[0001]本发明涉及声音场景的分类识别技术，属于智能信息处理领域，具体是一种基于声音环境的背景噪声特点来对不同的声音环境进行建模与识别的方法。
【背景技术】
[0002]随着计算技术、通讯技术及网络技术的迅猛发展，各种各样的智能化设备不断涌现，研究智能人机交互在现实生活中变得越来越重要。声音是人们能够获取的最重要的信息之一，开展声音感知技术的研究无疑可以帮助用户有效地利用声音信息并提供相关服务。因此，近年来声音感知技术的研究受到学术界的广泛重视。声音感知的目标是使计算机能够感知人类听觉系统所能够关注和理解的那些声音，其研究对象是非语音的声音。与人类的语音相似，非语音的声音也能传递有用信息。在特定环境中人的活动通常伴随产生种类丰富的声音事件，这些声学事件可能由人们的身体直接产生也可能由人们所操纵的器物产生，即这些声音事件在一定程度上反映了人们的活动情况以及周围的环境状况。因此，研究特定环境下的声音事件有助于掌握人们的行为活动和环境状态，以提供相关的智能服务或安全预警，从而使声音信息能够更有效地为智能信息系统提供决策辅助或直接用于智能决策。
[0003]然而，我们所处的声音环境具有极其丰富的声音事件，试图为每种声学事件建模并识别是不现实的，也是计算上不可行的。因此，获取声音环境的先验知识对声音事件的检测与识别就显得格外重要了。每种声音环境下都含有较为特定的一些声音事件，如办公室的声音环境下较为可能出的声音事件是键盘声、脚步声、椅子声、人的说话声、掌声等，而不太可能出现汽车鸣笛声、动物叫声、欢呼声等。可见，声音环境的先验知识有助于缩小声学事件的数量、提高检测精度、减少计算代价。此外，为实现对与日俱增的数字音频数据的智能检索，也需要对数字音频文件按照其声音环境识别的结果进行有效地自动分割。
[0004]声音环境识别就是仅依赖特定环境中的声音信息对环境进行识别的一种技术。例如:依赖采集到的声音信号来识别当前环境是街道、办公室、高速公路还是餐馆等。声音环境识别存在着如下困难:1)声音环境存在着较强的结构复杂性，多种声音相互交织混叠在一起；2)声音环境存在着较强的混淆性，相同的声音可以出现在不同的声音环境中；3)声音环境中的声音存在着较大的不确定性，很难确定某个声音环境就必然出现某种声音或何时出时，难于描述其稳定的声学性质；4)声学特征通常具有较高的维度，使得难于利用这些特征进行建模。这些困难使得声音环境难于进行特征提取与建模，并直接导致其识别精度较差。显然，缺少能够标识声音环境的鲁棒特征是导致这一问题的主要原因。因此，如果所提取的声学特征能够克服声音环境的结构复杂、易混淆、声学特征不确定和维度高等问题的影响，则有助于是提高声音环境的识别性能。
[0005]本发明针对声音的环境识别问题，提出了一种基于背景噪声最小统计量特征的声音环境识别方法，可以实现对复杂声音环境的鲁棒识别。
【发明内容】

[0006]要解决的技术问题
[0007]本发明为了解决在声音环境识别中由于声音环境结构复杂、易混淆、声学特征不确定和维度高所造成的提取有效特征、建立统计模型困难、特征鲁棒性差，从而导致识别性能差的问题。
[0008]本发明为解决上述技术问题采取的技术方案是:
[0009]一种基于背景噪声最小统计量特征的声音环境识别方法，它由以下步骤实现:
[0010]步骤一、将采集的声音信号进行短时傅里叶变换得到信号的能量谱，而后对能量谱系数分别进行频域平滑和时域平滑，对平滑后的结果进行最小统计量追踪，提取出最小统计量并将其映射到对数域后进行标准化；
[0011]步骤二、将在训练数据上使用步骤一所得到的标准化后的最小统计量进行特征值分解，提取前K个重要基向量Uk ;将标准化后的最小统计量投影到K个重要基向量Uk上得到降维后的特征，完成特征提取过程；将重要基向量Uk进行存储以用于声音环境识别步骤四中；
[0012]步骤三、依据步骤二中所得到的训练数据降维后的最小统计量特征，采用高斯混合模型分别对每类环境声音进行建模，得到高斯混合模型(GMM)并将其进行存储以用于声音环境识别步骤四中；
[0013]步骤四、利用步骤一对所采集的声音信号提取标准化后的最小噪声统计量特征，利用步骤二所得到的重要基向量Uk对其进行降维，完成对采集声音信号的特征提取；再利用步骤三所得到的高斯混合模型(GMM)进行声音环境识别。
[0014]步骤一中提取声音信号最小统计量的方法为:
[0015]步骤一(I)、对采集的声音信号进行短时傅里叶变换:
[0016]
【权利要求】
1.一种基于背景噪声最小统计量特征的声音环境识别方法，其特征在于它由以下步骤实现: 步骤一、将采集的声音信号进行短时傅里叶变换得到信号的能量谱，而后对能量谱系数分别进行频域平滑和时域平滑，对平滑后的结果进行最小统计量追踪，提取出最小统计量并将其映射到对数域后进行标准化；步骤二、将在训练数据上使用步骤一所得到的标准化后的最小统计量进行特征值分解，提取前K个重要基向量Uk ;将标准化后的最小统计量投影到K个重要基向量Uk上得到降维后的特征，完成特征提取过程；将重要基向量Uk进行存储以用于声音环境识别步骤四中；步骤三、依据步骤二中所得到的训练数据降维后的最小统计量特征，采用高斯混合模型分别对每类环境声音进行建模，得到高斯混合模型(GMM)并将其进行存储以用于声音环境识别步骤四中；步骤四、利用步骤一对所采集的声音信号提取标准化后的最小噪声统计量特征，利用步骤二所得到的重要基向量Uk对其进行降维，完成对采集声音信号的特征提取；再利用步骤三所得到的高斯混合模型(GMM)进行声音环境识别。
2.根据权利要求1所述的一种基于背景噪声最小统计量特征的声音环境识别方法，其特征在于，步骤一中提取声音信号最小统计量的方法为: 步骤一(I)、对采集的声音信号进行短时傅里叶变换:
3.根据权利要求1所述的一种基于背景噪声最小统计量特征的声音环境识别方法，其特征在于，步骤一中最小统计量在对数域的标准化方法为:将每帧信号的最小统计量视为列向量:
4.根据权利要求1、2或3所述的一种基于背景噪声最小统计量特征的声音环境识别方法，其特征在于，步骤二中提取前K个重要基向量的方法为: 将标准化后最小统计量数据组织成矩阵的形式:X=[Xl，…，xJT，此矩阵的自相关矩阵为:C=XTX ;对自相关矩阵C进行特征值分解:
C=U A Ut 其中:U为基向量矩阵，Λ为一对角阵，SP A=diag(A1,…，λΜ)，其中Ai为第i个特征值且满足A1SO;提取前K个基向量作为Uk，并将标准化的最小统计量投向此子空间，以获得降维特征:
5.根据权利要求1、2或3所述的一种基于背景噪声最小统计量特征的声音环境识别方法，其特征在于，步骤三中为每类环境声音的建模方法为: 将每类训练数据降维后的最小统计量特征分别采用高斯混合模型进行建模:
6.根据权利要求4所述的一种基于背景噪声最小统计量特征的声音环境识别方法，其特征在于，步骤三中为每类环境声音的建模方法为: 将每类训练数据降维后的最小统计量特征分别采用高斯混合模型进行建模:
7.根据权利要求1、2、3或6所述的一种基于背景噪声最小统计量特征的声音环境识别方法，其特征在于，步骤四的具体实现过程为: 步骤四(I)、对输入声音信号进行适时傅里叶变换、时频平滑提取在对数域上标准化后的最小统计量；步骤四(2)、将最小统计量投影到已存储的基向量上Uk，获得降维后的特征；步骤四(3)、将所得到的特征输入到每类的高斯混合模型中，并计算其似然值；步骤四(4)、依据每个模型的输出似然值，选取具有最大似然值的类别作为最终识别结果ο
8.根据权利要求4所述的一种基于背景噪声最小统计量特征的声音环境识别方法，其特征在于，步骤四的具体实现过程为: 步骤四(I)、对输入声音信号进行适时傅里叶变换、时频平滑提取在对数域上标准化后的最小统计量；步骤四(2)、将最小统计量投影到已存储的基向量上Uk，获得降维后的特征；步骤四(3)、将所得到的特征输入到每类的高斯混合模型中，并计算其似然值；步骤四(4)、依据每个模型的输出似然值，选取具有最大似然值的类别作为最终识别结果O
9.根据权利要求5所述的一种基于背景噪声最小统计量特征的声音环境识别方法，其特征在于，步骤四的具体实现过程为: 步骤四(I)、对输入声音信号进行适时傅里叶变换、时频平滑提取在对数域上标准化后的最小统计量；步骤四(2)、将最小统计量投影到已存储的基向量上Uk，获得降维后的特征；步骤四(3)、将所得到的特征输入到每类的高斯混合模型中，并计算其似然值；步骤四(4)、依据每个模型的输出似然值，选取具有最大似然值的类别作为最终识别结果O
【文档编号】G10L15/06GK103544953SQ201310507384
【公开日】2014年1月29日申请日期:2013年10月24日优先权日:2013年10月24日
【发明者】邓世文申请人:哈尔滨师范大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邓世文
技术所有人：哈尔滨师范大学
我是此专利的发明人