利用频谱特性进行声音分析的改进的梅尔滤波器组结构的制作方法

文档序号：2827115阅读：299来源：国知局

利用频谱特性进行声音分析的改进的梅尔滤波器组结构的制作方法
【专利摘要】提供了用于在多个其他动态变化的声音之中检测感兴趣的声音的系统和方法。频谱检测模块通过检测存在于声能的频谱中的主频谱能带来识别主频谱能量频率。通过根据所识别的主频修改第一梅尔滤波器组和第二梅尔滤波器组的频谱定位来设计改进的梅尔滤波器组。特征提取器从第一梅尔滤波器组、第二梅尔滤波器组以及改进的梅尔滤波器组提取被进一步分类的特征以检测感兴趣的声音。
【专利说明】利用频谱特性进行声音分析的改进的梅尔滤波器组结构

【技术领域】
[0001] 本发明涉及用于在多个声音之中检测特定类型的声音的系统和方法。更具体而言，本发明涉及用于在考虑其中的频谱特性的同时检测声音的系统和方法。
[0002] 现有技术参考文献
[0003] [1]. Rijurekha Sen, Vishal Sevani, Prashima Sharma，Zahir Koradia，and Bhaskaran Raman, "Challenges In Communication Assisted Road Transportation Systems for Developing Regions"，In NSDR' 09, 0ct2009.
[0004] [2] . Prashanth Mohan, Venkata N. Padmanabhan, Ramachandran Ramjee，"Nericell :Rich Monitoring of Road and Traffic Conditions using Mobile Smartphones"，Sensys'08 - From Microsoft Research Labs.
[0005] [3]. Vivek Tyagi, Shivkumar Kalyanaraman, Raghuram Krishnapuram，''Vehicular Traffic Density State Estimation Based on Cumulative Road Acoustics"，IBM Research Report.
[0006] [4].Sandipan Chakroborty, Anindya Roy, and Goutam Saha, uImproved Closed Set Text-Independent Speaker Identification by combining MFCC with Evidence from Flipped Filter Banks"，International Journal of Information and Communication Engineering, 2008.
[0007] [5]. Arun Ross, Anil Jain, "Information fusion in biometrics"，Pattern Recognition Letters,2003.
[0008] [6]. uk Method and System for Association and Decision Fusion of Multimodal Input"，Indian Patent Application Number 1451/MUM/2011.
[0009] [7] · Douglas A. Reynolds，Richard C. Rose，"Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models"，IEEE Trans, on Speech and Audio Processing, vol. 3, no. 1, 1995.

【背景技术】
[0010] 执行对用于表征不同类型的声音的频谱特性的观察。音响范围（soundscaping) 具有在音乐、卫生保健、噪音污染等领域中的应用。为了将特定类型的声音与其他声音相区分，广泛地使用梅尔频率滤波器组（mel frequency filter banks)。梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients) (MFCC)[参考文献4]通常被用作语音识别系统中的特征。它们还被用于音频相似性测量。例如，在道路交通状况[参考文献1、2、3]中，MFCC被用于区分喇叭声与其他交通声音。这样做以通过正确地识别喇叭声来降低交通事故的概率。
[0011] 已经提出了多种解决方案以通过使用梅尔滤波器组来检测和跟踪特定类型的声音。MFCC(梅尔频率倒谱系数）主要被用于将声音分类。在设计用于声音检测的现有系统中，主要基于梅尔频率倒谱系数来进行特征选择。此外，出于分类的目的，通过采用GMM (高斯混合模型）[参考文献7]或者任何其他模型来观察良好的结果。现有的梅尔滤波器组结构更适合于语音，这是因为由于在更低的频率中的高分辨率，这种结构有效地获取语音的共振峰信息（formant information)。然而，所有这种系统依然未使用滤波器组的设计中的声音的频谱特性，并且在选择可提供更好结果的特征的同时不考虑它。通过观察频谱特性改进的梅尔滤波器组可提供特定类型的声音的更好的分类。而且，通过观察频谱，基于阈值的方法被用于特定声音检测，但是这些方法不能用于其中在频谱上存在变化的所有情况。
[0012] 大量现有技术还教导了关于声音的识别系统和处理。EP0907258公开了关于音频信号压缩、语音信号压缩和语音识别的技术。CN101226743公开了关于用于基于中性和情感声音的转换来识别演讲者的方法。EP2028647提供了用于对演讲者进行分类的方法和装置。W01999022364教导了关于用于将语音的情感内容自动分类的系统和方法。CN1897109 公开了关于基于单个音频信号鉴别MFCC的技术。W02010066008公开了关于用于利用非高斯性指数来进行社区筛查睡眠呼吸中止症的鼾声的多参数分析的技术。然而，所有这些现有技术依然未考虑在声音能谱中变化的频率分布以提供改善的分类。
[0013] 因此，需要能够通过在设计滤波器组结构时考虑声音的频谱特性来检测特定类型声音的系统和方法。此外，该系统和方法应该能够在降低复杂性的同时检测声音。
[0014] 发明的目标
[0015] 本发明的主要目标在于设计梅尔滤波器组以有效地检测动态变化的声音之中感兴趣的声音。
[0016] 本发明的另一个目标在于提供一种方法，用于识别在动态变化的声音的能谱中的主频。
[0017] 本发明的又一个目标在于提供一种系统，用于融合从一个或多个不同的梅尔滤波器组提取的不同特征（MFCC)。
[0018] 本发明的又一个目标在于提供一种系统，用于将所提取的频谱特性分类以有效地检测感兴趣的声音。

【发明内容】

[0019] 本发明提供了一种用于在多个其他动态变化的声音之中检测感兴趣的声音的系统。该系统包括：频谱检测模块，被配置为通过检测存在于变化的声音的声能的频谱中的主频谱能带来识别主频谱能量频率；改进的梅尔滤波器组，包括第一梅尔滤波器组和第二梅尔滤波器组，在组中的每个梅尔滤波器被配置为对声能的频带进行滤波以检测感兴趣的声音，改进的梅尔滤波器组根据识别的主频被配置有第一梅尔滤波器组和第二梅尔滤波器组的修改的频谱定位（spectral positioning)以检测感兴趣的声音；特征提取器，与改进的梅尔滤波器组相耦接，特征提取器被配置为提取从改进的滤波器组接收的声音的多个频谱特性；以及分类器，被训练成根据识别的主频将提取的声音的频谱特性进行分类以检测感兴趣的声音。
[0020] 本发明还提供了一种用于在多个其他动态变化的声音之中检测感兴趣的声音的方法。该方法包括以下步骤：识别存在于声能的频谱中的主频；通过根据识别的主频修改第一梅尔滤波器组和第二梅尔滤波器组的频谱定位来改进梅尔滤波器组以检测感兴趣的声音；提取从改进的滤波器组接收的声音的多个频谱特性；以及根据识别的主频将提取的声音的频谱特性进行分类以检测感兴趣的声音。

【专利附图】

【附图说明】
[0021] 图1示出了根据该系统的实施方式的系统架构。
[0022] 图2示出了根据该系统的可替换的实施方式的系统架构。
[0023] 图3示出了根据本发明的实施方式的第一梅尔滤波器组的结构。
[0024] 图4示出了根据本发明的实施方式的感兴趣的声音的频谱。
[0025] 图5示出了根据本发明的可替换的实施方式的第二梅尔滤波器组的结构。
[0026] 图6示出了根据本发明的实施方式的其他动态变化的声音的频谱。
[0027] 图7示出了根据本发明的示例性实施方式的具有各种主频谱能带的改进的梅尔滤波器组的结构。
[0028] 图8示出了根据本发明的可替换的实施方式的示例性流程图。
[0029] 图9示出了根据该系统的示例性实施方式的系统的方框图。

【具体实施方式】
[0030] 现在将论述示出其特征的本发明的一些实施方式：
[0031] 措辞"包含"、"具有"、"含有"以及"包括"及其其他形式旨在具有相同的意义并且是开放式，这是因为在这些措辞中的任一个之后的一个或多个物品并非意味着这种或这些物品的详细清单，或者意味着仅限于所列出的一个或多个物品。
[0032] 还必须注意的是，如在本文中以及在所附权利要求中所使用的，单数形式"一 (a)"、"一个（an)"以及"该（the)"包括复数参考，除非另有明确规定。虽然与在本文中描述的那些系统、方法、设备以及装置相似或相同的任何系统、方法、设备以及装置可用于实践或测试本发明的实施方式，但是现在描述优选的系统和部件。在以下描述中，为了进行解释和理解，已经参照了多个实施方式，这些实施方式的目的并非旨在用于限制本发明的范围。
[0033] 为了理解本说明书，本发明的一个或多个元件被描述为模块。例如，模块可包括在包括逻辑门的硬件电路内的独立元件、半导体装置、集成电路或任何其他离散元件。该模块还可以是由任何硬件实体（例如，处理器）执行的任何软件程序的一部分。作为软件程序的模块的实施可包括一组逻辑指令，以由处理器或任何其他硬件实体执行。此外，通过界面的方式，模块可以与指令组或者程序相组合。
[0034] 所公开的实施方式仅是本发明的实例，该实例可实例化为各种形式。
[0035] 本发明涉及用于在多个其他动态变化的声音之中检测感兴趣的声音的系统和方法。在第一步骤中，在感兴趣的声音的频谱中识别主频，并且通过改进和移动第一梅尔滤波器组和第二梅尔滤波器组的结构来获得改进的梅尔滤波器组。然后，从改进的梅尔滤波器组中提取特征并且将这些特征进行分类以检测感兴趣的声音。
[0036] 根据实施方式，参照图1，该系统（100)包括第一梅尔滤波器组（102)，该第一梅尔滤波器组被配置为提供感兴趣的声音的MFCC (梅尔频率倒谱系数）。MFCC是语音和演讲者识别应用的基线声学特征。
[0037] 梅尔刻度（mel scale)被定义为：
[0038]

【权利要求】
1. 一种用于在多个其他动态变化的声音之中检测感兴趣的声音的系统，所述系统包括：频谱检测模块，被配置为通过检测存在于所述变化的声音的声能的频谱中的主频谱能带来识别主频谱能量频率；改进的梅尔滤波器组，包括第一梅尔滤波器组和第二梅尔滤波器组，在组中的每个梅尔滤波器被配置为对声能的频带进行滤波以检测所述感兴趣的声音，所述改进的梅尔滤波器组根据识别的主频被配置有所述第一梅尔滤波器组和所述第二梅尔滤波器组的修改的频谱定位以检测所述感兴趣的声音；特征提取器，与所述改进的梅尔滤波器组耦接，所述特征提取器被配置为提取从改进的滤波器组接收的声音的多个频谱特性；以及分类器，被训练成根据识别的所述主频将提取的声音的频谱特性进行分类以检测所述感兴趣的声音。
2. 根据权利要求1所述的系统，其中，所述第二梅尔滤波器组是所述第一梅尔滤波器组的倒置。
3. 根据权利要求1所述的系统，其中，所述分类器包括但不限于高斯混合模型（GMM)以将提取的所述感兴趣的声音的频谱特性进行分类。
4. 根据权利要求1所述的系统，其中，所述动态变化的声音包括但不限于汽车中的喇口八声。
5. 根据权利要求1所述的系统，其中，所述系统进一步包括融合模块，所述融合模块被配置为将从所述第一梅尔滤波器组、所述第二梅尔滤波器组以及所述改进的梅尔滤波器组提取的特征进行融合以提供所述系统的性能评估。
6. 根据权利要求1所述的系统，其中，所述分类器进一步包括比较器，所述比较器用于将所述感兴趣的声音的分类的频谱特性与预存的一组声音特性进行比较。
7. -种用于在多个其他动态变化的声音之中检测特定的感兴趣的声音的方法，所述方法包括以下步骤：识别存在于声能的频谱中的主频；通过根据识别的主频修改第一梅尔滤波器组和第二梅尔滤波器组的频谱定位来改进梅尔滤波器组以检测所述感兴趣的声音；提取从改进的滤波器组接收的声音的多个频谱特性；以及根据识别的所述主频将提取的声音的频谱特性进行分类以检测所述感兴趣的声音。
8. 根据权利要求7所述的方法，其中，所述主频包括具有所述感兴趣的声音的所述能谱中最大能量的波带的频率。
9. 根据权利要求7所述的方法，其中，根据识别的所述主频的梅尔滤波器组的改进针对所述第一梅尔滤波器组产生从所述主频至最大频率的频率范围并且针对所述第二梅尔滤波器组产生从最小频率至所述主频的频率范围。
10. 根据权利要求7所述的方法，其中，所述方法进一步包括将从所述第一梅尔滤波器组、所述第二梅尔滤波器组以及改进的梅尔滤波器组提取的特征进行融合以在检测所述感兴趣的声音的同时提供性能评估。
11. 根据权利要求7所述的方法，其中，分类包括将所述感兴趣的声音的分类的频谱特性与预存的一组声音特性进行比较以检测所述感兴趣的声音。
【文档编号】G10L15/08GK104221079SQ201380010272
【公开日】2014年12月17日申请日期:2013年2月11日优先权日:2012年2月21日
【发明者】吉滕德拉·贾殷, 阿尼鲁达·辛哈申请人:塔塔顾问服务有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吉滕德拉·贾殷;阿尼鲁达·辛哈
技术所有人：塔塔顾问服务有限公司
我是此专利的发明人

上一篇：键盘乐器的制造方法
上一篇：用于语音编码的混合码本激励的系统和方法