利用频谱特性进行声音分析的改进的梅尔滤波器组结构的制作方法

文档序号:2827115阅读:299来源:国知局
利用频谱特性进行声音分析的改进的梅尔滤波器组结构的制作方法
【专利摘要】提供了用于在多个其他动态变化的声音之中检测感兴趣的声音的系统和方法。频谱检测模块通过检测存在于声能的频谱中的主频谱能带来识别主频谱能量频率。通过根据所识别的主频修改第一梅尔滤波器组和第二梅尔滤波器组的频谱定位来设计改进的梅尔滤波器组。特征提取器从第一梅尔滤波器组、第二梅尔滤波器组以及改进的梅尔滤波器组提取被进一步分类的特征以检测感兴趣的声音。
【专利说明】利用频谱特性进行声音分析的改进的梅尔滤波器组结构

【技术领域】
[0001] 本发明涉及用于在多个声音之中检测特定类型的声音的系统和方法。更具体而 言,本发明涉及用于在考虑其中的频谱特性的同时检测声音的系统和方法。
[0002] 现有技术参考文献
[0003] [1]. Rijurekha Sen, Vishal Sevani, Prashima Sharma,Zahir Koradia,and Bhaskaran Raman, "Challenges In Communication Assisted Road Transportation Systems for Developing Regions",In NSDR' 09, 0ct2009.
[0004] [2] . Prashanth Mohan, Venkata N. Padmanabhan, Ramachandran Ramjee,"Nericell :Rich Monitoring of Road and Traffic Conditions using Mobile Smartphones",Sensys'08 - From Microsoft Research Labs.
[0005] [3]. Vivek Tyagi, Shivkumar Kalyanaraman, Raghuram Krishnapuram,''Vehicular Traffic Density State Estimation Based on Cumulative Road Acoustics",IBM Research Report.
[0006] [4].Sandipan Chakroborty, Anindya Roy, and Goutam Saha, uImproved Closed Set Text-Independent Speaker Identification by combining MFCC with Evidence from Flipped Filter Banks",International Journal of Information and Communication Engineering, 2008.
[0007] [5]. Arun Ross, Anil Jain, "Information fusion in biometrics",Pattern Recognition Letters,2003.
[0008] [6]. uk Method and System for Association and Decision Fusion of Multimodal Input",Indian Patent Application Number 1451/MUM/2011.
[0009] [7] · Douglas A. Reynolds,Richard C. Rose,"Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models",IEEE Trans, on Speech and Audio Processing, vol. 3, no. 1, 1995.

【背景技术】
[0010] 执行对用于表征不同类型的声音的频谱特性的观察。音响范围(soundscaping) 具有在音乐、卫生保健、噪音污染等领域中的应用。为了将特定类型的声音与其他声音相区 分,广泛地使用梅尔频率滤波器组(mel frequency filter banks)。梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients) (MFCC)[参考文献4]通常被用作语音识别系统中的特 征。它们还被用于音频相似性测量。例如,在道路交通状况[参考文献1、2、3]中,MFCC被 用于区分喇叭声与其他交通声音。这样做以通过正确地识别喇叭声来降低交通事故的概 率。
[0011] 已经提出了多种解决方案以通过使用梅尔滤波器组来检测和跟踪特定类型的声 音。MFCC(梅尔频率倒谱系数)主要被用于将声音分类。在设计用于声音检测的现有系统 中,主要基于梅尔频率倒谱系数来进行特征选择。此外,出于分类的目的,通过采用GMM (高 斯混合模型)[参考文献7]或者任何其他模型来观察良好的结果。现有的梅尔滤波器组结 构更适合于语音,这是因为由于在更低的频率中的高分辨率,这种结构有效地获取语音的 共振峰信息(formant information)。然而,所有这种系统依然未使用滤波器组的设计中的 声音的频谱特性,并且在选择可提供更好结果的特征的同时不考虑它。通过观察频谱特性 改进的梅尔滤波器组可提供特定类型的声音的更好的分类。而且,通过观察频谱,基于阈值 的方法被用于特定声音检测,但是这些方法不能用于其中在频谱上存在变化的所有情况。
[0012] 大量现有技术还教导了关于声音的识别系统和处理。EP0907258公开了关于音频 信号压缩、语音信号压缩和语音识别的技术。CN101226743公开了关于用于基于中性和情 感声音的转换来识别演讲者的方法。EP2028647提供了用于对演讲者进行分类的方法和装 置。W01999022364教导了关于用于将语音的情感内容自动分类的系统和方法。CN1897109 公开了关于基于单个音频信号鉴别MFCC的技术。W02010066008公开了关于用于利用非高 斯性指数来进行社区筛查睡眠呼吸中止症的鼾声的多参数分析的技术。然而,所有这些现 有技术依然未考虑在声音能谱中变化的频率分布以提供改善的分类。
[0013] 因此,需要能够通过在设计滤波器组结构时考虑声音的频谱特性来检测特定类型 声音的系统和方法。此外,该系统和方法应该能够在降低复杂性的同时检测声音。
[0014] 发明的目标
[0015] 本发明的主要目标在于设计梅尔滤波器组以有效地检测动态变化的声音之中感 兴趣的声音。
[0016] 本发明的另一个目标在于提供一种方法,用于识别在动态变化的声音的能谱中的 主频。
[0017] 本发明的又一个目标在于提供一种系统,用于融合从一个或多个不同的梅尔滤波 器组提取的不同特征(MFCC)。
[0018] 本发明的又一个目标在于提供一种系统,用于将所提取的频谱特性分类以有效地 检测感兴趣的声音。


【发明内容】

[0019] 本发明提供了一种用于在多个其他动态变化的声音之中检测感兴趣的声音的系 统。该系统包括:频谱检测模块,被配置为通过检测存在于变化的声音的声能的频谱中的主 频谱能带来识别主频谱能量频率;改进的梅尔滤波器组,包括第一梅尔滤波器组和第二梅 尔滤波器组,在组中的每个梅尔滤波器被配置为对声能的频带进行滤波以检测感兴趣的声 音,改进的梅尔滤波器组根据识别的主频被配置有第一梅尔滤波器组和第二梅尔滤波器组 的修改的频谱定位(spectral positioning)以检测感兴趣的声音;特征提取器,与改进的 梅尔滤波器组相耦接,特征提取器被配置为提取从改进的滤波器组接收的声音的多个频谱 特性;以及分类器,被训练成根据识别的主频将提取的声音的频谱特性进行分类以检测感 兴趣的声音。
[0020] 本发明还提供了 一种用于在多个其他动态变化的声音之中检测感兴趣的声音的 方法。该方法包括以下步骤:识别存在于声能的频谱中的主频;通过根据识别的主频修改 第一梅尔滤波器组和第二梅尔滤波器组的频谱定位来改进梅尔滤波器组以检测感兴趣的 声音;提取从改进的滤波器组接收的声音的多个频谱特性;以及根据识别的主频将提取的 声音的频谱特性进行分类以检测感兴趣的声音。

【专利附图】

【附图说明】
[0021] 图1示出了根据该系统的实施方式的系统架构。
[0022] 图2示出了根据该系统的可替换的实施方式的系统架构。
[0023] 图3示出了根据本发明的实施方式的第一梅尔滤波器组的结构。
[0024] 图4示出了根据本发明的实施方式的感兴趣的声音的频谱。
[0025] 图5示出了根据本发明的可替换的实施方式的第二梅尔滤波器组的结构。
[0026] 图6示出了根据本发明的实施方式的其他动态变化的声音的频谱。
[0027] 图7示出了根据本发明的示例性实施方式的具有各种主频谱能带的改进的梅尔 滤波器组的结构。
[0028] 图8示出了根据本发明的可替换的实施方式的示例性流程图。
[0029] 图9示出了根据该系统的示例性实施方式的系统的方框图。

【具体实施方式】
[0030] 现在将论述示出其特征的本发明的一些实施方式:
[0031] 措辞"包含"、"具有"、"含有"以及"包括"及其其他形式旨在具有相同的意义并且 是开放式,这是因为在这些措辞中的任一个之后的一个或多个物品并非意味着这种或这些 物品的详细清单,或者意味着仅限于所列出的一个或多个物品。
[0032] 还必须注意的是,如在本文中以及在所附权利要求中所使用的,单数形式"一 (a)"、"一个(an)"以及"该(the)"包括复数参考,除非另有明确规定。虽然与在本文中描 述的那些系统、方法、设备以及装置相似或相同的任何系统、方法、设备以及装置可用于实 践或测试本发明的实施方式,但是现在描述优选的系统和部件。在以下描述中,为了进行解 释和理解,已经参照了多个实施方式,这些实施方式的目的并非旨在用于限制本发明的范 围。
[0033] 为了理解本说明书,本发明的一个或多个元件被描述为模块。例如,模块可包括在 包括逻辑门的硬件电路内的独立元件、半导体装置、集成电路或任何其他离散元件。该模块 还可以是由任何硬件实体(例如,处理器)执行的任何软件程序的一部分。作为软件程序 的模块的实施可包括一组逻辑指令,以由处理器或任何其他硬件实体执行。此外,通过界面 的方式,模块可以与指令组或者程序相组合。
[0034] 所公开的实施方式仅是本发明的实例,该实例可实例化为各种形式。
[0035] 本发明涉及用于在多个其他动态变化的声音之中检测感兴趣的声音的系统和方 法。在第一步骤中,在感兴趣的声音的频谱中识别主频,并且通过改进和移动第一梅尔滤波 器组和第二梅尔滤波器组的结构来获得改进的梅尔滤波器组。然后,从改进的梅尔滤波器 组中提取特征并且将这些特征进行分类以检测感兴趣的声音。
[0036] 根据实施方式,参照图1,该系统(100)包括第一梅尔滤波器组(102),该第一梅尔 滤波器组被配置为提供感兴趣的声音的MFCC (梅尔频率倒谱系数)。MFCC是语音和演讲者 识别应用的基线声学特征。
[0037] 梅尔刻度(mel scale)被定义为:
[0038]

【权利要求】
1. 一种用于在多个其他动态变化的声音之中检测感兴趣的声音的系统,所述系统包 括: 频谱检测模块,被配置为通过检测存在于所述变化的声音的声能的频谱中的主频谱能 带来识别主频谱能量频率; 改进的梅尔滤波器组,包括第一梅尔滤波器组和第二梅尔滤波器组,在组中的每个梅 尔滤波器被配置为对声能的频带进行滤波以检测所述感兴趣的声音,所述改进的梅尔滤波 器组根据识别的主频被配置有所述第一梅尔滤波器组和所述第二梅尔滤波器组的修改的 频谱定位以检测所述感兴趣的声音; 特征提取器,与所述改进的梅尔滤波器组耦接,所述特征提取器被配置为提取从改进 的滤波器组接收的声音的多个频谱特性;以及 分类器,被训练成根据识别的所述主频将提取的声音的频谱特性进行分类以检测所述 感兴趣的声音。
2. 根据权利要求1所述的系统,其中,所述第二梅尔滤波器组是所述第一梅尔滤波器 组的倒置。
3. 根据权利要求1所述的系统,其中,所述分类器包括但不限于高斯混合模型(GMM)以 将提取的所述感兴趣的声音的频谱特性进行分类。
4. 根据权利要求1所述的系统,其中,所述动态变化的声音包括但不限于汽车中的喇 口八声。
5. 根据权利要求1所述的系统,其中,所述系统进一步包括融合模块,所述融合模块被 配置为将从所述第一梅尔滤波器组、所述第二梅尔滤波器组以及所述改进的梅尔滤波器组 提取的特征进行融合以提供所述系统的性能评估。
6. 根据权利要求1所述的系统,其中,所述分类器进一步包括比较器,所述比较器用于 将所述感兴趣的声音的分类的频谱特性与预存的一组声音特性进行比较。
7. -种用于在多个其他动态变化的声音之中检测特定的感兴趣的声音的方法,所述方 法包括以下步骤: 识别存在于声能的频谱中的主频; 通过根据识别的主频修改第一梅尔滤波器组和第二梅尔滤波器组的频谱定位来改进 梅尔滤波器组以检测所述感兴趣的声音; 提取从改进的滤波器组接收的声音的多个频谱特性;以及 根据识别的所述主频将提取的声音的频谱特性进行分类以检测所述感兴趣的声音。
8. 根据权利要求7所述的方法,其中,所述主频包括具有所述感兴趣的声音的所述能 谱中最大能量的波带的频率。
9. 根据权利要求7所述的方法,其中,根据识别的所述主频的梅尔滤波器组的改进针 对所述第一梅尔滤波器组产生从所述主频至最大频率的频率范围并且针对所述第二梅尔 滤波器组产生从最小频率至所述主频的频率范围。
10. 根据权利要求7所述的方法,其中,所述方法进一步包括将从所述第一梅尔滤波器 组、所述第二梅尔滤波器组以及改进的梅尔滤波器组提取的特征进行融合以在检测所述感 兴趣的声音的同时提供性能评估。
11. 根据权利要求7所述的方法,其中,分类包括将所述感兴趣的声音的分类的频谱特 性与预存的一组声音特性进行比较以检测所述感兴趣的声音。
【文档编号】G10L15/08GK104221079SQ201380010272
【公开日】2014年12月17日 申请日期:2013年2月11日 优先权日:2012年2月21日
【发明者】吉滕德拉·贾殷, 阿尼鲁达·辛哈 申请人:塔塔顾问服务有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1