冲击声检测装置和冲击声检测方法

文档序号:10625476阅读:566来源:国知局
冲击声检测装置和冲击声检测方法
【专利摘要】本发明提供冲击声检测装置和冲击声检测方法。该冲击声检测装置包括:被构造为获得音频输入的单元;被构造为从获得的音频中提取至少一种特征,并且基于提取的特征,将获得的音频分割为至少一个音频段的单元;被构造为基于预先生成的声音模型和提取的特征,从音频段中识别第一冲击声的单元;被构造为在至少一部分音频段内检测音频段的起始点,并且输出起始点的位置和起始点的能量相关特征的单元;被构造为基于预先生成的起始点模型和起始点的能量相关特征,确定起始点的至少两种类型的单元;以及被构造为基于识别的冲击声和确定的起始点的类型,从音频段中确定第二冲击声的单元。根据本发明,通过使用起始点的信息,能够改善冲击声检测性能。
【专利说明】
冲击声检测装置和冲击声检测方法
技术领域
[0001] 本发明设及声音检测,尤其设及冲击声检测装置和冲击声检测方法。
【背景技术】
[0002] 现在,声音检测技术在安全监控中得到了广泛应用,例如检测给定环境中的音频 异常、检测在给定设备(例如多功能打印机(MFP))正在工作时产生的音频异常。
[0003] 通常,声音检测系统包括两个主要部分,即分割部分和识别部分。首先,在分割部 分中,声音检测系统使用本领域技术人员熟悉的任何种类的语音端点检测(VAD)算法,将 音频输入分割为音频段。然后,在识别部分中,声音检测系统基于由训练数据通过使用本 领域技术人员熟悉的任何监督和/或无监督方式生成的预先生成的声音模型,识别从分割 部分获得的音频段。例如,美国专利申请US2012/0185418公开了一种用于检测异常音频 事件的系统和方法,并且公开了一种用于针对异常音频事件检测训练声音模型的无监督方 式。该方法主要包括W下两个阶段:第一阶段是学习阶段,即在诸如声学参数的提取和声 学分割的预处理操作之后,将音频段分组到各个类中,然后,基于音频段的分类学习统计模 型;第二阶段是使用阶段,即在诸如声学参数的提取和声学分割的预处理操作之后,使用在 第一阶段中生成的统计模型,检测异常事件。
[0004] 由于冲击声具有W下属性,即冲击声的能量在初始音频帖中快速增大,而在结束 音频帖中缓慢减小,因此,诸如枪击声检测、玻璃破碎声检测和爆炸声检测的冲击声检测是 声音检测技术中的特殊情况。然而,在上面提及的诸如美国专利申请US2012/0185418的相 关技术中,识别部分仅使用从分割部分获得的音频段的特征(例如音频段的边界信息),而 没有考虑各个音频段的初始音频帖的属性。因此,使用现有声音检测方法的冲击声检测性 能低;尤其由于环境噪声,误警率高。

【发明内容】

[0005] 因此,鉴于上面在【背景技术】部分中的叙述,本发明要解决的技术问题是在检测冲 击声时,除了使用音频段的特征之外,充分利用冲击声的能量在各个音频段的初始音频帖 中快速增大的信息,使得能够通过考虑各个音频段的初始音频帖的属性,来改善冲击声检 测性能。
[0006] 根据本发明,提供一种冲击声检测装置,其包括:音频获得单元,被构造为获得音 频输入;预处理单元,被构造为从所获得的音频中提取至少一种特征,并且基于所提取的特 征,将所获得的音频分割为至少一个音频段;冲击声识别单元,被构造为基于预先生成的声 音模型和与所述音频段相对应的所提取的特征,从所述音频段中识别第一冲击声;起始点 检测单元,被构造为在至少一部分所述音频段内检测音频段的起始点,并且输出所述起始 点的位置和所述起始点的能量相关特征;起始点分类单元,被构造为基于预先生成的起始 点模型和所述起始点的所述能量相关特征,确定所述起始点的至少两种类型;W及冲击声 确定单元,被构造为基于从所述冲击声识别单元输出的所述第一冲击声和从所述起始点分 类单元输出的所确定的所述起始点的类型,从所述音频段中确定第二冲击声。
[0007] 如上所述,在检测冲击声时,除了使用从上述预处理操作中获得的音频段的特征 之外,本发明还考虑使用音频段的起始点的信息,例如起始点的位置和起始点的能量相关 特征。在本发明中,将起始点视为相应的音频段中的能量变化最大的点,其可W提供不同冲 击声的特有信息,例如对于不同的冲击声来说,在初始音频帖中快速增大的冲击声的能量 的不同的增大模式。因此,使用起始点的信息能够改善冲击声检测性能。
[0008] 通过W下参照附图的描述,本发明的其他特征和优点将变得清楚。
【附图说明】
[0009] 包含在说明书中并构成说明书的一部分的附图例示了本发明的实施例,并且与文 字说明一起用来解释本发明的原理。
[0010] 图1是示出应用根据本发明的冲击声检测技术的安全监控系统的整体构成的框 图。 W11]图2是例示根据本发明的示例性实施例的冲击声检测装置的示例性控制配置的 框图。
[0012] 图3是例示根据本发明的第一实施例的冲击声检测装置的示例性功能配置的框 图。
[0013] 图4示意性地示出了根据本发明的示例性实施例的检测音频段的起始点的处理 的流程图。
[0014] 图5示意性地示出了根据本发明的示例性实施例的检测音频段的起始点的处理 的另一流程图。
[0015] 图6示意性地示出了根据本发明的示例性实施例的生成起始点模型的方法的流 程图。
[0016] 图7示意性地示出了根据本发明的示例性实施例的生成起始点相关声音模型的 方法的流程图。
[0017] 图8是例示根据本发明的第二实施例的冲击声检测装置的示例性功能配置的框 图。
[0018] 图9是例示根据本发明的第Ξ实施例的冲击声检测装置的示例性功能配置的框 图。
[0019] 图10是例示根据本发明的第四实施例的冲击声检测装置的示例性功能配置的框 图。
[0020] 图11是例示根据本发明的第五实施例的冲击声检测装置的示例性功能配置的框 图。
[0021] 图12示意性地示出了根据本发明的实施例的冲击声检测方法的流程图。
[0022] 图13示意性地示出了根据本发明的实施例的冲击声检测方法的另一流程图。
【具体实施方式】
[0023] 下面参照附图详细描述本发明的示例性实施例。应当注意,下面的描述实质上仅 仅是说明性和示例性的,而绝不旨在限制本发明及其应用或用途。除非另外具体说明,否则 在实施例中陈述的部件和步骤、数字表达式和数值的相对布置不限制本发明的范围。另外, 不详细讨论本领域技术人员已知的技术、方法和设备,但是在适当的情况下,运些技术、方 法和设备旨在作为本说明书的一部分。
[0024] 请注意,在附图中类似的附图标记和字母指代类似的项,因此一旦在一个图中定 义了一个项,则不需要针对下面的图对其进行讨论。 阳0巧](安全监控系统)
[00%] 图1是示出应用根据本发明的冲击声检测技术的安全监控系统10的整体构成的 框图。
[0027] 如图1所示,安全监控系统10可W包括音频传感器11、冲击声检测装置100 W及 诸如PC型设备12和警报设备13的警报装置。
[0028] 音频传感器11接收声音、存在于要监控的区域中的音频噪声、要监控的设备产生 的音频异常或者希望进行可听事件分析的信息。向冲击声检测装置100发送在音频传感器 11上接收到的音频数据。冲击声检测装置100根据下文中将参照图2~13详细描述的本 发明的实施例,检测音频数据内的冲击声。然后,冲击声检测装置100向警报装置输出检测 到的冲击声,例如经由网络(未示出)向PC型设备12输出检测到的冲击声,W向用户和/ 或操作者显示结果,或者向警报设备13输出检测到的冲击声,W向用户和/或操作者发出 警报或者警告有危险。
[0029] 如上所述,安全监控系统10可W用来检测诸如超市的给定环境中的音频异常,并 且可W用来检测在诸如MFP的设备正在工作时产生的音频异常。此外,W MFP为例,当使用 安全监控系统10监控在MFP的工作进展期间是否发生了诸如卡纸的故障时,音频传感器11 和警报设备13可W是MFP的现有部件,而冲击声检测装置100可W通过硬件和/或软件来 实现。在一种实现方式中,可W将能够执行冲击声检测的功能模块或者功能装置并入MFP 中,由此MFP将具有相应的安全监控功能。在另一种实现方式中,可W将能够执行冲击声检 测的软件程序存储在MFP的存储设备中,由此MFP也将具有相应的安全监控功能。
[0030] (冲击声检测装置)
[0031] 图2是例示根据本发明的示例性实施例的图1所示的冲击声检测装置100的示例 性控制配置的框图。冲击声检测装置100可W包括中央处理单元(CPU) 101、随机存取存储 器(RAM) 102、只读存储器(ROM) 103、硬盘104、输入设备105、输出设备106和网络接口 107, 它们经由系统总线108彼此可通信地连接。
[0032] CPU 101可W是任何合适的可编程控制设备,其通过执行存储在ROM 103或硬盘 104中的各种应用程序,能够执行下文中要描述的各种功能。RAM 102用于临时存储从ROM 103或硬盘104载入的程序或数据,并且还用作CPU 101执行各种程序的空间。硬盘104可 W存储多种信息,例如操作系统(0巧、各种应用、控制程序、由用户、操作者和/或制造商预 先生成或训练的数据和模型,其中,模型例如可W是下文中将详细描述的起始点模型、声音 模型和/或起始点相关声音模型。此外,可W将由制造商预先训练的模型存储在ROM 103 或硬盘104中。
[0033] 输入设备105可W是输入接口,其可W接收例如从图1所示的音频传感器11输出 的音频数据。输出设备106可W是输出接口,其可W向警报装置输出检测到的冲击声,例如 经由网络(未示出)向PC型设备12输出检测到的冲击声,或者向图1所示的警报设备13 输出检测到的冲击声。
[0034] 网络接口 107提供用于将冲击声检测装置100连接到网络(未示出)的接口。例 如,冲击声检测装置100经由网络接口 107与经由网络连接的其它电子设备(例如图1所 示的PC型设备12)进行数据通信(例如发送检测到的冲击声)。作为另选方案,可W对冲 击声检测装置100设置无线接口,W进行无线数据通信。系统总线108可W提供用于向、从 CPU10URAM 102、R0M 103、硬盘104、输入设备105、输出设备106和网络接口 107等或者在 它们之间彼此传输数据的数据传输路径。虽然称为总线,但是系统总线108不局限于任何 特定数据传输技术。 阳03引(第一实施例)
[0036] 图3是例示根据本发明的第一实施例的与由冲击声检测装置100进行的冲击声 检测相关的示例性功能配置的框图。在第一实施例中,本发明使用起始点的分类结果来优 化冲击声识别的结果,其中,起始点被视为相应的音频段中的能量的变化最大的点。当CPU 101执行存储在R0M103和/或硬盘104中的程序时,实现下面的功能单元。
[0037] 如图3所示,输入设备105可W接收例如从图1所示的音频传感器11输出的音频 数据。
[0038] 音频获得单元301获得来自输入设备105的音频输入。
[0039] 预处理单元302首先从所获得的从音频获得单元301输出的音频中,提取至少一 种特征。所提取的特征可W是W下本领域技术人员已知的特征中的至少一个:例如线性 预测系数(LPC)、过零率狂CR)、梅尔频率倒谱系数(MFCC)、谱功率、子带能量、子带能量的 Teager能量算子(TE0)等。然后,预处理单元302例如使用本领域技术人员熟悉的任意种 类的VAD算法,基于所提取的特征,将所获得的音频分割为至少一个音频段。作为另选方 案,也可W在两个单独的单元中执行上述提取操作和分割操作。
[0040] 冲击声识别单元303从预处理单元302接收音频段和提取的特征,并且基于预先 生成的声音模型307和与音频段相对应的提取的特征,从音频段中识别冲击声(即第一冲 击声)。对于各个音频段,冲击声识别单元303计算其与各个声音模型相对应的似然度得 分,并且按照似然度得分的顺序选择声音。
[0041] 例如,一个音频段的似然度得分可W被表示为Pli= P(SMi|feature(l~M)),其 意为该音频段与第i个声音模型相对应的似然度得分为Pli,其中,i是声音模型的索引, fe£Tture(l~M)是与该音频段相对应的提取的特征。
[0042] 声音模型307可W由用户、操作者和/或制造商,基于已录音频和与已录音频相对 应的音频标签预先生成或训练,并且存储在图2中的冲击声检测装置100的ROM 103或硬 盘104中。
[0043] 作为优选的可选解决方案,声音模型307可W是根据下文中将参照图7详细描述 的方法生成的起始点相关声音模型。
[0044] 起始点检测单元304接收从预处理单元302输出的所有音频段,并且检测音频段 的起始点并输出起始点的位置和起始点的能量相关特征。在一种实现方式中,起始点检测 单元304检测各个音频段的起始点,并且输出起始点的位置和起始点的能量相关特征。作 为优选解决方案,下文中将参照图4~5详细描述检测音频段的起始点的方法/处理。 阳045] 起始点分类单元305从起始点检测单元304接收起始点的能量相关特征,并且基 于预先生成的起始点模型308和起始点的能量相关特征,确定起始点的至少两种类型。起 始点模型308可W由用户、操作者和/或制造商,基于已录音频和与已录音频相对应的音频 标签预先生成或训练,并且存储在图2中的冲击声检测装置100的ROM 103或硬盘104中。 作为优选解决方案,起始点模型308可W根据下文中将参照图6详细描述的方法生成。
[0046] 起始点的至少两种类型可W是冲击声相关类型和非冲击声相关类型。此外,冲击 声相关类型可W包括多于一种,也就是说,冲击声相关类型可W包括多于一个的特定冲击 声相关类型,例如枪击声相关类型、玻璃破碎声相关类型、爆炸声相关类型等。类似地,非冲 击声相关类型也可W包括多于一种。应当注意,只要容易将非冲击声相关类型与冲击声相 关类型区分,则起始点的类型的种类是多少不重要。
[0047] 同时,对于各个音频段的起始点,起始点分类单元305计算其与各个起始点模 型相对应的似然度得分。例如,一个音频段的起始点的似然度得分可W被表示为P2,= P (SPj I RTE0 (π〇),其意为该起始点与第j个起始点模型相对应的似然度得分是P2j,其中,j 是起始点模型的索引,RTEOOiO是下文中将参照图4~5详细描述的起始点的能量相关特 征。
[0048] 冲击声确定单元306基于从冲击声识别单元303输出的第一冲击声和从起始点分 类单元305输出的确定的起始点的类型,从音频段中确定冲击声(即第二冲击声)。
[0049] 更具体来说,冲击声确定单元306通过将由冲击声识别单元303计算的第一冲击 声的似然度得分,与由起始点分类单元305计算的确定的起始点的类型的似然度得分综 合,来确定第二冲击声。
[0050] 例如,在一种实现方式中,对于一个音频段,可W根据方程式:Pi=Wi冲li+听冲2来 计算综合似然度得分,其中,i是声音模型的索引,和W 2是可W基于统计信息和/或本领 域中的经验设置的预先设置的权重。另一方面,当与似然度得分Pli相对应的声音模型是冲 击声相关类型时,似然度得分P2可W根据与冲击声相关类型相对应的似然度得分P2,来确 定,例如,P2是与冲击声相关类型相对应的似然度得分P2,的平均得分,或者P2是与冲击声 相关类型相对应的似然度得分P2,中的最大得分。当与似然度得分P1 1相对应的声音模型 是非冲击声相关类型时,似然度得分P2可W根据与非冲击声相关类型相对应的似然度得 分P2,来确定。然后,冲击声确定单元306根据综合似然度得分P 1中的最大得分,确定该音 频段是否是第二冲击声。另一方面,当与似然度得分Pli相对应的声音模型是特定冲击声 相关类型(例如枪击声相关类型)时,似然度得分P2可W根据与上述特定冲击声相关类型 (即枪击声相关类型)相对应的似然度得分P2,来确定。然后,冲击声确定单元306根据综 合似然度得分Pi中的最大得分,确定该音频段的最终特定声音。
[0051] 另外,对于一些极端情形,例如音频段的能量的变化非常小和/或近似为零,起始 点检测单元304可能针对该音频段检测到错误或者无效的起始点,其意为将该音频段判断 为冲击声的可能性非常小。因此,一方面,冲击声确定单元306可W直接确定该音频段是非 冲击声。或者另一方面,如上面所描述的,可W根据方程式:Pi= W 1冲li+W2冲2来计算综合 似然度得分。如果起始点检测单元304检测到的该音频段的起始点是错误的点,则根据与 冲击声相关类型相对应的似然度得分P2,确定的似然度得分P2可能非常小(例如近似为 零),因此综合似然度得分Pi中的最大得分对应于冲击声的可能性非常小,而该音频段是非 冲击声的可能性相对更大。由此,冲击声确定单元306将该音频段确定为冲击声的可能性 非常小。也就是说,在运种情形下,基本上确定该音频段是非冲击声。
[0052] 最后,输出设备106接收由冲击声确定单元306确定的第二冲击声,并且向警报装 置输出第二冲击声,例如经由网络(未示出)向PC型设备12输出第二冲击声,或者向图1 所示的警报设备13输出第二冲击声。 阳〇5引(起始点检测)
[0054] 如在图3中所描述的,下面描述上述由图3中的起始点检测单元304操作的检测 音频段的起始点的方法/处理。
[0055] 作为优选解决方案,图4示意性地示出了根据本发明的示例性实施例的检测音频 段的起始点的处理的流程图,其中,相应的程序存储在图2中的ROM 103和/或硬盘104中, 并且当CPU 101执行相应的程序时,在CPU 101中实现相应的程序。
[0056] 对于从图3中的预处理单元302输出的一个音频段,首先,起始点检测单元304 针对该音频段中的音频帖,计算相对Teager能量算子能量(TE0)能量。在文献"Voice Activity Detection Based on Noise Feature Space NR and TEO Energy"by Xiao Lei, Journal of Kunming University of Science and Technology(Science and Technology) Vol. 35 No. 3,化n. 2010中,公开了针对TEO的相应描述。下文中将描述针对相 对TEO(RTEO)能量的相应描述。
[0057] 在一种实现方式中,RTE0能量可W根据下面的图4所示的步骤S410至S430来计 算。
[0058] 如图4所示,在子带能量计算步骤S410中,起始点检测单元304针对音频段中的 各个音频帖计算子带能量。更具体来说,起始点检测单元304基于诸如傅立叶变换方法的 现有谱分析方法,计算子带能量,并且可W将计算的子带能量表示为SBE (m,k),其中,m是 音频段中的音频帖的索引,并且k是子带的索引。子带的总数可W根据本领域中的经验和 /或在实际应用中的要求预先设置。 阳059] 在TE0能量计算步骤S420中,起始点检测单元304通过计算相应音频帖的子带 能量的变化,来计算各个音频帖的TE0能量。由于基于计算的子带能量来计算TE0能量, 因此TE0能量也可W被视为子带TE0能量。更具体来说,可W将计算的TE0能量表示为 TE0(m,k),并且起始点检测单元304例如可W根据下面的方程式来计算TE0能量:
[0060] TE0 (m, k) = SBE2 (m, k) -S邸(m+1,k)巧邸(m-1,k)
[0061] 其中,该方程式意为子带TE0(m,k)可W通过对从子带能量计算步骤S410输出的 各个计算的子带能量SBE(m, k)应用TE0而获得。
[0062] 在RTE0能量计算步骤S430中,起始点检测单元304通过计算相应音频帖的TE0 能量的变化,来计算各个音频帖的RTE0能量。更具体来说,可W将计算的RTE0能量表示为 RTE0(m,k),其描述在音频帖(1~M)期间,音频帖(m)的第k个子带TE0能量相对于其它 音频帖的子带TE0能量的相关突出程度。例如,上述其它音频帖可W是音频帖(m)周围的 所有音频帖、音频帖(m)之前的音频帖等。并且起始点检测单元304例如可W根据下面的 方程式来计算RTE0能量:
[0063]
[0064] RTE0(m, k) = 0 if RTE0(m, k) < 0
[0M5] 其中,n也是音频段中的音频帖的索引,M是音频段中的音频帖的总数。
[0066] 然后,在计算RTE0能量之后,起始点检测单元304基于计算的RTE0能量,计算音 频帖的相对突出度(relative outstanding metrics)。在一种实现方式中,如图4所示,在 距离计算步骤S440中,起始点检测单元304基于从RTE0能量计算步骤S430输出的相应音 频帖的计算的RTE0能量,计算各个音频帖的相对突出度。更具体来说,可W将计算的相对 突出度表示为D(m),并且起始点检测单元304可W使用诸如均方根尺度(RM巧的现有模块 测量算法,来计算相对突出度。例如,起始点检测单元304可W根据下面的方程式来计算相 对突出度:
[0067]
[0068] 其中,该方程式指示使用MS模块来测量尺度。 W例最后,如图4所示,在起始点确定步骤S450中,起始点检测单元304将相对突出度 最大的音频帖的位置确定为该音频段的起始点,并且记录相应音频帖的位置作为起始点的 位置,并记录相应音频帖的RTE0能量作为起始点的能量相关特征,其中,起始点的位置可 W表示为上述m,并且起始点的能量相关特征可W表示为上述RTEOOiO。
[0070] 应当注意,可W在图3中的起始点检测单元304中构造各个单元,来进行图4中的 流程图所示的各个步骤。例如,起始点检测单元304可W包括W下单元: 阳071] RTE0能量计算单元,被构造为计算音频段中的音频帖的RTE0能量;
[0072] 距离计算单元,被构造为基于计算的RTE0能量,计算音频帖的相对突出度;W及 阳073] 起始点确定单元,被构造为将相对突出度最大的音频帖的位置确定为起始点,并 且记录相应音频帖的位置作为起始点的位置,并记录相应音频帖的RTE0能量作为起始点 的能量相关特征。
[0074] 作为另一优选解决方案,图5示意性地示出了根据本发明的示例性实施例的检测 音频段的起始点的处理的另一流程图,其中,相应的程序存储在图2中的ROM 103和/或硬 盘104中,并且当CPU 101执行相应的程序时,在CPU 101中实现相应的程序。
[00巧]如图5所示,首先,计算音频段中的音频帖的RTE0能量的步骤(即步骤S410~ S430)与图4所示的相应的步骤相同,因此运里不重复对步骤S410~S430的详细描述。 阳076] 其次,起始点检测单元304使用现有特征变换方法,将音频帖的RTE0能量转换为 关键TE0能量。在一种实现方式中,如图5所示,在变换步骤S510中,起始点检测单元304 使用诸如主成分分析(PCA)、线性判别分析(LDA)、Relief算法等的现有特征变换方法,将 各个音频帖的RTE0能量转换为关键TE0能量。更具体来说,可W将关键TE0能量表示为 RWTEO(m),并且起始点检测单元304可W根据下面的方程式来计算关键TE0能量:
[0077] RWTE0 (m) = Transfer (RTEO) = W*RTE0 (m)
[0078] 其中,W是根据上述特征变换方法生成的预先生成的特征变换矩阵。
[0079] 第Ξ,在计算关键TE0能量之后,起始点检测单元304基于关键TE0能量,计算音 频帖的相对突出度。在一种实现方式中,如图5所示,在距离计算步骤S520中,起始点检测 单元304基于相应音频帖的关键TE0能量,计算各个音频帖的相对突出度。
[0080] 最后,如图5所示,在起始点确定步骤S530中,起始点检测单元304将相对突出度 最大的音频帖的位置确定为起始点,并且记录相应音频帖的位置作为起始点的位置,并记 录相应音频帖的关键TE0能量作为起始点的能量相关特征,其中,起始点的位置可W表示 为上述m,并且起始点的能量相关特征可W表示为上述RWTEOOiO。由于步骤S520~S530 与图4所示的步骤S440~S450类似,因此运里不重复对步骤S520~S530的详细描述。 阳081] 如上所述,应当注意,可W在图3中的起始点检测单元304中构造各个单元,来进 行图5中的流程图所示的各个步骤。例如,除了上述RTE0能量计算单元、上述距离计算单 元和上述起始点确定单元之外,起始点检测单元304还可W包括W下单元:
[0082] 变换单元,被构造为使用现有特征变换方法,将音频帖的RTE0能量转换为关键 TE0能量;并且其中,
[0083] 上述距离计算单元基于关键TE0能量,计算音频帖的相对突出度;并且上述起始 点确定单元将相对突出度最大的音频帖的位置确定为起始点,并且记录相应音频帖的位置 作为起始点的位置,并记录相应音频帖的关键TE0能量作为起始点的能量相关特征。
[0084] (起始点模型生成)
[00化]如在图3中所描述的,下面描述上述用于生成由图3中的起始点分类单元305使 用的起始点模型308的方法。
[0086] 作为优选解决方案,图6示意性地示出了根据本发明的示例性实施例的用于生成 图3所示的起始点模型308的方法的流程图,其中,可W将相应的程序存储在图2中的ROM 103和/或硬盘104中,并且当CPU 101执行相应的程序时,在CPU 101中实现相应的程序。
[0087] 如图6所示,在步骤S610中,图2所示的冲击声检测装置100的输入设备105接 收可W由用户、操作者和/或制造商输入的已录音频和与已录音频相对应的音频标签,然 后输入设备105向CPU 101提供已录音频和与已录音频相对应的音频标签。
[0088] 在步骤S620中,CPU 101首先从所获得的已录音频中提取至少一种特征。所提取 的特征可W是上述诸如1?(:、2〇?、1。〇:、谱功率、子带能量、子带能量的了60等的特征中的至 少一个。然后,CPU 101例如使用本领域技术人员熟悉的任何种类的VAD算法,基于所提取 的特征,将所获得的已录音频分割为至少一个已录音频段。
[0089] 在步骤S630中,CPU 101检测已录音频段的起始点,并且输出起始点的位置和起 始点的能量相关特征。在一种实现方式中,CPU 101检测各个已录音频段的起始点,并且输 出起始点的位置和起始点的能量相关特征。除了将音频段改变为已录音频段之外,检测一 个已录音频段的起始点的详细操作与参照上述图4~5描述的相应内容相同,因此运里不 重复对步骤S630的详细描述。如上所述,可W将起始点的位置表示为m%并且可W将起始 点的能量相关特征表示为RTEOOiO或RWTEOOiO。
[0090] 在步骤S640中,CPU 101使用诸如K均值聚类算法的现有聚类算法,基于与对应 于起始点的已录音频段相关的音频标签和起始点的能量相关特征,将从步骤S630中检测 到的起始点聚类到至少两种类型中。在聚类操作期间,起始点的至少两种类型可W是冲击 声相关类型和非冲击声相关类型。此外,如上所述,冲击声相关类型可W包括多于一个的特 定冲击声相关类型,例如枪击声相关类型、玻璃破碎声相关类型、爆炸声相关类型等。另外, 对于一个特定冲击声,起始点的位置和能量相关特征在不同的环境下是不同的,因此可W 基于起始点的属性进一步细分特定冲击声相关类型。W枪击声为例,可W将上述枪击声相 关类型进一步细分为与第一种类型的起始点相对应的第一枪击声相关类型、与第二种类型 的起始点相对应的第二枪击声相关类型等。类似地,如上所述,非冲击声相关类型也可W包 括多于一种。应当注意,只要容易将非冲击声相关类型与冲击声相关类型区分,则起始点的 类型的种类是多少不重要。
[0091] 然后,在步骤S650中,CPU 101使用诸如期望最大化(EM)算法的现有模型训练方 法,根据从步骤S630中获得的起始点的能量相关特征和从步骤S640中获得的起始点的聚 类类型,生成起始点模型。例如,生成的起始点模型可W是高斯混合模型(GMM)、隐马尔可夫 模型(HMM)、人工神经网络(ANN)模型或支持向量机(SVM)模型,起始点的能量相关特征可 W是上述RTEOOiO或RWTEOOiO,并且起始点的聚类类型可W是上述冲击声相关类型和非 冲击声相关类型。
[0092] 最后,CPU 101可W将生成的起始点模型存储在图2中的冲击声检测装置100的 ROM 103或硬盘104中。
[0093] (起始点相关声音模型生成)
[0094] 如在图3中所描述的,可W由冲击声识别单元303使用的声音模型307可W是起 始点相关声音模型。下面描述上述生成起始点相关声音模型的方法。
[0095] 作为优选解决方案,图7示意性地示出了根据本发明的示例性实施例的生成可W 由图3中的冲击声识别单元303使用的起始点相关声音模型的方法的流程图,其中,相应的 程序存储在图2中的ROM 103和/或硬盘104中,并且当CPU 101执行相应的程序时,在 CPU 101中实现相应的程序。
[0096] 如图7所示,在步骤S710中,图2所示的冲击声检测装置100的输入设备105接 收可W由用户、操作者和/或制造商输入的已录音频和与已录音频相对应的音频标签,然 后输入设备105向CPU 101提供已录音频和与已录音频相对应的音频标签。
[0097] 在步骤S720中,CPU 101首先从所获得的已录音频中提取至少一种特征。所提取 的特征可W是上述诸如1?(:、2〇?、1。〇:、谱功率、子带能量、子带能量的了60等的特征中的至 少一个。然后,CPU 101例如使用本领域技术人员熟悉的任何种类的VAD算法,基于所提取 的特征,将所获得的已录音频分割为至少一个已录音频段。 阳09引在步骤S730中,CPU 101检测已录音频段的起始点,并且输出起始点的位置和起 始点的能量相关特征。在一种实现方式中,CPU 101检测各个已录音频段的起始点,并且输 出起始点的位置和起始点的能量相关特征。除了将音频段改变为已录音频段之外,检测一 个已录音频段的起始点的详细操作与参照上述图4~5描述的相应内容相同,因此运里不 重复对步骤S730的详细描述。如上所述,可W将起始点的位置表示为m%并且可W将起始 点的能量相关特征表示为RTEOOiO或RWTEOOiO。
[0099] 在步骤S740中,CPU 101基于从步骤S730中获得的起始点的能量相关特征和根据 在图6中描述的方法生成的预先生成的起始点模型,确定起始点的至少两种类型。如上所 述,起始点的至少两种类型可W是冲击声相关类型和非冲击声相关类型,并且起始点的能 量相关特征可W是RTEOOif)或RWTEOOiO。此外,如上所述,冲击声相关类型可W包括多于 一个的特定冲击声相关类型,例如枪击声相关类型、玻璃破碎声相关类型、爆炸声相关类型 等。另外,对于一个特定冲击声,起始点的位置和能量相关特征在不同的环境下是不同的, 因此可W基于起始点的属性进一步细分特定冲击声相关类型。W枪击声为例,可W将上述 枪击声相关类型进一步细分为与第一种类型的起始点相对应的第一枪击声相关类型、与第 二种类型的起始点相对应的第二枪击声相关类型等。类似地,如上所述,非冲击声相关类型 也可W包括多于一种。应当注意,只要容易将非冲击声相关类型与冲击声相关类型区分,贝U 起始点的类型的种类是多少不重要。
[0100] 然后,在步骤S750中,CPU 101使用诸如EM算法的现有模型训练方法,根据从步骤 S720中提取的特征、从步骤S710中获得的音频标签和从步骤S740中获得的确定的起始点 的类型,生成起始点相关声音模型。例如,生成的起始点相关声音模型可W是GMM、HMM、ANN 模型或SVM模型,并且确定的起始点的类型至少可W是上述冲击声相关类型和非冲击声相 关类型。 阳101] 最后,CPU 101可朗尋生成的起始点相关声音模型存储在图2中的冲击声检测装 置100的ROM 103或硬盘104中。由于现有技术仅使用已录音频和与已录音频相对应的音 频标签的特征来生成普通声音模型,而本发明还使用已录音频段的起始点的类型,来生成 起始点相关声音模型,因此本领域中的普通声音模型是在本发明中生成的起始点相关声音 模型的特殊情况。也就是说,如果不进行基于起始点的属性进一步细分起始点的类型,则本 发明的起始点相关声音模型实际上是本领域中的普通声音模型。
[0102] 然而,如果基于起始点的属性进一步细分起始点的类型,则起始点相关声音模型 的精度比本领域中的普通声音模型更准确。如上所述,W枪击声为例,枪击声的起始点的类 型可W是与第一种类型的起始点相对应的第一枪击声相关类型和与第二种类型的起始点 相对应的第二枪击声相关类型,由此枪击声的起始点相关声音模型可W包含与第一种类型 的起始点相对应的第一枪击声模型和与第二种类型的起始点相对应的第二枪击声模型。 阳103] 如上所述,本发明的第一实施例使用起始点的分类结果,来优化冲击声识别的结 果。也就是说,图2所示的冲击声检测装置100可W通过将第一冲击声的似然度得分和所 确定的起始点的类型的似然度得分综合,来确定第二冲击声。因此,本发明的冲击声检测性 能能够得到改善。此外,如上所述,冲击声检测装置100还可W使用起始点相关声音模型, 来识别冲击声。由于在生成起始点相关声音模型时,本发明考虑使用已录音频段的起始点 的信息,例如起始点的位置和起始点的能量相关特征,因此起始点相关声音模型的精度比 本领域中的普通声音模型更准确。因此,本发明的冲击声检测性能能够进一步得到改善。 [0104](第二实施例) 阳105] 图8是例示根据本发明的第二实施例的与由冲击声检测装置100进行的冲击声检 测相关的示例性功能配置的框图。在第二实施例中,本发明使用起始点的分类结果来验证 冲击声识别的结果。当CPU 101执行存储在ROM 103和/或硬盘104中的程序时,实现下 面的功能单元。
[0106] 图8与图3相比,在图8所示的冲击声检测装置100中存在W下主要不同点: 阳107] 起始点检测单元304仅在由冲击声识别单元303识别为第一冲击声的音频段内, 检测音频段的起始点。也就是说,起始点检测单元304可W在至少一部分音频段内检测音 频段的起始点,例如在从图3所示的预处理单元302输出的所有音频段内检测音频段的起 始点,或者在由图8所示的冲击声识别单元303识别为第一冲击声的音频段内检测音频段 的起始点。
[0108] 由于对图8所示的输入设备105、音频获得单元301、预处理单元302、冲击声识别 单元303、起始点检测单元304、起始点分类单元305、冲击声确定单元306、声音模型307、起 始点模型308和输出设备106的其它详细描述与图3所示的相应单元类似,因此运里不重 复详细描述。此外,应当注意,由于起始点检测单元304仅在由冲击声识别单元303识别为 第一冲击声的音频段内检测各个音频段的起始点,因此第二实施例的计算量比第一实施例 的计算量小。 阳1〇9](第S实施例)
[0110] 图9是例示根据本发明的第Ξ实施例的与由冲击声检测装置100进行的冲击声检 测相关的示例性功能配置的框图。在第Ξ实施例中,本发明使用起始点的分类结果来选择 要在冲击声识别操作中识别的音频段,并且本发明还可W使用检测到的起始点的位置,来 优化要在冲击声识别操作中识别的音频段的起始位置。当CPU 101执行存储在ROM 103和 /或硬盘104中的程序时,实现下面的功能单元。 阳111] 图9与图3相比,在图9所示的冲击声检测装置100中存在两个主要不同点:
[0112] 第一,冲击声检测装置100还包括用来优化冲击声识别单元303的音频输入的音 频段优化单元901。稍后将描述对音频段优化单元901的详细描述。 阳113] 第二,冲击声检测装置100不包括图3所示的冲击声确定单元306。输出设备106 接收由冲击声识别单元303识别的冲击声,并且可W向警报装置输出冲击声,例如经由网 络(未示出)向PC型设备12输出冲击声,或者向图1所示的警报设备13输出冲击声。
[0114] 现在,下面描述对音频段优化单元901的详细描述。
[0115] 在一种实现方式中,音频段优化单元901包括如图9所示的第一音频段优化单元, 第一音频段优化单元可W选择从预处理单元302输出的、由起始点分类单元305确定的起 始点的类型是冲击声相关类型的音频段。然后,冲击声识别单元303基于预先生成的声音 模型307和提取的与所选择的音频段相对应的特征,从由第一音频段优化单元选择的音频 段中,识别冲击声(即第一冲击声)。应当注意,在运种实现方式中,由于冲击声识别单元 303仅从由第一音频段优化单元选择的音频段中识别冲击声,因此第Ξ实施例的计算量比 第一实施例的计算量小。
[0116] 在另一种实现方式中,除了上述第一音频段优化单元之外,音频段优化单元901 还可W包括如图9所示的第二音频段优化单元,第二音频段优化单元可W将由第一音频段 优化单元选择的音频段的起始位置,重置为所选择的从起始点检测单元304输出的音频段 的起始点的位置。
[0117] 然后,冲击声识别单元303基于预先生成的声音模型307和所提取的与起始位置 被重置的音频段相对应的特征,从起始位置被第二音频段优化单元重置的音频段中,识别 冲击声(即第一冲击声)。应当注意,在运种实现方式中,由于冲击声识别单元303仅从由 第一音频段优化单元选择并且起始位置基于所选择的音频段的起始点的位置被重置的音 频段中,识别冲击声,因此第Ξ实施例的计算量比第一实施例的计算量小,并且第Ξ实施例 的冲击声检测性能比第一实施例的冲击声检测性能更准确。
[0118] 对于本领域技术人员显而易见的是,第一音频段优化单元和第二音频段优化单元 可W单独构成,如图9所示,或者第一音频段优化单元和第二音频段优化单元可W作为一 个单元构成,只要其能够实现上述功能或者能够获得上述效果即可。另外,由于对图9所示 的输入设备105、音频获得单元301、预处理单元302、冲击声识别单元303、起始点检测单元 304、起始点分类单元305、声音模型307、起始点模型308和输出设备106的其它详细描述 与图3所示的相应单元类似,因此运里不重复详细描述。
[0119] (第四实施例)
[0120] 图10是例示根据本发明的第四实施例的与由冲击声检测装置100进行的冲击声 检测相关的示例性功能配置的框图。在第四实施例中,除了使用起始点的分类结果来选择 要在冲击声识别操作中识别的音频段,并且还使用检测到的起始点的位置来验证要在冲击 声识别操作中识别的音频段的起始位置之外,本发明还可W使用起始点的分类结果,来优 化冲击声识别的结果。当CPU 101执行存储在ROM 103和/或硬盘104中的程序时,实现 下面的功能单元。 阳121] 图10与图9相比,在图10所示的冲击声检测装置100中仅存在一个不同点,也就 是说,冲击声检测装置100还包括冲击声确定单元306,冲击声确定单元306可W通过将由 冲击声识别单元303计算的第一冲击声的似然度得分,与由起始点分类单元305计算的确 定的起始点的类型的似然度得分综合,来确定冲击声(即第二冲击声)。由于对图10所示 的冲击声确定单元306的详细描述,与图3所示的冲击声确定单元306类似,因此运里不重 复其详细描述。 阳122](第五实施例)
[0123] 如上所述,冲击声检测装置100可W使用起始点相关声音模型来识别冲击声,并 且相应的效果是使用精度比本领域中的普通声音模型更准确的起始点相关声音模型,能够 改善冲击声检测性能。因此,作为起始点相关声音模型的简单应用,图11示出了例示根据 本发明的第五实施例的与由冲击声检测装置100进行的冲击声检测相关的示例性功能配 置的框图。当CPU 101执行存储在ROM 103和/或硬盘104中的程序时,实现下面的功能 单元。 阳124] 如图11所示,输入设备105可W接收例如从图1所示的音频传感器11输出的音 频数据。
[01巧]音频获得单元301获得来自输入设备105的音频输入。
[01%] 预处理单元302首先从所获得的从音频获得单元301输出的音频中,提取至少一 种特征。所提取的特征可W是W下本领域技术人员已知的特征中的至少一个:例如LPC、 ZCR、MFCC、谱功率、子带能量、子带能量的TE0等。然后,预处理单元302例如使用本领域技 术人员熟悉的任意种类的VAD算法,基于所提取的特征,将所获得的音频分割为至少一个 音频段。作为另选方案,也可W在两个单独的单元中执行上述提取操作和分割操作。
[0127] 冲击声识别单元303从预处理单元302接收音频段和提取的特征,并且基于预先 生成的起始点相关声音模型1104和与音频段相对应的提取的特征,从音频段中识别冲击 声,其中,起始点相关声音模型1104由用户、操作者和/或制造商根据参照图7详细描述的 方法预先生成或训练,并且可W将其存储在图2中的冲击声检测装置100的ROM 103或硬 盘104中。
[0128] 最后,输出设备106接收由冲击声识别单元303识别的冲击声,并且向警报装置输 出冲击声,例如经由网络(未示出)向PC型设备12或者向图1所示的警报设备13输出冲 击声。
[0129] (冲击声检测方法) 阳130] 应当注意,图3和图8~11所示的冲击声检测装置100的各个单元可W被构造为 进行将在图12~13所示的流程图中描述的冲击声检测方法的各个步骤。 阳131] 图12示意性地示出了根据本发明的实施例的冲击声检测方法的流程图,相应的 程序存储在图2中的ROM 103和/或硬盘104中。当CPU 101将存储在ROM 103和/或硬 盘104中的相应的程序加载到RAM 102中,并且执行相应的程序时,实现下面的各个步骤的 操作。 阳132] 如图12所示,在音频获得步骤S1210中,图2所示的冲击声检测装置100的CPU 101获得来自冲击声检测装置100的输入设备105的音频输入(对应于图3中的音频获得 单元301)。
[0133] 在预处理步骤S1220中,CPU 101首先从自音频获得步骤S1210中输出的获得的 音频中提取至少一种特征。所提取的特征可W是W下本领域技术人员已知的特征中的至少 一个:例如1?(:、20?、1。0:、谱功率、子带能量、子带能量的了60等。然后,〔?1]101例如使用 本领域技术人员熟悉的任意种类的VAD算法,基于提取的特征,将获得的音频分割为至少 一个音频段(对应于图3中的预处理单元302)。
[0134] 在冲击声识别步骤S1230中,CPU 101基于预先生成的声音模型和与音频段相对 应的提取的特征,从音频段中识别冲击声(即第一冲击声)(对应于图3中的冲击声识别单 元303)。作为优选的可选解决方案,预先生成的声音模型可W是根据参照图7详细描述的 方法生成的起始点相关声音模型。
[0135] 然后,CPU 101在至少一部分音频段内检测音频段的起始点,并且输出起始点的位 置和起始点的能量相关特征(对应于图3中的起始点检测单元304)。检测音频段的起始点 的详细处理可W参照图4~5。 阳136] 在一种实现方式中,如图12所示,在起始点检测步骤S1240中,CPU101可W在从 预处理步骤S1220中输出的所有音频段内,检测音频段的起始点(对应于图3所示的第一 实施例)。 阳137] 在另一种实现方式中,在起始点检测步骤(在图12中未示出)中,CPU 101可W 在冲击声识别步骤S1230中被识别为第一冲击声的音频段内,检测音频段的起始点(对应 于图8所示的第二实施例)。
[013引然后,如图12所示,在起始点分类步骤S1250中,CPU 101基于预先生成的起始点 模型和起始点的能量相关特征,确定起始点的至少两种类型(对应于图3所示的起始点分 类单元305)。作为优选解决方案,预先生成的起始点模型可W根据参照图6详细描述的方 法生成。 阳139] 最后,在冲击声确定步骤S1260中,CPU 101基于从冲击声识别步骤S1230中输出 的识别的冲击声和从起始点分类步骤S1250中输出的确定的起始点的类型,从音频段中确 定冲击声(即第二冲击声)(对应于图3所示的冲击声确定单元306)。
[0140] 在一种实现方式中,在冲击声确定步骤S1260中,CPU 101可W通过将从冲击声识 别步骤S1230中输出的第一冲击声的似然度得分和从起始点分类步骤S1250中输出的确定 的起始点的类型的似然度得分综合,来确定第二冲击声(对应于图3所示的第一实施例)。 阳141] 在另一种实现方式中,在冲击声确定步骤S1260中,当在冲击声识别步骤S1230中 被识别为第一冲击声的音频段的起始点的类型是冲击声相关类型时,CPU 101将相应的第 一冲击声确定为第二冲击声(对应于图8所示的第二实施例)。 阳142] 作为优选解决方案,图12所示的冲击声检测方法还包括第一音频段优化步骤(未 示出)。在第一音频段优化步骤中,CPU 101选择从预处理步骤S1220中输出的、在起始点 分类步骤S1250中确定的起始点的类型是冲击声相关类型的音频段。并且在冲击声识别步 骤S1230中,CPU 101基于预先生成的声音模型和与所选择的音频段相对应的提取的特征, 从在第一音频段优化步骤中选择的音频段中,识别冲击声(即第一冲击声)(对应于图10 所示的第四实施例)。 阳143] 作为另一优选解决方案,除了上述第一音频段优化步骤之外,图12所示的冲击声 检测方法还可W包括第二音频段优化步骤(未示出)。在第二音频段优化步骤中,CPU 101 基于所选择的音频段的起始点的位置,重置在第一音频段优化步骤中选择的音频段的起始 位置。并且在冲击声识别步骤S1230中,CPU 101基于预先生成的声音模型和与重置了起 始位置的音频段相对应的提取的特征,从在第二音频段优化步骤中重置了起始位置的音频 段中,识别冲击声(即第一冲击声)(对应于图10所示的第四实施例)。
[0144]图13示意性地示出了根据本发明的实施例的冲击声检测方法的另一流程图,其 中,相应的程序存储在图2中的ROM 103和/或硬盘104中。当CPU 101将存储在ROM 103 和/或硬盘104中的相应的程序加载到RAM 102中,并且执行相应的程序时,实现下面的各 个步骤的操作。 阳145] 如图13所示,在音频获得步骤S1310中,图2所示的冲击声检测装置100的CPU 101获得来自冲击声检测装置100的输入设备105的音频输入(对应于图9中的音频获得 单元301)。 阳146] 在预处理步骤S1320中,CPU 101首先从自音频获得步骤S1210中输出的获得的 音频中提取至少一种特征。所提取的特征可W是W下本领域技术人员已知的特征中的至少 一个:例如1?(:、20?、1。0:、谱功率、子带能量、子带能量的了60等。然后,〔?1]101例如使用 本领域技术人员熟悉的任意种类的VAD算法,基于提取的特征,将获得的音频分割为至少 一个音频段(对应于图9中的预处理单元302)。 阳147] 在起始点检测步骤S1330中,CPU 101在从预处理步骤S1320中输出的所有音频 段内,检测音频段的起始点,并且输出起始点的位置和起始点的能量相关特征(对应于图9 中的起始点检测单元304)。检测音频段的起始点的详细处理可W参照图4~5。
[0148] 在起始点分类步骤S1340中,CPU 101基于预先生成的起始点模型和起始点的能 量相关特征,确定起始点的至少两种类型(对应于图9所示的起始点分类单元305)。作为 优选解决方案,预先生成的起始点模型可W根据参照图6详细描述的方法生成。
[0149] 在第一音频段优化步骤S1350中,CPU 101选择从预处理步骤S1320中输出的、在 起始点分类步骤S1340中确定的起始点的类型是冲击声相关类型的音频段(对应于图9所 示的音频段优化单元901)。 阳150] 最后,在冲击声识别步骤S1360中,CPU 101基于预先生成的声音模型和与所选择 的音频段相对应的提取的特征,从在第一音频段优化步骤S1350中选择的音频段中,识别 冲击声(即第一冲击声)(对应于图9所示的冲击声识别单元303)。 阳151] 作为优选解决方案,图13所示的冲击声检测方法还可W包括第二音频段优化步 骤(未示出)。在第二音频段优化步骤中,CPU 101基于所选择的音频段的起始点的位置, 重置在第一音频段优化步骤S1350中选择的音频段的起始位置。并且在冲击声识别步骤 S1360中,CPU 101基于预先生成的声音模型和与重置了起始位置的音频段相对应的提取 的特征,从在第二音频段优化步骤中重置了起始位置的音频段中,识别冲击声(即第一冲 击声)(对应于图9所示的冲击声识别单元303)。 阳152] 利用上面描述的示例性冲击声检测装置和冲击声检测方法,在检测冲击声时,除 了使用从上述预处理操作中获得的音频段的特征之外,本发明还考虑使用音频段的起始点 的信息,例如起始点的位置和起始点的能量相关特征;其中,起始点的能量相关特征可W是 相对TEO能量和/或关键TEO能量。在本发明中,将起始点视为相应的音频段中的能量变 化最大的点,其可W提供不同冲击声的特有信息,例如对于不同的冲击声来说,在初始音频 帖中快速增大的冲击声的能量的不同的增大模式。因此,使用起始点的信息能够改善冲击 声检测性能。 阳153] 上面描述的所有单元是示例性的,和/或是用于实现在本公开中描述的处理的优 选模块。运些单元可W是硬件单元(例如现场可编程口阵列(FPGA)、数字信号处理器、专用 集成电路等)和/或软件模块(例如计算机可读程序)。上面没有穷尽地描述用于实现各 个步骤的单元。然而,在存在进行特定处理的步骤的情况下,可能存在用于实现相同的处理 的相应的功能模块或单元(用硬件和/或软件实现)。只要所描述的步骤和与运些步骤相 对应的单元的所有组合的技术方案是完整的并且是可应用的,则它们构成的技术方案都包 含在本申请的公开中。
[0154] 能够W许多方式来实现本发明的方法和装置。例如,能够通过软件、硬件、固件或 其任意组合来实现本发明的方法和装置。上面描述的方法的步骤的顺序仅旨在是说明性 的,除非另外具体指出,否则本发明的方法的步骤不局限于上面具体描述的顺序。此外,在 一些实施例中,本发明还可W作为用于实现根据本发明的方法的、包括机器可读指令的记 录在记录介质中的程序来实施。因此,本发明还覆盖存储用于实现根据本发明的方法的程 序的记录介质。
[0K5] 虽然通过示例详细阐述了本发明的一些具体实施例,但是本领域技术人员应当理 解,上面的示例仅旨在是说明性的,而不限制本发明的范围。本领域技术人员应当理解,可 W对上面的实施例进行变型,而不脱离本发明的范围和精神。本发明的范围由所附权利要 求限定。
【主权项】
1. 一种冲击声检测装置,其包括: 首频获得单7Π ,被构造为获得首频输入; 预处理单元,被构造为从所获得的音频中提取至少一种特征,并且基于所提取的特征, 将所获得的音频分割为至少一个音频段; 冲击声识别单元,被构造为基于预先生成的声音模型和与所述音频段相对应的所提取 的特征,从所述音频段中识别第一冲击声; 起始点检测单元,被构造为在至少一部分所述音频段内检测音频段的起始点,并且输 出所述起始点的位置和所述起始点的能量相关特征; 起始点分类单元,被构造为基于预先生成的起始点模型和所述起始点的所述能量相关 特征,确定所述起始点的至少两种类型;以及 冲击声确定单元,被构造为基于从所述冲击声识别单元输出的所述第一冲击声和从所 述起始点分类单元输出的所确定的所述起始点的类型,从所述音频段中确定第二冲击声。2. 根据权利要求1所述的冲击声检测装置,其中,所述起始点检测单元在从所述预处 理单元输出的所有音频段内检测音频段的起始点。3. 根据权利要求1所述的冲击声检测装置,其中,所述起始点检测单元在被所述冲击 声识别单元识别为所述第一冲击声的音频段内检测音频段的起始点。4. 根据权利要求1至3中任一项所述的冲击声检测装置,其中,所述起始点检测单元包 括: 相对Teager能量算子能量计算单元,被构造为计算所述音频段中的音频帧的相对 Teager能量算子能量; 距离计算单元,被构造为基于所计算的相对Teager能量算子能量,计算所述音频帧的 相对突出度;以及 起始点确定单元,被构造为将相对突出度最大的音频帧的位置确定为起始点,并且记 录相应音频帧的位置作为所述起始点的位置,并记录相应音频帧的相对Teager能量算子 能量作为所述起始点的所述能量相关特征。5. 根据权利要求4所述的冲击声检测装置,其中,所述起始点检测单元还包括: 变换单元,被构造为使用特征变换方法,将所述音频帧的所述相对Teager能量算子能 量转换为关键Teager能量算子能量;并且其中, 所述距离计算单元基于所述关键Teager能量算子能量,计算所述音频帧的所述相对 突出度;并且 所述起始点确定单元将相对突出度最大的音频帧的位置确定为起始点,并且记录相应 音频帧的位置作为所述起始点的位置,并记录相应音频帧的关键Teager能量算子能量作 为所述起始点的所述能量相关特征。6. 根据权利要求2所述的冲击声检测装置,所述冲击声检测装置还包括: 第一音频段优化单元,被构造为选择从所述预处理单元输出的、由所述起始点分类单 元确定的起始点的类型是冲击声相关类型的音频段;并且其中, 所述冲击声识别单元基于所述预先生成的声音模型和与所选择的音频段相对应的所 提取的特征,从由所述第一音频段优化单元选择的所述音频段中,识别所述第一冲击声。7. 根据权利要求6所述的冲击声检测装置,所述冲击声检测装置还包括: 第二音频段优化单元,被构造为将由所述第一音频段优化单元选择的所述音频段的起 始位置,重置为所选择的音频段的起始点的位置;并且其中, 所述冲击声识别单元基于所述预先生成的声音模型和与起始位置被重置的所述音频 段相对应的所提取的特征,从起始位置被所述第二音频段优化单元重置的音频段中,识别 所述第一冲击声。8. 根据权利要求1所述的冲击声检测装置,其中,所述冲击声确定单元通过将从所述 冲击声识别单元输出的所述第一冲击声的似然度得分与从所述起始点分类单元输出的所 确定的起始点的类型的似然度得分综合,来确定所述第二冲击声。9. 根据权利要求1所述的冲击声检测装置,其中,由所述冲击声识别单元使用的所述 预先生成的声音模型是起始点相关声音模型,并且所述起始点相关声音模型通过如下步骤 生成: 获得已录音频和与所述已录音频相对应的音频标签; 从所述已录音频中提取至少一种特征,并且基于所提取的特征,将所述已录音频分割 为至少一个已录音频段; 检测所述已录音频段的起始点,并且输出所述起始点的位置和所述起始点的能量相关 特征; 基于所述预先生成的起始点模型和所述起始点的所述能量相关特征,确定所述起始点 的至少两种类型;以及 根据所提取的特征、所获得的音频标签和所确定的所述起始点的类型,生成所述起始 点相关声音模型。10. 根据权利要求1或9所述的冲击声检测装置,其中,所述预先生成的起始点模型通 过如下步骤生成: 获得已录音频和与所述已录音频相对应的音频标签; 从所述已录音频中提取至少一种特征,并且基于所提取的特征,将所述已录音频分割 为至少一个已录音频段; 检测所述已录音频段的起始点,并且输出所述起始点的位置和所述起始点的能量相关 特征; 基于与对应于所述起始点的所述已录音频段相关的所述音频标签和所述起始点的所 述能量相关特征,将所述起始点聚类到至少两种类型中;以及 根据所述起始点的所述能量相关特征和所聚类的所述起始点的类型,生成所述起始点 模型。11. 根据权利要求10所述的冲击声检测装置,其中,检测一个已录音频段的起始点的 步骤包括: 相对Teager能量算子能量计算步骤,计算所述已录音频段中的已录音频帧的相对 Teager能量算子能量; 距离计算步骤,基于所计算的相对Teager能量算子能量,计算所述已录音频帧的相对 突出度;以及 起始点确定步骤,将相对突出度最大的已录音频帧的位置确定为起始点,并且记录相 应已录音频帧的位置作为所述起始点的位置,并记录相应已录音频帧的相对Teager能量 算子能量作为所述起始点的所述能量相关特征。12. 根据权利要求11所述的冲击声检测装置,其中,检测一个已录音频段的起始点的 所述步骤还包括: 变换步骤,使用特征变换方法,将所述已录音频帧的所述相对Teager能量算子能量转 换为关键Teager能量算子能量;并且其中, 所述距离计算步骤基于所述关键Teager能量算子能量,计算所述已录音频帧的所述 相对突出度;并且 所述起始点确定步骤将相对突出度最大的已录音频帧的位置确定为起始点,并且记录 相应已录音频帧的位置作为所述起始点的位置,并记录相应已录音频帧的关键Teager能 量算子能量作为所述起始点的所述能量相关特征。13. -种冲击声检测装置,其包括: 首频获得单7Π ,被构造为获得首频输入; 预处理单元,被构造为从所获得的音频中提取至少一种特征,并且基于所提取的特征, 将所获得的音频分割为至少一个音频段; 起始点检测单元,被构造为检测所述音频段的起始点,并且输出所述起始点的位置和 所述起始点的能量相关特征; 起始点分类单元,被构造为基于预先生成的起始点模型和所述起始点的所述能量相关 特征,确定所述起始点的至少两种类型; 第一音频段优化单元,被构造为选择从所述预处理单元输出的、由所述起始点分类单 元确定的起始点的类型是冲击声相关类型的音频段;以及 冲击声识别单元,被构造为基于预先生成的声音模型和与所选择的音频段相对应的所 提取的特征,从由所述第一音频段优化单元选择的所述音频段中,识别冲击声。14. 根据权利要求13所述的冲击声检测装置,所述冲击声检测装置还包括: 第二音频段优化单元,被构造为将由所述第一音频段优化单元选择的所述音频段的起 始位置,重置为所选择的音频段的起始点的位置;并且其中, 所述冲击声识别单元基于所述预先生成的声音模型和与起始位置被重置的所述音频 段相对应的所提取的特征,从起始位置被所述第二音频段优化单元重置的音频段中,识别 所述冲击声。15. 根据权利要求13或14所述的冲击声检测装置,其中,所述起始点检测单元包括: 相对Teager能量算子能量计算单元,被构造为计算所述音频段中的音频帧的相对 Teager能量算子能量; 距离计算单元,被构造为基于所计算的相对Teager能量算子能量,计算所述音频帧的 相对突出度;以及 起始点确定单元,被构造为将相对突出度最大的音频帧的位置确定为起始点,并且记 录相应音频帧的位置作为所述起始点的位置,并记录相应音频帧的相对Teager能量算子 能量作为所述起始点的所述能量相关特征。16. 根据权利要求15所述的冲击声检测装置,其中,所述起始点检测单元还包括: 变换单元,被构造为使用特征变换方法,将所述音频帧的所述相对Teager能量算子能 量转换为关键Teager能量算子能量;并且其中, 所述距离计算单元基于所述关键Teager能量算子能量,计算所述音频帧的所述相对 突出度;并且 所述起始点确定单元将相对突出度最大的音频帧的位置确定为起始点,并且记录相应 音频帧的位置作为所述起始点的位置,并记录相应音频帧的关键Teager能量算子能量作 为所述起始点的所述能量相关特征。17. 根据权利要求13或14所述的冲击声检测装置,其中,由所述冲击声识别单元使用 的所述预先生成的声音模型是起始点相关声音模型,并且所述起始点相关声音模型通过如 下步骤生成: 获得已录音频和与所述已录音频相对应的音频标签; 从所述已录音频中提取至少一种特征,并且基于所提取的特征,将所述已录音频分割 为至少一个已录音频段; 检测所述已录音频段的起始点,并且输出所述起始点的位置和所述起始点的能量相关 特征; 基于所述预先生成的起始点模型和所述起始点的所述能量相关特征,确定所述起始点 的至少两种类型;以及 根据所提取的特征、所获得的音频标签和所确定的所述起始点的类型,生成所述起始 点相关声音模型。18. 根据权利要求13或14所述的冲击声检测装置,其中,所述预先生成的起始点模型 通过如下步骤生成: 获得已录音频和与所述已录音频相对应的音频标签; 从所述已录音频中提取至少一种特征,并且基于所提取的特征,将所述已录音频分割 为至少一个已录音频段; 检测所述已录音频段的起始点,并且输出所述起始点的位置和所述起始点的能量相关 特征; 基于与对应于所述起始点的所述已录音频段相关的所述音频标签和所述起始点的所 述能量相关特征,将所述起始点聚类到至少两种类型中;以及 根据所述起始点的所述能量相关特征和所聚类的所述起始点的类型,生成所述起始点 模型。19. 根据权利要求18所述的冲击声检测装置,其中,检测一个已录音频段的起始点的 步骤包括: 相对Teager能量算子能量计算步骤,计算所述已录音频段中的已录音频帧的相对 Teager能量算子能量; 距离计算步骤,基于所计算的相对Teager能量算子能量,计算所述已录音频帧的相对 突出度;以及 起始点确定步骤,将相对突出度最大的已录音频帧的位置确定为起始点,并且记录相 应已录音频帧的位置作为所述起始点的位置,并记录相应已录音频帧的相对Teager能量 算子能量作为所述起始点的所述能量相关特征。20. 根据权利要求19所述的冲击声检测装置,其中,检测一个已录音频段的起始点的 所述步骤还包括: 变换步骤,使用特征变换方法,将所述已录音频帧的所述相对Teager能量算子能量转 换为关键Teager能量算子能量;并且其中, 所述距离计算步骤基于所述关键Teager能量算子能量,计算所述已录音频帧的所述 相对突出度;并且 所述起始点确定步骤将相对突出度最大的已录音频帧的位置确定为起始点,并且记录 相应已录音频帧的位置作为所述起始点的位置,并记录相应已录音频帧的关键Teager能 量算子能量作为所述起始点的所述能量相关特征。21. -种声音模型生成方法,其包括: 获得已录音频和与所述已录音频相对应的音频标签; 从所述已录音频中提取至少一种特征,并且基于所提取的特征,将所述已录音频分割 为至少一个已录音频段; 检测所述已录音频段的起始点,并且输出所述起始点的位置和所述起始点的能量相关 特征; 基于预先生成的起始点模型和所述起始点的所述能量相关特征,确定所述起始点的至 少两种类型;并且 根据所提取的特征、所获得的音频标签和所确定的所述起始点的类型,生成起始点相 关声音模型。22. 根据权利要求21所述的声音模型生成方法,其中,检测一个已录音频段的起始点 的步骤包括: 相对Teager能量算子能量计算步骤,计算所述已录音频段中的已录音频帧的相对 Teager能量算子能量; 距离计算步骤,基于所计算的相对Teager能量算子能量,计算所述已录音频帧的相对 突出度;以及 起始点确定步骤,将相对突出度最大的已录音频帧的位置确定为起始点,并且记录相 应已录音频帧的位置作为所述起始点的位置,并记录相应已录音频帧的相对Teager能量 算子能量作为所述起始点的所述能量相关特征。23. 根据权利要求22所述的声音模型生成方法,其中,检测一个已录音频段的起始点 的所述步骤还包括: 变换步骤,使用特征变换方法,将所述已录音频帧的所述相对Teager能量算子能量转 换为关键Teager能量算子能量;并且其中, 所述距离计算步骤基于所述关键Teager能量算子能量,计算所述已录音频帧的所述 相对突出度;并且 所述起始点确定步骤将相对突出度最大的已录音频帧的位置确定为起始点,并且记录 相应已录音频帧的位置作为所述起始点的位置,并记录相应已录音频帧的关键Teager能 量算子能量作为所述起始点的所述能量相关特征。24. -种冲击声检测装置,其包括: 首频获得单7Π ,被构造为获得首频输入; 预处理单元,被构造为从所获得的音频中提取至少一种特征,并且基于所提取的特征, 将所获得的音频分割为至少一个音频段;以及 冲击声识别单元,被构造为基于根据权利要求21至23中任一项生成的声音模型和与 所述音频段相对应的所提取的特征,从所述音频段中识别冲击声。25. -种冲击声检测方法,其包括: 音频获得步骤,获得音频输入; 预处理步骤,从所获得的音频中提取至少一种特征,并且基于所提取的特征,将所获得 的音频分割为至少一个音频段; 冲击声识别步骤,基于预先生成的声音模型和与所述音频段相对应的所提取的特征, 从所述音频段中识别第一冲击声; 起始点检测步骤,在至少一部分所述音频段内检测音频段的起始点,并且输出所述起 始点的位置和所述起始点的能量相关特征; 起始点分类步骤,基于预先生成的起始点模型和所述起始点的所述能量相关特征,确 定所述起始点的至少两种类型;以及 冲击声确定步骤,基于从所述冲击声识别步骤输出的所述第一冲击声和从所述起始点 分类步骤输出的所确定的所述起始点的类型,从所述音频段中确定第二冲击声。26. 根据权利要求25所述的冲击声检测方法,其中,所述起始点检测步骤在从所述预 处理步骤输出的所有音频段内检测音频段的起始点。27. 根据权利要求25所述的冲击声检测方法,其中,所述起始点检测步骤在所述冲击 声识别步骤中识别为所述第一冲击声的音频段内检测音频段的起始点。28. 根据权利要求26所述的冲击声检测方法,所述冲击声检测方法还包括: 第一音频段优化步骤,选择从所述预处理步骤输出的、在所述起始点分类步骤中确定 的起始点的类型是冲击声相关类型的音频段;并且其中, 所述冲击声识别步骤基于所述预先生成的声音模型和与所选择的音频段相对应的所 提取的特征,从在所述第一音频段优化步骤中选择的所述音频段中,识别所述第一冲击声。29. 根据权利要求28所述的冲击声检测方法,所述冲击声检测方法还包括: 第二音频段优化步骤,将在所述第一音频段优化步骤中选择的所述音频段的起始位 置,重置为所选择的音频段的起始点的位置;并且其中, 所述冲击声识别步骤基于所述预先生成的声音模型和与起始位置被重置的所述音频 段相对应的所提取的特征,从起始位置在所述第二音频段优化步骤中重置的音频段中,识 别所述第一冲击声。30. 根据权利要求25所述的冲击声检测方法,其中,所述冲击声确定步骤通过将从所 述冲击声识别步骤输出的所述第一冲击声的似然度得分与从所述起始点分类步骤输出的 所确定的起始点的类型的似然度得分综合,来确定所述第二冲击声。31. -种冲击声检测方法,其包括: 音频获得步骤,获得音频输入; 预处理步骤,从所获得的音频中提取至少一种特征,并且基于所提取的特征,将所获得 的音频分割为至少一个音频段; 起始点检测步骤,检测所述音频段的起始点,并且输出所述起始点的位置和所述起始 点的能量相关特征; 起始点分类步骤,基于预先生成的起始点模型和所述起始点的所述能量相关特征,确 定所述起始点的至少两种类型; 第一音频段优化步骤,选择从所述预处理步骤输出的、在所述起始点分类步骤中确定 的起始点的类型是冲击声相关类型的音频段;以及 冲击声识别步骤,基于所述预先生成的声音模型和与所选择的音频段相对应的所提取 的特征,从在所述第一音频段优化步骤中选择的所述音频段中,识别冲击声。32.根据权利要求31所述的冲击声检测方法,所述冲击声检测方法还包括: 第二音频段优化步骤,将在所述第一音频段优化步骤中选择的所述音频段的起始位 置,重置为所选择的音频段的起始点的位置;并且其中, 所述冲击声识别步骤基于所述预先生成的声音模型和与起始位置被重置的所述音频 段相对应的所提取的特征,从起始位置在所述第二音频段优化步骤中重置的音频段中,识 别所述冲击声。
【文档编号】G10L25/78GK105989854SQ201510090001
【公开日】2016年10月5日
【申请日】2015年2月27日
【发明人】胡伟湘
【申请人】佳能株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1