音频信号处理装置和方法以及监控系统的制作方法

文档序号:2826126阅读:275来源:国知局
音频信号处理装置和方法以及监控系统的制作方法
【专利摘要】本发明公开一种音频信号处理装置和方法以及监控系统。所述音频信号处理装置包括:分窗单元,用于利用滑动窗顺次读取输入的音频信号;能量计算单元,用于计算每一窗中的音频信号的每一帧的能量;分段单元,用于根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段,使得每个段中包括能量接近的连续帧;分类单元,用于利用至少一个声音模型对每个段中的音频信号进行分类;以及识别单元,用于根据分类单元的分类结果来识别每个段中的音频信号的声音类别。
【专利说明】音频信号处理装置和方法以及监控系统

【技术领域】
[0001] 本发明总体上涉及音频处理领域,更具体而言,本发明涉及一种音频信号处理装 置和方法以及一种监控系统。

【背景技术】
[0002] 对音频信号进行处理以准确地识别音频信号中的声音类别,从而提取出特定的音 频事件,是音频处理领域的一个重要议题。将音频信号划分为连续的片段是音频信号识别 的基础。音频信号分段的效果直接影响音频信号识别的精度。如何改进音频信号分段技术 以提高分段的准确性、避免虚假分割点过多、运算量大、误检率与漏检率高等问题成为目前 本领域研究的重要方面。


【发明内容】

[0003] 在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本 理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的 关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概 念,以此作为稍后论述的更详细描述的前序。
[0004] 本发明的目的是提供一种音频信号处理装置和方法以及一种监控系统,以便克服 现有技术的上述问题中的至少一个。
[0005] 根据本发明的一个方面,提供了一种音频信号处理装置,包括:分窗单元,用于利 用滑动窗顺次读取输入的音频信号;能量计算单元,用于计算每一窗中的音频信号的每一 中贞的能量;分段单兀,用于根据每一窗中的音频信号的每一巾贞的能量的分布将所述窗中的 音频信号划分为多个段,使得每个段中包括能量接近的连续帧;分类单元,用于利用至少一 个声音模型对每个段中的音频信号进行分类;以及识别单元,用于根据分类单元的分类结 果来识别每个段中的音频信号的声音类别。
[0006] 根据本发明的另一方面,提供了一种音频信号处理方法,包括:利用滑动窗顺次读 取输入的音频信号;计算每一窗中的音频信号的每一帧的能量;根据每一窗中的音频信号 的每一帧的能量的分布将所述窗中的音频信号划分为多个段,使得每个段中包括能量接近 的连续帧;利用至少一个声音模型对每个段中的音频信号进行分类;以及根据分类结果来 识别每个段中的音频信号的声音类别。
[0007] 根据本发明的又一方面,提供了一种监控系统,包括:音频采集装置,用于采集音 频信号;音频信号处理装置,用于对所述音频信号进行处理,以识别所述音频信所包含的声 音类别;以及报警装置,用于当音频信号处理装置识别到所述音频信号中包含预定类型的 声音类别时,产生并发送报警信息,其中,所述音频信号处理装置是根据本发明的以上方面 的音频信号处理装置。
[0008] 在本发明的上述方面的音频信号处理装置和方法以及监控系统中,根据每一窗中 的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段,使得每个段中包 括能量接近的连续帧,并对每个段中的音频信号进行分类。这样,可以对音频信号快速地进 行前端分割,不需要提前训练分割用的声学模型,并且由于每个段中包括能量接近的连续 帧,使得每个段中包含的声音类别相对单一,从而有助于提高后续音频信号识别的准确率。

【专利附图】

【附图说明】
[0009] 本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所 有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的 详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本 发明的优选实施例和解释本发明的原理和优点。在附图中:
[0010] 图1示出根据本发明的一个实施例的音频信号处理装置的示意性框图;
[0011] 图2示出图1所示的音频信号处理装置的示意性工作流程图;
[0012] 图3示出根据本发明的一个实施例的分段单元的示意性框图;
[0013] 图4示出图3所示的分段单元的示意性工作流程图;
[0014] 图5示出根据本发明的一个实施例的分段处理示例的示意性流程图;
[0015] 图6示出根据本发明的另一个实施例的分段单元的示意性框图;
[0016] 图7示出根据本发明的另一个实施例的音频信号处理装置的示意性框图;
[0017] 图8示出图7所示的音频信号处理装置的示意性工作流程图;
[0018] 图9示出根据本发明的又一实施例的音频信号处理装置的示意性框图;
[0019] 图10示出图9所示的音频信号处理装置的示意性工作流程图;
[0020] 图11示出根据本发明的一个实施例的监控系统的示意性框图;以及
[0021] 图12示出可以实现本发明的实施例/示例的计算机的结构的示例性框图。

【具体实施方式】
[0022] 下面将参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中 描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。 应当注意,为了清楚的目的,附图和说明中省略了与本发明无关的、本领域普通技术人员已 知的部件和处理的表示和描述。
[0023] 图1示出根据本发明的一个实施例的音频信号处理装置的示意性框图。如图1所 示,音频信号处理装置1〇〇包括分窗单元110、能量计算单元120、分段单元130、分类单元 140和识别单元150。以下结合图2来描述音频信号处理装置100的示意性工作流程图。
[0024] 图2示出图1所示的音频信号处理装置100的示意性工作流程图,即根据本发明 的一个实施例的音频信号处理方法。如图2所示,在方法P200中,在步骤S210中,利用滑 动窗顺次读取输入的音频信号。每一窗信号作为后续的分段、分类和识别等操作的一个处 理单元,依次处理每一窗音频信号。在步骤S220中,计算每一窗中的音频信号的每一帧的 能量。帧是音频信号的基本单位,每帧音频信号具有预定时长。在步骤S230中,根据每一 窗中的音频信号的每一帧的能量的分布将窗中的音频信号划分为多个段,使得每个段中包 括能量接近的连续帧。也就是说,每个段的中的帧的能量变化相对比较平缓。在步骤S240 中,利用至少一个声音模型对每个段中的音频信号进行分类。声音模型可以是预先训练好 的模型,每种声音模型对应于相应的声音类别。通过分类来确定每段中的音频信号相对于 所述至少一个声音模型的相似度(例如似然值或分值),作为分类结果。在本实施例中,所采 用的具体分类方法没有限制。例如,可以利用声音模型对每段的音频信号整体的特征参数 进行分类,从而获得该段的分类结果;或者,也可以利用声音模型对每个段中的音频信号的 每一帧的特征参数进行分类,并根据段中各个帧的分类结果确定该段的分类结果。在步骤 S250中,根据分类结果来识别每个段中的音频信号的声音类别。具体而言,音频信号关于 哪种声音模型的相似度高,就可以确定音频信号属于该种声音模型对应的声音类别。这里, 步骤S210可以由分窗单元110执行,步骤S220可以由能量计算单元120执行,步骤S230 可以由分段单元130执行,步骤S240可以由分类单元240执行,步骤S250可以由识别单元 150执行。
[0025] 由此,可以对音频信号快速地进行前端分割,不需要提前训练分割用的声学模型。 能量比较接近的连续帧可以被认为具有相同的类别,能量差异较大的连续帧则被认为是具 有不同的类别。由于每个段中包括能量接近的连续帧,使得每个段中包含的声音类别相对 单一,从而有助于提高后续音频信号识别的准确率。
[0026] 应当理解,在方法P200中,能量计算步骤S220的执行时机不限于图2所示,而是 也可以在分窗步骤S210之前针对音频信号中的每一帧计算能量。
[0027] 分窗单元110可以使用现有的或将开发的任何适当的技术来在输入的音频信号 上移动滑动窗(分窗操作)。例如,可以使用预定的固定长度的滑动窗来读取音频信号。或 者,也可以采用可变长度的滑动窗来读取音频信号。
[0028] 作为可变长度滑动窗的示例,分窗单元110可以以预定帧数作为初始滑动窗的长 度,每次递增固定步长(固定帧数)并以初始滑动窗的后边界为中心滑动,寻找音频信号的 能量包络的最小极值点作为下一窗的前边界。为了防止扰动产生的误判,最小极值点不包 括由于微小扰动产生的极值点。这里,滑动窗的两个边界中时间靠前的边界称为前边界,时 间靠后的边界称为后边界。
[0029] 能量计算单元120可以使用各种适当的方法来计算每一帧音频信号的能量。例 如,可以采用以下公式来计算一帧音频信号的能量:

【权利要求】
1. 一种音频信号处理装置,包括: 分窗单元,用于利用滑动窗顺次读取输入的音频信号; 能量计算单元,用于计算每一窗中的音频信号的每一峽的能量; 分段单元,用于根据每一窗中的音频信号的每一峽的能量的分布将所述窗中的音频信 号划分为多个段,使得每个段中包括能量接近的连续峽; 分类单元,用于利用至少一个声音模型对每个段中的音频信号进行分类;W及 识别单元,用于根据所述分类单元的分类结果来识别每个段中的音频信号的声音类 别。
2. 根据权利要求1的音频信号处理装置,其中,所述分段单元包括: 聚类单元,用于将所述窗中的峽的能量按大小聚类为多个簇,每个簇中包含大小接近 的多个能量;W及 段形成单元,用于将同一簇中的连续峽形成一个段。
3. 根据权利要求2的音频信号处理装置,其中,所述聚类单元分别W所述窗的能量序 列中的最大能量和最小能量为中也,根据最近邻原则将所述窗的能量序列聚类为两个簇, W及分别W每个簇的能量序列中的最大能量和最小能量为中也,根据最近邻原则迭代地对 每个簇的能量序列进行聚类,直到不再满足聚类条件为止, 其中,所述窗中的峽的能量组成的序列作为所述窗的能量序列,每个簇中的峽的能量 组成的序列作为所述簇的能量序列,并且所述聚类条件为所聚类出的两个簇的能量序列的 分布与单高斯分布的相似度之和高于从中聚类出所述两个簇的窗或簇的能量序列的分布 与单高斯分布的相似度达预定程度。
4. 根据权利要求2的音频信号处理装置,其中,所述分段单元还包括: 能量规整单元,用于在所述聚类单元进行聚类之前对所述窗中的峽的能量组成的序列 进行规整,W增大所述序列中的能量之间的差异性。
5. 根据权利要求1的音频信号处理装置,其中, 所述分类单元利用异常声音模型和背景声音模型对每个段中的音频信号的每一峽进 行分类, 所述音频信号处理装置还包括加权单元,用于根据每一峽属于异常声音的可信度对所 述分类单元对每一峽的分类结果进行加权,其中可信度越大,分类结果的权重越高,并且 所述识别单元根据每一峽加权后的分类结果来识别每个段中的音频信号的声音类别。
6. 根据权利要求5的音频信号处理装置,其中,所述加权单元使用W下H项中的任意 一项或任意多项的组合作为每一峽属于异常声音的可信度: 每一峽音频信号相对于前一峽音频信号的能量变化; 每一峽音频信号与异常声音模型的相似度和所述峽音频信号与背景声音模型的相似 度的差;W及 每一峽所在的段中包含的连续峽的个数。
7. 根据权利要求1的音频信号处理装置,还包括能量平滑单元,用于在所述分段单元 对所述窗中的音频信号进行划分之前,对所述窗中的音频信号的每一峽的能量进行平滑。
8. -种音频信号处理方法,包括: 利用滑动窗顺次读取输入的音频信号; 计算每一窗中的音频信号的每一峽的能量; 根据每一窗中的音频信号的每一峽的能量的分布将所述窗中的音频信号划分为多个 段,使得每个段中包括能量接近的连续峽; 利用至少一个声音模型对每个段中的音频信号进行分类;W及 根据分类结果来识别每个段中的音频信号的声音类别。
9. 根据权利要求8的音频信号处理方法,其中,根据每一窗中的音频信号的每一峽的 能量的分布将所述窗中的音频信号划分为多个段包括: 将所述窗中的峽的能量按大小聚类为多个簇,每个簇中包含大小接近的多个能量;W 及 将同一簇中的连续峽形成一个段。
10. 根据权利要求9的音频信号处理方法,其中,将所述窗中的峽的能量按大小聚类为 多个簇包括: 分别W所述窗的能量序列中的最大能量和最小能量为中也,根据最近邻原则将所述 窗的能量序列聚类为两个簇,W及分别W每个簇的能量序列中的最大能量和最小能量为中 也,根据最近邻原则迭代地对每个簇的能量序列进行聚类,直到不再满足聚类条件为止, 其中,所述窗中的峽的能量组成的序列作为所述窗的能量序列,每个簇中的峽的能量 组成的序列作为所述簇的能量序列,并且所述聚类条件为所聚类出的两个簇的能量序列的 分布与单高斯分布的相似度之和高于从中聚类出所述两个簇的窗或簇的能量序列的分布 与单高斯分布的相似度达预定程度。
11. 根据权利要求9的音频信号处理方法,还包括: 在进行聚类之前对所述窗中的峽的能量组成的序列进行规整,W增大所述序列中的能 量之间的差异性。
12. 根据权利要求8的音频信号处理方法,其中,利用异常声音模型和背景声音模型对 每个段中的音频信号的每一峽进行分类, 所述方法还包括: 根据每一峽属于异常声音的可信度对每一峽的分类结果进行加权,其中可信度越大, 分类结果的权重越高,并且 其中,根据每一峽加权后的分类结果来识别每个段中的音频信号的声音类别。
13. 根据权利要求12的音频信号处理方法,其中,使用W下H项中的任意一项或任意 多项的组合作为每一峽属于异常声音的可信度: 每一峽音频信号相对于前一峽音频信号的能量变化; 每一峽音频信号与异常声音模型的相似度和所述峽音频信号与背景声音模型的相似 度的差;W及 每一峽所在的段中包含的连续峽的个数。
14. 根据权利要求8的音频信号处理方法,还包括: 在对所述窗中的音频信号进行划分之前,对所述窗中的音频信号的每一峽的能量进行 平滑。
15. -种监控系统,包括: 音频采集装置,用于采集音频信号; 音频信号处理装置,用于对所述音频信号进行处理,w识别所述音频信所包含的声音 类别;W及 报警装置,用于当所述音频信号处理装置识别到所述音频信号中包含预定类型的声音 类别时,产生并发送报警信息, 其中,所述音频信号处理装置是根据权利要求1-7中任一项所述的音频信号处理装 置。
【文档编号】G10L15/08GK104347068SQ201310344110
【公开日】2015年2月11日 申请日期:2013年8月8日 优先权日:2013年8月8日
【发明者】刘昆 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1