音频信号处理装置和方法以及监控系统的制作方法

文档序号：2826126阅读：275来源：国知局

音频信号处理装置和方法以及监控系统的制作方法
【专利摘要】本发明公开一种音频信号处理装置和方法以及监控系统。所述音频信号处理装置包括：分窗单元，用于利用滑动窗顺次读取输入的音频信号；能量计算单元，用于计算每一窗中的音频信号的每一帧的能量；分段单元，用于根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧；分类单元，用于利用至少一个声音模型对每个段中的音频信号进行分类；以及识别单元，用于根据分类单元的分类结果来识别每个段中的音频信号的声音类别。
【专利说明】音频信号处理装置和方法以及监控系统

【技术领域】
[0001] 本发明总体上涉及音频处理领域，更具体而言，本发明涉及一种音频信号处理装置和方法以及一种监控系统。

【背景技术】
[0002] 对音频信号进行处理以准确地识别音频信号中的声音类别，从而提取出特定的音频事件，是音频处理领域的一个重要议题。将音频信号划分为连续的片段是音频信号识别的基础。音频信号分段的效果直接影响音频信号识别的精度。如何改进音频信号分段技术以提高分段的准确性、避免虚假分割点过多、运算量大、误检率与漏检率高等问题成为目前本领域研究的重要方面。

【发明内容】

[0003] 在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。
[0004] 本发明的目的是提供一种音频信号处理装置和方法以及一种监控系统，以便克服现有技术的上述问题中的至少一个。
[0005] 根据本发明的一个方面，提供了一种音频信号处理装置，包括：分窗单元，用于利用滑动窗顺次读取输入的音频信号；能量计算单元，用于计算每一窗中的音频信号的每一中贞的能量；分段单兀，用于根据每一窗中的音频信号的每一巾贞的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧；分类单元，用于利用至少一个声音模型对每个段中的音频信号进行分类；以及识别单元，用于根据分类单元的分类结果来识别每个段中的音频信号的声音类别。
[0006] 根据本发明的另一方面，提供了一种音频信号处理方法，包括：利用滑动窗顺次读取输入的音频信号；计算每一窗中的音频信号的每一帧的能量；根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧；利用至少一个声音模型对每个段中的音频信号进行分类；以及根据分类结果来识别每个段中的音频信号的声音类别。
[0007] 根据本发明的又一方面，提供了一种监控系统，包括：音频采集装置，用于采集音频信号；音频信号处理装置，用于对所述音频信号进行处理，以识别所述音频信所包含的声音类别；以及报警装置，用于当音频信号处理装置识别到所述音频信号中包含预定类型的声音类别时，产生并发送报警信息，其中，所述音频信号处理装置是根据本发明的以上方面的音频信号处理装置。
[0008] 在本发明的上述方面的音频信号处理装置和方法以及监控系统中，根据每一窗中的音频信号的每一帧的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧，并对每个段中的音频信号进行分类。这样，可以对音频信号快速地进行前端分割，不需要提前训练分割用的声学模型，并且由于每个段中包括能量接近的连续帧，使得每个段中包含的声音类别相对单一，从而有助于提高后续音频信号识别的准确率。

【专利附图】

【附图说明】
[0009] 本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：
[0010] 图1示出根据本发明的一个实施例的音频信号处理装置的示意性框图；
[0011] 图2示出图1所示的音频信号处理装置的示意性工作流程图；
[0012] 图3示出根据本发明的一个实施例的分段单元的示意性框图；
[0013] 图4示出图3所示的分段单元的示意性工作流程图；
[0014] 图5示出根据本发明的一个实施例的分段处理示例的示意性流程图；
[0015] 图6示出根据本发明的另一个实施例的分段单元的示意性框图；
[0016] 图7示出根据本发明的另一个实施例的音频信号处理装置的示意性框图；
[0017] 图8示出图7所示的音频信号处理装置的示意性工作流程图；
[0018] 图9示出根据本发明的又一实施例的音频信号处理装置的示意性框图；
[0019] 图10示出图9所示的音频信号处理装置的示意性工作流程图；
[0020] 图11示出根据本发明的一个实施例的监控系统的示意性框图；以及
[0021] 图12示出可以实现本发明的实施例/示例的计算机的结构的示例性框图。

【具体实施方式】
[0022] 下面将参照附图来说明本发明的实施例。在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。
[0023] 图1示出根据本发明的一个实施例的音频信号处理装置的示意性框图。如图1所示，音频信号处理装置1〇〇包括分窗单元110、能量计算单元120、分段单元130、分类单元 140和识别单元150。以下结合图2来描述音频信号处理装置100的示意性工作流程图。
[0024] 图2示出图1所示的音频信号处理装置100的示意性工作流程图，即根据本发明的一个实施例的音频信号处理方法。如图2所示，在方法P200中，在步骤S210中，利用滑动窗顺次读取输入的音频信号。每一窗信号作为后续的分段、分类和识别等操作的一个处理单元，依次处理每一窗音频信号。在步骤S220中，计算每一窗中的音频信号的每一帧的能量。帧是音频信号的基本单位，每帧音频信号具有预定时长。在步骤S230中，根据每一窗中的音频信号的每一帧的能量的分布将窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续帧。也就是说，每个段的中的帧的能量变化相对比较平缓。在步骤S240 中，利用至少一个声音模型对每个段中的音频信号进行分类。声音模型可以是预先训练好的模型，每种声音模型对应于相应的声音类别。通过分类来确定每段中的音频信号相对于所述至少一个声音模型的相似度(例如似然值或分值)，作为分类结果。在本实施例中，所采用的具体分类方法没有限制。例如，可以利用声音模型对每段的音频信号整体的特征参数进行分类，从而获得该段的分类结果；或者，也可以利用声音模型对每个段中的音频信号的每一帧的特征参数进行分类，并根据段中各个帧的分类结果确定该段的分类结果。在步骤 S250中，根据分类结果来识别每个段中的音频信号的声音类别。具体而言，音频信号关于哪种声音模型的相似度高，就可以确定音频信号属于该种声音模型对应的声音类别。这里，步骤S210可以由分窗单元110执行，步骤S220可以由能量计算单元120执行，步骤S230 可以由分段单元130执行，步骤S240可以由分类单元240执行，步骤S250可以由识别单元 150执行。
[0025] 由此，可以对音频信号快速地进行前端分割，不需要提前训练分割用的声学模型。能量比较接近的连续帧可以被认为具有相同的类别，能量差异较大的连续帧则被认为是具有不同的类别。由于每个段中包括能量接近的连续帧，使得每个段中包含的声音类别相对单一，从而有助于提高后续音频信号识别的准确率。
[0026] 应当理解，在方法P200中，能量计算步骤S220的执行时机不限于图2所示，而是也可以在分窗步骤S210之前针对音频信号中的每一帧计算能量。
[0027] 分窗单元110可以使用现有的或将开发的任何适当的技术来在输入的音频信号上移动滑动窗(分窗操作)。例如，可以使用预定的固定长度的滑动窗来读取音频信号。或者，也可以采用可变长度的滑动窗来读取音频信号。
[0028] 作为可变长度滑动窗的示例，分窗单元110可以以预定帧数作为初始滑动窗的长度，每次递增固定步长（固定帧数）并以初始滑动窗的后边界为中心滑动，寻找音频信号的能量包络的最小极值点作为下一窗的前边界。为了防止扰动产生的误判，最小极值点不包括由于微小扰动产生的极值点。这里，滑动窗的两个边界中时间靠前的边界称为前边界，时间靠后的边界称为后边界。
[0029] 能量计算单元120可以使用各种适当的方法来计算每一帧音频信号的能量。例如，可以采用以下公式来计算一帧音频信号的能量：

【权利要求】
1. 一种音频信号处理装置，包括：分窗单元，用于利用滑动窗顺次读取输入的音频信号；能量计算单元，用于计算每一窗中的音频信号的每一峽的能量；分段单元，用于根据每一窗中的音频信号的每一峽的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续峽；分类单元，用于利用至少一个声音模型对每个段中的音频信号进行分类；W及识别单元，用于根据所述分类单元的分类结果来识别每个段中的音频信号的声音类别。
2. 根据权利要求1的音频信号处理装置，其中，所述分段单元包括：聚类单元，用于将所述窗中的峽的能量按大小聚类为多个簇，每个簇中包含大小接近的多个能量；W及段形成单元，用于将同一簇中的连续峽形成一个段。
3. 根据权利要求2的音频信号处理装置，其中，所述聚类单元分别W所述窗的能量序列中的最大能量和最小能量为中也，根据最近邻原则将所述窗的能量序列聚类为两个簇， W及分别W每个簇的能量序列中的最大能量和最小能量为中也，根据最近邻原则迭代地对每个簇的能量序列进行聚类，直到不再满足聚类条件为止，其中，所述窗中的峽的能量组成的序列作为所述窗的能量序列，每个簇中的峽的能量组成的序列作为所述簇的能量序列，并且所述聚类条件为所聚类出的两个簇的能量序列的分布与单高斯分布的相似度之和高于从中聚类出所述两个簇的窗或簇的能量序列的分布与单高斯分布的相似度达预定程度。
4. 根据权利要求2的音频信号处理装置，其中，所述分段单元还包括：能量规整单元，用于在所述聚类单元进行聚类之前对所述窗中的峽的能量组成的序列进行规整，W增大所述序列中的能量之间的差异性。
5. 根据权利要求1的音频信号处理装置，其中，所述分类单元利用异常声音模型和背景声音模型对每个段中的音频信号的每一峽进行分类，所述音频信号处理装置还包括加权单元，用于根据每一峽属于异常声音的可信度对所述分类单元对每一峽的分类结果进行加权，其中可信度越大，分类结果的权重越高，并且所述识别单元根据每一峽加权后的分类结果来识别每个段中的音频信号的声音类别。
6. 根据权利要求5的音频信号处理装置，其中，所述加权单元使用W下H项中的任意一项或任意多项的组合作为每一峽属于异常声音的可信度：每一峽音频信号相对于前一峽音频信号的能量变化；每一峽音频信号与异常声音模型的相似度和所述峽音频信号与背景声音模型的相似度的差；W及每一峽所在的段中包含的连续峽的个数。
7. 根据权利要求1的音频信号处理装置，还包括能量平滑单元，用于在所述分段单元对所述窗中的音频信号进行划分之前，对所述窗中的音频信号的每一峽的能量进行平滑。
8. -种音频信号处理方法，包括：利用滑动窗顺次读取输入的音频信号；计算每一窗中的音频信号的每一峽的能量；根据每一窗中的音频信号的每一峽的能量的分布将所述窗中的音频信号划分为多个段，使得每个段中包括能量接近的连续峽；利用至少一个声音模型对每个段中的音频信号进行分类；W及根据分类结果来识别每个段中的音频信号的声音类别。
9. 根据权利要求8的音频信号处理方法，其中，根据每一窗中的音频信号的每一峽的能量的分布将所述窗中的音频信号划分为多个段包括：将所述窗中的峽的能量按大小聚类为多个簇，每个簇中包含大小接近的多个能量；W 及将同一簇中的连续峽形成一个段。
10. 根据权利要求9的音频信号处理方法，其中，将所述窗中的峽的能量按大小聚类为多个簇包括：分别W所述窗的能量序列中的最大能量和最小能量为中也，根据最近邻原则将所述窗的能量序列聚类为两个簇，W及分别W每个簇的能量序列中的最大能量和最小能量为中也，根据最近邻原则迭代地对每个簇的能量序列进行聚类，直到不再满足聚类条件为止，其中，所述窗中的峽的能量组成的序列作为所述窗的能量序列，每个簇中的峽的能量组成的序列作为所述簇的能量序列，并且所述聚类条件为所聚类出的两个簇的能量序列的分布与单高斯分布的相似度之和高于从中聚类出所述两个簇的窗或簇的能量序列的分布与单高斯分布的相似度达预定程度。
11. 根据权利要求9的音频信号处理方法，还包括：在进行聚类之前对所述窗中的峽的能量组成的序列进行规整，W增大所述序列中的能量之间的差异性。
12. 根据权利要求8的音频信号处理方法，其中，利用异常声音模型和背景声音模型对每个段中的音频信号的每一峽进行分类，所述方法还包括：根据每一峽属于异常声音的可信度对每一峽的分类结果进行加权，其中可信度越大，分类结果的权重越高，并且其中，根据每一峽加权后的分类结果来识别每个段中的音频信号的声音类别。
13. 根据权利要求12的音频信号处理方法，其中，使用W下H项中的任意一项或任意多项的组合作为每一峽属于异常声音的可信度：每一峽音频信号相对于前一峽音频信号的能量变化；每一峽音频信号与异常声音模型的相似度和所述峽音频信号与背景声音模型的相似度的差；W及每一峽所在的段中包含的连续峽的个数。
14. 根据权利要求8的音频信号处理方法，还包括：在对所述窗中的音频信号进行划分之前，对所述窗中的音频信号的每一峽的能量进行平滑。
15. -种监控系统，包括：音频采集装置，用于采集音频信号；音频信号处理装置，用于对所述音频信号进行处理，w识别所述音频信所包含的声音类别；W及报警装置，用于当所述音频信号处理装置识别到所述音频信号中包含预定类型的声音类别时，产生并发送报警信息，其中，所述音频信号处理装置是根据权利要求1-7中任一项所述的音频信号处理装置。
【文档编号】G10L15/08GK104347068SQ201310344110
【公开日】2015年2月11日申请日期:2013年8月8日优先权日:2013年8月8日
【发明者】刘昆申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘昆
技术所有人：索尼公司
我是此专利的发明人

上一篇：一种语音控制的方法和智能空调系统的制作方法
上一篇：一种基于class-base语言模型的POI语音识别方法