一种用于音频监控系统中的音频特征参数的提取方法

文档序号:2832086阅读:661来源:国知局
专利名称:一种用于音频监控系统中的音频特征参数的提取方法
技术领域
本发明涉及一种新的多^某体信息及其提取方法,确切地说,涉及一种用于 音频监控系统中的音频特征参数的提取方法,属于多媒体信息的音频监控系统 中的音频信号分析及其应用的信息安全技术领域。
背景技术
随着人民群众安全意识的提高,监控系统越来越受到人们的重视,并被广 泛地应用于银行、商场、学校、办公大楼、以及家居安全的防范系统中。另夕卜, 多媒体技术的不断发展,使得视、音频信息在人们的工作、文体、娱乐和曰常 生活中起着日益重要的作用。例如,视频监控系统已经广泛应用于当前许多公 共场合的安全系统中,该系统通过前端摄像系统对设定的区域进行监控,并将 其采集到的视频信号传送到监控中心,由监控中心的服务器自动进行实时分析 而发现异常事件,或者由人员监控发现异常事件并立即进行处理。然而,视频 监控系统也有很多不足和局限之处。首先,摄像机很容易受到光线照明的影响,
在光照等条件发生变化时很容易出现误判;尤其是办公楼熄灯以后,摄像机通 常就无法正常工作,而保持正常照明又会造成能源浪费。另外,对于某些特殊 事件,如在公共场所发出尖叫或异常声响等,音频信号的检测效果要明显优于 视频信号。这是因为在音频监控系统中,人们通常不需要准确判断声音的类别。 例如,在办公楼内,不需要取区分枪声和玻璃破碎声,只要能够确定这是在特 定场景下不应该发出的异常声音即可。因此,目前在国内外都广泛开展了针对 音频异常事件的监控及检测技术的研究。
现在,有些科技人员利用隐马尔科夫模型对语音、乐音等基本音频事件进 行建模,并根据最大似然值对输入的音频信号进行分类。然而,在音频监控系 统中,人们最关心的是事件的"异常性",而不是事件的种类。例如,在安静的办公楼内,只要检测到尖叫声或枪声都是异常事件的征兆,而不需要对这两种 不同的声响进行区分。
有些研发人员针对不同的应用场景展开探讨和设计。例如,针对办公楼的 特定工作环境,对其中的音频能量、过零率等低层音频特征参数进行统计和分 析,并根据统计结果设定不同时间段内的门限值。 一旦这些音频特征参数超出 相应的门限时,就认为发生了异常事件。然而,如果只使用音频能量、过零率 等时域音频信号特征参数只能检测到少数的异常事件,不能满足实际应用需求。
还有部分科技人员对正常事件中的例如语音、脚步声等的音频能量、过零 率等特征参数进行总结和分析后,再实时采集这些音频信号,并将其与相关的 这些特征参数进行实时对比,当^f企测到的音频信号与正常事件的特征参数的相 似度小于设定值时,就判定为异常事件。然而,由于采集到的各种特征参数之 间具有很大的重叠性(例如语音和乐音的过零率基本无法区分出来),于是在 复杂环境下很难做到准确的检测。
所以,如何利用音频特征参数来监控异常事件的发生与否,以及如何提取 相关的音频特征参数仍然是业内科技人员关注的热点课题。

发明内容
有鉴于此,本发明的目的是^t是供一种用于音频监控系统中的音频特征参数
的提取方法,以便较好地解决传统音频监控方法在选取音频特征参数上的缺陷; 本发明首创并提取的音频特征参数是音频短段时频差,它的特点是将时域和频 域的音频特征参数相互结合为一体,既能发挥其各自长处,又可在一定程度上 规避各自缺点,从而能够有效地应对各种不同类型的背景噪声,对某个设定时 段的音频中可能出现的异常事件及时作出正确判断,为适时采取告警等其它各 种安全技术措施奠定基础。
为了达到上述目的,本发明提供了 一种用于音频监控系统中的音频特征参 数的提取方法,其特征在于,所述方法包括下述操作步骤
(1 )按照设定的短时间的时长对音频采样信号序列进行分帧处理,将该音频采样信号序列划分为音频数据帧序列,其中每个短时间段为 一个音频数据帧; (2 )分别对所述音频数据帧序列中的每个音频数据帧实时提取该帧的短时
能量、短时过零率和短时信息熵三个基本音频特征参数;
(3 )对音频数据帧序列进行分段处理,将该音频帧序列划分为音频短段序 列;并在上述三个音频特征参数的基础上,计算并提取综合每个音频短段内的 所有音频数据帧的时域特征和频域特征、并充分考虑其当前时刻与前一时刻之 间差异的音频特征参数,即音频短段时频差,用于音频监控系统,及时发现音 频异常事件。
所述步骤(1 )中的设定的短时间的时长范围是30ms - 50ms。 所述音频数据帧的短时能量是反映该音频数据帧在单位时间内的时域强度 特征参数,每个音频数据帧的短时能量是该帧内所有音频采样值的平方和,即
第〖帧的短时能量是£, = |;&2,式中,自然数/是音频数据帧的序号,自
然数w是第/个音频数据帧中的音频采样值的序号,其最大值是见&是第" 个采样的取样值;
所述音频数据帧的短时过零率是在某种程度上反映该音频数据帧中的音频 信号的时域频率特征参数,第/帧的短时过零率是在该/个音频数据帧中的音频
信号穿过零值、即坐标横轴的次数Z,=|f>gn(&)-Sgn(&—,)|;式中,sgn() 为符号函数,音频采样值&为正数的符号函数是1,音频采样值&为负数和0 的符号函数都是-1,即sgn(&)=《二,::;
所述信息熵是频域的重要音频参数,用于反应音频信号所传达的信息量 的大小;所述短时信息熵是每个音频数据帧的信息熵。 所述短时信息熵的计算方法如下
(21 )利用傅里叶变换FFT对每个音频数据帧的信号进行由时域向频域的 转换,分别得到设定的各个频率的频谱能量;
(22)分别计算每个音频数据帧中所述各个频率的出现概率,即第y个频率《的出现概率P,的计算公式为^ — fsOO ,式中,是第J个频率力
的频谱能量,自然数c是该音频数据帧中设定的各频率的序号,其最大值为0; (23)分别计算每个音频数据帧中音频信号的短时信息熵,即第/帧的短
时信息熵的计算公式为A 二三P,xl。g巧,式中,自然数)是该第/个音频
数据帧中计算短时信息熵过程中所选取的各频率的序号,其最大值是x 。
所述步骤(21)中,在对音频数据帧的信号进行由时域向频域的转换处理
时,设定的各个频率是OHZ、 100HZ、 200HZ、 300 HZ、......、至5000HZ。
所述步骤(3)进一步包括下列操作步骤
(31) 对音频帧序列进行分段处理按照设定短时间段的时长所包括的音 频数据帧的数量对所述音频数据帧序列进行分段,其中每个设定时长中的多个 音频数据帧组成一个音频短段;
(32) 分别计算每个音频短段中的所有音频数据帧的短时能量、短时过 零率和短时信息熵的平均值,并分别定义为该音频短段的短段能量
& =溫&'、短段过零率"=和短段短时信息熵仏=f>m ;其中,
自然数i是音频短段的序号,自然数m是第ir个音频短段中的音频数据帧 的序号,其最大值是7^;
(33 )分别计算每个音频短段的音频短段时频差,即第A个音频短段的 音频短段时频差〈WoW - rF、的计算公式为
〈WoW-77^— ,)x(Z广A-,)x(//4-/A—,),并设置其中第 一个音
频^i^殳,即当1=1时,= = //" = 0 。
所述步骤(31)中,设定短时间段的时长所包括的音频数据帧是50帧。 本发明的重要创新点是提出 一种适用于音频监控系统的新的音频特征参数
——音频短段时频差,该参数的特点是同时将时域音频特征参数(短时能量和短时过零率)和频域的音频特征参数(短时信息熵)兼容在一起,既能够发挥 其各自长处,又可在一定程度上分别规避其缺点,从而能够有效地应对各种不 同类型的背景噪声。另外,现有的音频参数大都只着重于衡量音频信号在某个 特定时刻所呈现的特性,而本发明的音频短段时频差的另 一特点是在提取过程 中充分考虑了前一时刻与当前时刻的音频特征的差异或区别,能够更好地发现 音频信号的突变点'有效区分"正常"音频信号与"异常"音频信号,从而对 不同时段的音频信号中可能出现的异常事件及时作出正确判断,为适时采取告 警等安全技术措施奠定基础。
再者,本发明提取音频短段时频差的方法操作步骤简单、容易,信号处理 所需要的计算量也非常简单、时延4艮小,能够应用于实时监控系统中。因此, 本发明具有很好的推广应用前景。


图1是本发明一种用于音频监控系统中的音频特征参数的提取方法操作步
骤流程图。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例的 试验情况对本发明作进一 步的详细描述。
参见图1,介绍本发明一种用于音频监控系统中的音频特征参数的提取方
法的具体操作步骤
步骤1、按照设定的短时间的时长(例如30ms - 50ms )对音频采样信号序 列进行分帧处理,将该音频采样信号序列划分为音频数据帧序列,其中每个短 时间段为一个音频数据帧。分帧操作后,原始音频采样信号序列就表示为一个 音频数据帧序列。
步骤2、分别对该音频数据帧序列中的每个音频数据帧实时提取该帧的短 时能量、短时过零率和短时信息熵三个基本音频特征参数。其中
9音频数据帧的短时能量是反映该音频数据帧在单位时间内的时域强度特征 参数,每个音频数据帧的短时能量定义为该帧内所有音频采样值的平方和,例
如,第,'帧的短时能量是£,= f&2 ,式中,自然数/是音频数据帧的序号,
自然数n是第/个音频数据帧中的音频采样值的序号,其最大值是见&是第 "个采样的取样值。
音频数据帧的短时过零率是在某种程度上反映该音频数据帧中的音频信号 的时域频率特征参数,第/帧的短时过零率是在该Z'个音频数据帧中的音频信号
穿过坐标横轴(即零值点)的次数,即Z,二会tlsgn(&)-sgn(V,)|;式中,sgn()
为符号函数,音频采样值&为正数的符号函数是1,音频采样值&为负数和0
的符号函数都是-1,即sgn(s")=:::。
众所周知,音频信号的感知过程与人类听觉系统具有频谱分析功能是紧 密相关的。因此,对音频信号进行频谱分析,是认识音频信号和处理音频信 号的重要方法。音频信号作为一种典型的非平稳信号,它的非平稳性是由发 音器官的物理运动过程的不平稳性而产生的,但是,由此可假定其频域信号 也是短时平稳的。信息熵是频域的重要音频参数,用于反应音频信号所传达的信息量的大
小。信息熵在语音编解码中经常被使用,J丄.Shen首次将该参数应用于语音 端点检测技术中。本发明方法也要对每个音频数据帧都计算其信息熵,即短 时信息熵。该短时信息熵的计算方法如下
(A) 利用傅里叶变换(FFT)对每个音频数据帧的信号进行由时域向频域 的转换,分别得到设定的各个频率的频语能量。通常,在该音频信号转换过程
中,i殳定的各个频率是OHZ、 IOOHZ、 200HZ、 300 HZ........至5000HZ的频谱。
(B) 分别计算每个音频数据帧中上述各个频率的出现概率,即按照下述=</》
公式计算第)个频率/,的出现概率P,为^一f sa),式中,s")是第/个
频率《的频谱能量,自然数c是该音频数据帧中设定的各频率的序号,其最大 值为^。
(C)分别计算每个音频数据帧中音频信号的短时信息熵,即按照下述公
式计算第/帧的短时信息熵H"A ^!]^xlog巧,式中,自然数y'是该第/
j二l
个音频数据帧中计算短时信息熵过程中所选取的各频率的序号,其最大值是X。
步骤3、对音频数据帧序列进行分段处理,将该音频帧序列划分为音频短段 序列;并在上述三个音频特征参数的基础上,计算并提取综合每个音频短段内 的所有音频数据帧的时域特征和频域特征、并充分考虑其当前时刻与前一时刻 之间差异的音频特征参数,即音频短段时频差,记做short-TF,用于音频监控 系统,及时发现音频异常事件。该步骤包括下列操作内容
(1 )对音频帧序列进行分段按照设定短时间段的时长所包括的音频 数据帧的数量(通常设定短时间段的时长包括50帧)对所述音频数据帧序 列进行分段,其中每个设定时长中的多个音频数据帧组成一个音频短段。
(2) 分别计算每个音频短段中的所有音频数据帧的短时能量、短时过
零率和短时信息熵的平均值,并分別定义为
- M - 、M、
该音频短段的短段能量丑* = Z)£,m ,短段过零率Z^ = ,短
m = 1 m = 1
_ M
段短时信息熵5* = I] Hm ;式中,自然数A是音频短段的序号,自然数
m是第i个音频短段中的音频数据帧的序号,其最大值是Af。
(3) 分别计算每个音频短段的音频短段时频差,即第A个音频短段的 音频短段时频差〈^oW-770A的计算公式为
〈涵or卜77^ 仏—,)x(Za-Za—,)x(^4-,并设置其中第一个音频短段,即当hl时,A—, = Z", =/fh' = 0 。这里得到的各个音频短段的音 频短段时频差〈s/zoW -7F、就可以直接用于音频监控系统。
本发明方法已经作了实施试验,计算机仿真的实施例的试验是成功的,实 现了发明目的。
权利要求
1、一种用于音频监控系统中的音频特征参数的提取方法,其特征在于,所述方法包括下述操作步骤(1)按照设定的短时间的时长对音频采样信号序列进行分帧处理,将该音频采样信号序列划分为音频数据帧序列,其中每个短时间段为一个音频数据帧;(2)分别对所述音频数据帧序列中的每个音频数据帧实时提取该帧的短时能量、短时过零率和短时信息熵三个基本音频特征参数;(3)对音频数据帧序列进行分段处理,将该音频帧序列划分为音频短段序列;并在上述三个音频特征参数的基础上,计算并提取综合每个音频短段内的所有音频数据帧的时域特征和频域特征、并充分考虑其当前时刻与前一时刻之间差异的音频特征参数,即音频短段时频差,用于音频监控系统,及时发现音频异常事件。
2、 根据权利要求1所述的方法,其特征在于所述步骤(l)中的设定的 短时间的时长范围是30ms - 50ms。
3、 根据权利要求1所述的方法,其特征在于所述音频数据帧的短时能量 是反映该音频数据帧在单位时间内的时域强度特征参数,每个音频数据帧的短 时能量是该帧内所有音频采样值的平方和,即第帧的短时能量是五,=^人2,式中,自然数/是音频数据帧的序号,自然数"是第/个音频数 二1据帧中的音频采样值的序号,其最大值是见&是第"个采样的取样值;所述音频数据帧的短时过零率是在某种程度上反映该音频数据帧中的音频 信号的时域频率特征参数,第/帧的短时过零率是在该/个音频数据帧中的音频信号穿过零值、即坐标横轴的次数Z,=4^>gn(S )-sgn(Ul;式中,sgn() 为符号函数,音频采样值&为正数的符号函数是1,音频采样值&为负数和o 的符号函数都是-1,即sgn(S") =所述信息熵是频域的重要音频参数,用于反应音频信号所传达的信息量的大小;所述短时信息熵是每个音频数据帧的信息熵。
4、 根据权利要求3所述的方法,其特征在于所述短时信息熵的计算 方法力o下(21 )利用傅里叶变换FFT对每个音频数据帧的信号进行由时域向频域的 转换,分别得到设定的各个频率的频语能量;(22) 分别计算每个音频数据帧中所述各个频率的出现概率,即第7'个频二 s(力)率,的出现概率P,的计算公式为巧—f s(/e),式中,s(力)是第y'个频率力的频谱能量,自然数c是该音频数据帧中设定的各频率的序号,其最大值为g;(23) 分别计算每个音频数据帧中音频信号的短时信息熵,即第/帧的短时信息熵的计算公式为A = xlog巧,式中,自然数y是该第/个音频■7 = 1数据帧中计算短时信息熵过程中所选取的各频率的序号,其最大值是x 。
5、 根据权利要求4所述的方法,其特征在于所述步骤(21)中,在对音 频数据帧的信号进行由时域向频域的转换处理时,设定的各个频率是0HZ、 IOOHZ、 200HZ、 300 HZ........至5000HZ。
6、 根据权利要求1所述的方法,其特征在于所述步骤(3)进一步包 括下列操作步骤(31) 对音频帧序列进行分段处理按照设定短时间段的时长所包括的音 频数据帧的数量对所述音频数据帧序列进行分段,其中每个设定时长中的多个 音频数据帧组成一个音频短段;(32) 分别计算每个音频短段中的所有音频数据帧的短时能量、短时过 零率和短时信息熵的平均值,并分别定义为该音频短段的短段能量& = 、短段过零率^ = 和短段短时信息熵^ = E "m ;其中,m = 1 fTi 二 1 m = 1自然数l是音频短段的序号,自然数m是第ir个音频短段中的音频数据帧 的序号,其最大值是Af;(33)分别计算每个音频短段的音频短段时频差,即第A个音频短段的 音频短段时频差〈W - TF〉 *的计算公式为〈WoW-r尸、二(&-&一)x(Za-i)x(/^-/^—,),并设置其中第一个音频4豆,殳,即当hl时,iw =Z", =^", =0 。
7、根据权利要求6所述的方法,其特征在于所述步骤(31)中,设 定短时间段的时长所包括的音频数据帧是50帧。
全文摘要
一种用于音频监控系统中的音频特征参数的提取方法,操作步骤如下(1)按照设定的短时间的时长对音频采样信号序列进行分帧而将其划分为音频数据帧序列;(2)分别对该音频数据帧序列中的每个音频数据帧实时提取该帧的短时能量、短时过零率和短时信息熵;(3)对音频数据帧序列进行分段而将其划分为音频短段序列;并在上述参数基础上,提取综合每个音频短段内的所有音频数据帧的时域和频域特征、并充分考虑其前后两个时刻之间音频差异的特征参数音频短段时频差,用于音频监控系统。本发明能克服现有技术缺陷,有效应对各种不同类型的背景噪声,及时发现音频信号中可能出现的异常事件,正确作出判断,为适时采取告警等其它各种安全技术措施奠定基础。
文档编号G10L15/00GK101494049SQ20091007944
公开日2009年7月29日 申请日期2009年3月11日 优先权日2009年3月11日
发明者祺 李, 马华东, 千 黄 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1