音频事件检测方法和装置的制作方法

文档序号：2823986阅读：253来源：国知局

专利名称：音频事件检测方法和装置的制作方法
技术领域：
本发明涉及音频事件检测方法和装置，特别涉及基于长时特征的音频事件检测方法和装置。
背景技术：
当今世界正处在信息爆炸的时代，信息正在以指数级的速度增长。多媒体技术和互联网技术的不断发展，使得对海量多媒体数据进行自动分析处理的必要性大大提高。然而，视频分析运算量大，消耗资源较多，因此多媒体数据的音频分析有着更大的优势。一般来说，诸如体育比赛之类的视频时间比较长，而往往广大体育爱好者真正关心的内容通常只占居整个内容的很小一部分。如果需要从中找到自己关注的内容，往往需要用户从头至尾遍历一遍之后才能找到所需内容，这样既费时又费力。另一方面，越来越多的体育视频，使得人们对体育视频的有效检索和管理的要求也越来越迫切。因此，如果能够有这样一个体育内容检索系统，可以帮助用户检索一些真正关心的内容，就可以大大节约时间。特别地，对体育节目的自动音频分析，近年来受到越来越多研究者的青睐。针对体育比赛来说，通过对喝彩声、鼓掌声、欢呼声、笑声之类的音频事件的提取，来在体育比赛视频中提取精彩场景，使得用户能够更便捷的找到自己感兴趣的片段。对音频事件的提取有以下几个难点首先，在体育比赛中，音频事件往往不是孤立出现，而是同时伴随着主持人的讲话声以及其他声音，这就使得对音频事件的建模产生一定困难；其次，在体育比赛中，音频事件的频谱特点往往和环境噪声非常相似，导致在检索过程中产生较多的虚警，从而精度偏低。Hermansky, H.在文章"Perceptual linear predictive (PLP) analysis of speech，，(Journal of the Acoustical Society of America,87 :1738,1990)中，通过两个阶段进行处理。在第一阶段，对有人工标注的多媒体数据利用语义标签进行相关音频寻找，而在第二阶段，基于语义标签的音频查询结果在线训练该类音乐特征，并利用于音频内容的查询。从以上文献可以看出，现有技术仅对某一两种体育比赛内容的特定内容进行分析和检测，这些技术针对性强，不能很好的扩展到其他类别的提取比赛的内容检测中去。而随着体育比赛种类的日益增加，消费者越来越不可能有足够的时间将整场比赛从头至尾的观看一边了，因此，如何能够提供一套自动的体育比赛的内容检测系统，从而帮助用户快速方便的检测出自己关注的内容是目前广大体育爱好者们迫切关注的问题。由于目前图像分析技术对于仅止于场景分析，对于图像内容的理解没有很好的研究，因此，本发明侧重于采用语音信号处理技术，对体育比赛内容进行理解和分析，帮助体育爱好者们提取一些感兴趣的事件和信息，比如类别进行检测比赛，检测精彩事件，检测关键人名和队名等，检测比赛不同场次的开始和结束时间点等等。

发明内容
有鉴于此，发明公开了一种鲁棒的高性能的音频事件检测方法和装置，其中的音频事件包括鼓掌声、欢呼声、笑声。该方法考虑到了时域上特征的连续性，结合了基于段的长时特征进行检测，使得检测的性能得到大幅度的提升。根据本发明的一方面，本发明提供基于长时特性的音频事件检测方法，所述方法包括如下步骤将输入音频流分成一系列的小段；对每个段提取短时和长时特征；并且根据所提取的短时和长时特征，得到关于音频流的分类结果。根据本发明的该方面，所述音频事件检测方法还包括步骤经过平滑处理得到事件检测结果。根据本发明的该方面，在所述音频事件检测方法中，在提取短时和长时特征之后，采用降维算法对MSV (Mean Super Vector)特征矢量进行降维，以去除特征的冗余信息。根据本发明的该方面，在所述音频事件检测方法中，所述短时和长时特征是基于段和基于帧之一的。根据本发明的该方面，在所述音频事件检测方法中，所述分类结果通过支持向量机分类器来进行。根据本发明的该方面，在所述音频事件检测方法中，基于帧的短时特征至少包括以下特征之一 PLP、LPCC, LFCC, Pitch、短时能量、子带能量分布、亮度和带宽。根据本发明的该方面，在所述音频事件检测方法中，基于段的长时特征至少包括以下特征之一谱通量、长时平均谱和LPC熵。根据本发明的该方面，在所述音频事件检测方法中，在平滑处理中所使用的平滑规则如下(l)if{s(n) == 1 and s(n+l) ！ = 1 and s (n+2) == ljthens (n+1) = 1(2)if {s(n) == 1 and s(n_l) ！ = 1 and s(n+l) ！ = ljthens (η) = s(n-l)根据本发明的另一方面，本发明提供基于长时特性的音频事件检测装置，所述装置包括音频流分段部分，用于将输入音频流分成一系列的小段；特征提取部分，用于对每个段提取短时和长时特征；并且分类部分，用于根据所提取的短时和长时特征，得到关于音频流的分类结果。根据本发明的再一方面，本发明提供用于在计算机上实现基于长时特性的音频事件检测方法的计算机产品，所述方法包括如下步骤将输入音频流分成一系列的小段；对每个段提取短时和长时特征；并且根据所提取的短时和长时特征，得到关于音频流的分类结果。总之，本发明通过将音频流分成一系列的小段，采用对该段特征矢量求均值(得到MSV，Mean Super Vector)并进行降维的方法对每个段提取短时和长时特征，利用 SVM(支持向量机分类器)得到最终的分类结果，并且经过平滑得到最终的事件检测结果。实验结果显示，在一般电视节目中，事件检测的结果可以达到86 %的F值。

本发明的上述目的、有益技术效果等可以通过结合以下附图的描述变得更清楚，在这些附图中，
图1示出了根据本发明的实施例的、基于长时特征的音频事件检测方法的一个实例的流程图；图2是示出LFCC和LFCC中使用滤波器组的实例的曲线图，其中图2A是图示用于 LFCC的多尺度滤波器组的一个实例的曲线图，而图2B是图示用于LFCC的线性滤波器组的一个实例的曲线图；图3示出了根据本发明的实施例的、基于长时特征的音频事件检测方法的另一个实例的流程图；图4示出了根据本发明的实施例的、基于长时特征的音频事件检测装置的一个实例的方块图；图5是示出根据本发明的特征提取部分的详细结构的方块图；图6示出了基于长时特征的音频事件检测装置的另一个实例的流程图；图7是示出了采用LDA，PCA, ICA三种不同降维算法的降维结果的图表；以及图8是示出了用LDA将PLP、LPCC、LFCC以及它们各自的一阶、二阶差分进行降维后的特征检测性能以及降维后的特征+其他段特征的检测性能的图表。
具体实施例方式下面参考附图详细描述本发明的、基于长时特征的音频事件检测方法和装置。图1示出了根据本发明的实施例的、基于长时特征的音频事件检测方法的一个实例的流程图。参考图1，基于长时特征的音频事件检测方法包括音频流分段步骤S110，在该步骤SllO中，将要处理的音频流分成一系列的小段，以便于提取每个段的短时和长时特征。这里，为了对输入语音信号进行分段，可以采用滑动窗将语音信号分成一系列的语音窗，每个语音窗对应于一个小段。从而达到分段的目的。基于长时特征的音频事件检测方法还包括音频流长时特征提取步骤S120，在步骤 S120中，对每个段提取短时和长时特征。根据本发明的一个实施例，对于每个子段，可以对其每个段特征矢量提取出基于帧和基于段的两种特征，即，帧特征和段特征。这里，基于帧的特征(帧特征)可以包括PLP (Perceptual Linear Predictive Coefficients，知觉线性预测系数)、LPCC (Linear Predictive Cepstrum Coefficients, 线性预测倒谱系数)、LFCC (Linear Frequency cepstral coefficients)、Pitch、短时能量 (Short-time energy, STE)、子带能量分布(Sub-band energy distribution, SBED)、亮度和带宽(Brightness and bandwidth，BR和BW)，也可以是这些特征的一部分。而基于段的特征(段特征)可以包括谱通量(Spectrum Flux, SF)、长时平均谱(long-term average spectrum, LTAS)和LPC熵(LPC entropy)，或者是这些特征的一部分。具体来说，PLP特征从等响曲线、强度能量定理、临界频谱分析等三个听觉心理方面来进行语音分析的技术，具体算法参考Hynek Hermansky perceptual Linear Predictive (PLP) analysis of speech, J. Acoust. Soc. Am. 87 (4), April 1990。LPCC是基于声道的特征参数，而LFCC是考虑到人耳听觉特性的参数特征，具体计算方法参考余建潮、张瑞林基于LFCC和LPCC的说话人识别，计算机工程与设计，2009，30 (5)。LFCC和LFCC的差异是LFCC中考虑到人耳的感知特性，需要把一般频率上的能量映射到更加符合人类听觉的Mel频谱上，而LFCC不是映射到Mel频谱上，而是在一般频域上将频率用一系列线性三角窗进行处理。图2是示出LFCC和LFCC中使用滤波器组的实例的曲线图，其中图2A是图示用于 LFCC的多尺度滤波器组的ー个实例的曲线图，而图2B是图示用于LFCC的线性滤波器组的一个实例的曲线图。图2中横坐标表示频率，纵坐标表示三角滤波器的幅值。Pitch是语音、音乐分析和合成的ー个重要參数。通常只有浊音才有明确的音调。但是，我们仍然可以用基音频率来表示任何声波的基本频率。要从音频信号中准确可靠的提取基频特征并不容易。根据准确度和复杂度的不同要求，可以使用不同的基频估计方法，包括自回归模型 (auto-regressive model)，平均星差函叙、average magnitude difference function)，最大后验概率方法等。本文采用的自相关方法。利用公式(1)提取1维的短时能量，该短时能量描述了ー帧总共的频谱能量。
权利要求
1.一种基于长时特性的音频事件检测方法，所述方法包括如下步骤将输入音频流分成一系列的小段；对每个段提取短时和长时特征；并且根据所提取的短时和长时特征，得到关于音频流的分类结果。
2.如权利要求1所述的音频事件检测方法，还包括步骤经过平滑处理得到事件检测结果。
3.如权利要求1所述的音频事件检测方法，其中，在提取短时和长时特征之后，采用降维算法对MSV(Mean Super Vector)特征矢量进行降维，以去除特征的冗余信息。
4.如权利要求1所述的音频事件检测方法，其中，所述短时和长时特征是基于段和基于帧之一的。
5.如权利要求1所述的音频事件检测方法，其中，所述分类结果通过支持向量机分类器来进行。
6.如权利要求4所述的音频事件检测方法，其中，基于帧的短时特征至少包括以下特征之一 PLP、LPCC、LFCC、Pitch、短时能量、子带能量分布、亮度和带宽。
7.如权利要求4所述的音频事件检测方法，其中，基于段的长时特征至少包括以下特征之一谱通量、长时平均谱和LPC熵。
8.如权利要求2所述的音频事件检测方法，其中，在平滑处理中所使用的平滑规则如下(1)if{s(n)== 1 and s(n+l) ！ = 1 and s (n+2) == ljthens (n+1) = 1(2)if{s(n) == 1 and s(n-l) ! = 1 and s(n+l) ！ = ljthens (η) = s(n-l)
9.一种基于长时特性的音频事件检测装置，所述装置包括音频流分段部分，用于将输入音频流分成一系列的小段；特征提取部分，用于对每个段提取短时和长时特征；并且分类部分，用于根据所提取的短时和长时特征，得到关于音频流的分类结果。
10.如权利要求9所述的音频事件检测装置，还包括平滑部分，用于经过平滑处理得到事件检测结果。
11.如权利要求9所述的音频事件检测装置，其中，在提取短时和长时特征之后，采用降维算法对MSV特征矢量进行降维，以去除特征的冗余信息。
12.如权利要求9所述的音频事件检测装置，其中，所述短时和长时特征是基于段和基于帧之一的。
13.如权利要求9所述的音频事件检测装置，其中，所述分类结果通过支持向量机分类器来进行。
14.如权利要求12所述的音频事件检测装置，其中，基于帧的短时特征至少包括以下特征之一 PLP、LPCC、LFCC、Pitch、短时能量、子带能量分布、亮度和带宽。
15.如权利要求12所述的音频事件检测装置，其中，基于段的长时特征至少包括以下特征之一谱通量、长时平均谱和LPC熵。
16.如权利要求10所述的音频事件检测装置，其中，平滑部分的平滑处理中所使用的平滑规则如下(l)if{s(n) == 1 and s(n+l) ！ = 1 and s (n+2) == ljthens (n+1) = 1(2)if{s(n) == 1 and s(n-l) ！ = 1 and s(n+l) ！ = ljthens (η) = s(n-l)
17. 一种用于在计算机上实现基于长时特性的音频事件检测方法的计算机产品，所述方法包括如下步骤将输入音频流分成一系列的小段；对每个段提取短时和长时特征；并且根据所提取的短时和长时特征，得到关于音频流的分类结果。
全文摘要
基于长时特性的音频事件检测装置和方法。所述方法包括如下步骤将输入音频流分成一系列的小段；对每个段提取短时和长时特征；并且根据所提取的短时和长时特征，得到关于音频流的分类结果。
文档编号G10L11/00GK102486920SQ201010590438
公开日2012年6月6日申请日期2010年12月6日优先权日2010年12月6日
发明者刘昆, 卢鲤, 吴伟国, 赵庆卫申请人:中国科学院声学研究所, 索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘昆;吴伟国;卢鲤;赵庆卫
技术所有人：索尼公司;中国科学院声学研究所
我是此专利的发明人

上一篇：一种可调谐的负弹性模量声学超材料的制作方法
上一篇：手势识别装置及方法