一种基于关注度分析的音视频文件摘要方法

文档序号：2830868阅读：528来源：国知局

专利名称：一种基于关注度分析的音视频文件摘要方法
技术领域：
本发明涉及音视频分析领域，更进一步涉及基于内容的音视频摘要分析领域，特别是一种基于关注度分析的音频文件摘要方法和基于此方法的音视频文件摘要方法。
背景技术：
音视频数据作为一种动态、直观、形象的数字媒体承载了大量丰富的语义信息，越来越多地出现在各类信息服务和应用场合，如何自动而高效地从大量音视频数据中挖掘出有效内容信息，建立音视频摘要和提取其中的精彩片段已成为当前基于内容的音视频分析领域一个前沿问题。
音视频数据是以非结构化形式存储的。通过建立音视频摘要、提取其中精彩片段一方面可以方便用户对音视频数据库内容进行基于语义的快速检索、浏览，有利于多媒体数字图书馆的建设。另一方面随着个人数字移动设备(手机、掌上电脑、商务通等)中多媒体技术的大量应用，也可以满足不断增加的人们对随时随地浏览音视频数据的要求。而且，无线传输设备带宽的限制，要求能够用有限的带宽成本来获得最有价值即最精彩的信息以节省下载花费，音视频摘要技术满足了这种移动用户定制需求。
当前基于内容的音视频分析主要分为两类一类是针对视频中客观事实的理解，所分析的对象是具有客观属性的，不以人的情绪变化或个体间的差异而发生改变；另一类是对音视频文件中传达的情感信息进行理解，是基于人们对音视频的主观感知来进行分析的。本发明关注后者。音视频中的一些片段通常会比其他部分内容更多地吸引观众的注意力，引起观众共鸣，影响其情绪变化，这些片段具有较高的情感关注度(attention)。情感关注度分析，也可称为注意力分析，就是要从音视频文件中自动获得这些具有较高关注度的片段，以帮助生成音视频摘要，便于音视频传输和个性化定制。
在现有技术中，虽然已有一些对音视频文件中音频关注度进行分析的工作，但他们在对听觉模态关注度方面的研究还很不够。目前在音频关注度分才斤方面專交为典型的工作是文章A generic framework of user attention model and its application in video summarization. Yu fei Ma, Xian sheng Hua， Lu lie, Hong jiang Zhang, IEEE transaction on multimedia, 2 0 0 5中提到的方法，i亥方法较为简单，其主要内容如下
首先，采用使用单一分类器结合音频底层特征进行训练与测试将视频文件中的音频进行分类；
然后，根据所述音频分类结果，对视频中的典型声音类型建立关注度分析模型，得到各声音类型的关注度曲线；
从底层特征角度出发对音频中影响用户关注度的主要因素一一音量元素与音量变化元素进行自底向上(bottom-up)建模
《=d
&《〃她《； & =五—/她^。r
其中f 。和^分别为归一化的音频平均能量与归一化的音频平均能量峰
值；￡_和￡—分别为音频平均能量与平均能量峰值；Mu&,和m^—分别为二者的最大值。
使用中层情感特征M，￡A与对音频中影响用户关注度的语音与音乐因素进行自顶向下(top-down)建模
印eec/ —八fw ，
其中风p"与队挂分别为音频中影响用户关注度的中层情感特征语音和
音乐因素的模型。A;w, AC , AC,分别为在一个滑动窗口 w范围内声音的语音、音乐和总共的亚节数(subsegment )。
最后，根据上述声音类型的关注度曲线确定摘要。
使用线性加权融合的方式融合上述各模型获得最终的用户关注模型，进而确定摘要
M = A x《+^ XU V^腿,c 。
在该模型形成的音视频文件关注度时序变化曲线上通过设定阈值选择超过阈值的峰值片断作为音视频文件的精彩摘要片断。
这种分析方法音频分类效果差，从而使后续的声音类型的关注度曲线
5精度低；且仅适用于特定类型音视频文件中的音频关注度分析，未对音频中其他影响用户关注度的因素进行分析，适用范围较窄。

发明内容
本发明的目的是克服现有的基于关注度分析的摘要方法音频分类效果差，且适用范围窄的缺陷，从而提供一种音频分类效果好，适用于各种类型音视频的内容分析的音视频摘要生成方法。
为实现上述目的，根据本发明的一个方面，提供了一种基于关注度分
析的音频文件摘要方法，包括下列步骤
1) 基于二叉层次型的分类树算法按照音频文件中的典型声音类型进行音频分类，其中所述二叉层次型的分类树算法在每一分类层选用不同特征和分类器；
2) 根据音频分类结果，对典型声音类型建立关注度分析模型，得到典型声音类型的关注度曲线；
3) 根据典型声音类型的关注度曲线确定摘要。根据本发明的另一方面，上述步骤l)包括下列步骤
11) 分割音频文件成为音频例子；
12) 基于所述二叉层次型的分类树算法，按照典型声音类型对所述音频例子进行分类。
根据本发明的又一方面，该音频例子的相邻音频例子间取50%的重叠。
根据本发明的又一方面，上述步骤2)中对典型声音类型建立关注度分析模型根据下列因素能量、音调和平均过零率。
根据本发明的又一方面，上述步骤2)还包括步骤将关注度分析模型计算的结果归一化至区间[O, l]。
根据本发明的又一方面，上述归一化采用高斯归一化标准。
根据本发明的又一方面，上述步骤3)采用顺序决策融合方法融合关注度分析曲线，进而确定摘要。
根据本发明的又一方面，上述典型声音类型包括精彩同步声音和精彩异步声音。
根据本发明的又一方面，上述步骤3)包括下列步骤使用精彩异步声音曲线粗略定位精彩片段右边界；利用语音边界检测精确定位所述精彩片断的边界。
根据本发明的再一方面，在步骤1)之前还包括对音频文件进行预加重处理的步骤。
根据本发明的再一方面，还提供了一种基于关注度分析的音视频文件
摘要方法，包括下列步骤
a) 基于二叉层次型的分类树算法按照音频文件中的典型声音类型进行音频分类，其中二叉层次型的分类树算法在每一分类层选用不同特征和分类器；
b) 根据音频分类结果，对典型声音类型建立关注度分析模型，得到典型声音类型的关注度曲线；
c) 对视频文件的时间关注度和空间关注度进行建模，得到视觉精彩度曲线；
d) 根据典型声音类型的关注度曲线和视觉精彩度曲线确定摘要。本发明采用基于二叉层次型结构与多分类器选择的音频分类树算法，
对音频的分类效果好。选取符合人类主观情感规律的特征进行建模，通过对音视频文件中影响观众注意力的主要因素进行分析，获得音视频情感关注度变化情况，进而生成摘要，具有框架扩展性强，可广泛适用于体育、影视、新闻、访谈等各类音视频文件的优点。综合模型中的精彩异步因素，采用非线性融合方法，使本方法具有鲁棒性和预测能力。

下面结合附图对本发明的具体实施方式
作进一步详细的说明，其中
图1是基于情感关注度分析的音频摘要算法流程图。
图2是基于二叉层次型结构与多分类器选择决策的音频分类算法示意图。
图3是基于情感关注度分析的音视频摘要算法流程图。
图4是顺序决策融合算法示意图。
图5是一段视频文件的情感关注度曲线示意图。
图6是精彩候选片断边界确定方法示意图。
具体实施例方式
本发明对于音视频文件从人类主观情感认知角度出发进行分析，选取最为有效的特征进行建模，提出符合人类主观感知规律的建模方法。
图1是根据本发明一个实施例的算法流程图。该方法具体步骤如下
首先，选择该音频文件中典型声音类型，特别是能够表达情感的声音类型，采用基于二叉层次型的分类树算法按照典型声音类型进行分类，将音频文件按照时序变化根据不同的典型声音类型进行标定。
每类音频文件都会有其代表性的典型声音类型，通常这些典型声音类型中包含了更为丰富的语义信息，更能引起观众的注意力。例如在访谈中，语音、静音、观众的笑声、掌声为其中的典型声音类型，一段精彩片断之后一般会紧跟观众的笑声或鼓掌声；在影视文件的音频中，语音、静音、音乐等声音为典型声音类型；在体育节目的音频中，观众欢呼声、解说员解说声、比赛相关声音等为典型声音类型，进球得分的精彩片断之后一般会跟随观众的欢呼声或者解说员的激烈解说声，进球时总会伴有击球声。一般伴随精彩片段同时出现的较为突出的声音类型称为精彩同步声音，例如上述的击球声；另外，有些声音类型会紧随精彩片段之后出现，称之为精彩异步声音，例如上述精彩片段发生之后的笑声和欢呼声。精彩同步声音模型是指对应于精彩同步声音类型的模型，精彩异步声音模型是指对应于精彩异步声音类型的模型。
以体育比赛中的音频文件处理为例对该步骤进行说明。为了减少尖锐
噪声影响，提升高频信号，对原始音频数据作预加重(re-emphasize )处理。
设x(")为原始信号，yO)为处理后信号，贝'J:
K") = -0.97*x("-1) 公式(1 )
将处理后的音频文件分割为定长的音频例子(audio samples ),相邻音频例子间取50%的重叠，将这些带有重叠的音频例子作为分类等后续处理的基本单元。
对音频分类，现有技术的音频分类算法基本上不使用分层结构，仅使用单一分类器(支持向量机SVM、隐马尔科夫模型HMM、 Adaboost分类器等)，分类特征固定，或简单使用融合多个分类器的单层结构采用投票判别决策的方法进行音频分类，分类效果较差。本发明提供了一种基于二叉层次型的分类树算法进行音频例子分类的方法。分类后，整个音频文件按照时序被分成了各个声音类型的片段，该分类结果作为对各个代表性声音类型建模的依据，还可以作为后续确定精彩候选片断边界的根据。该方法具体描述如下在音频分类的训练与测试时，分层次进行。每一层次可以分别选择对该层的两类声音类型分类效果最优的底层音频特征，并可以使用不同的分类器进行分类，如图2所示。
关于底层音频特征选择，在第一层使用能量(Energy)与过零率(Zero Cross Rate)两个特征来区分静音与非静音。在第二层使用MFCC(12维)， Pitch,静音比例，低频能量比率、高过零率比率来区分语音与非语音。其中，MFCC是Mel标度频率域提取的到谱系数，它描述了人耳对频率感知的非线性特征，常用于语音识别与说话人识别。音调(Pitch)是语音中的音调特征，是判别语音与非语音的重要特征之一。静音比例是音频例子特 ;f正，定义如下
<formula>formula see original document page 9</formula>
即一段音频例子中静音采样点个数占整个音频例子采样点数的百分比。由于语音较其他类型声音会有较多的停顿之处，所以静音比例是区分语音与其他类型声音的良好特征。低频能量比率为频域音频例子特征，在非静音音频中，语音比其他类型声音含有更多静音，因此语音信号中频域能量低于某个阈值的比例要高于其他类型，所以该特征也是区分语音与非语音的
一个显著特征。低频能量比率定义为
Z^i (3^二一Z[sgn(a^(￡72)-￡0)) + l] 7>式(3 )
高过零率比率定义为
ZC朋她=—y [sgn(ZC7 (") — 1. 5avgZC7 ) +1]
2AfS 公式(4)
以上两式中，W为一个音频例子中的帧数，五(")为第n帧的频域能量，
表示求平均运算，sgn表示返回括号内函数的整数。在第三层，使用短时
平均能量、过零率、带宽来判别欢呼声与非欢呼声。在欢呼声中过零率的
变化率要低于其他类型音频，所以该音频例子特征为区分欢呼声的良好特
征之一。第四层使用子带能量、带宽、过零率、频率中心特征来分类击球
声与其他类型声音。以上仅是以体育比赛中的音频数据处理示例，音频分
类特征的选择可针对不同音频数据根据上述思想进行扩展与更新。
由于采样、样本分布及特征提取方法的不同，不同的分类器会单独表
现出对某个单独特征或某个单独分类问题的偏好，所以综合各个分类器的优点将分类器进行组合与选择来进行决策判别可以提高分类的堆石用度/迟到比使用单一分类器更好的性能。在本发明中选用在音频分类中使用较多并具有较好分类效果的多种不同分类器作为候选分类器，如支持向量机
SVM、隐马尔科夫模型(HMM)、高斯混合模型(GMM)等。设使用的分类器集合为尸=^,《,......,^}，第i层的训练样本集合为x,^A:,;^,......,;u，
第i层的音频类别为4^4p^。对第i层上分类器巧的选择方法是
<formula>formula see original document page 10</formula>
max表示对括号内分式取最大值，arg表示取令括号内分式取最大值的参数J的值。所以公式(5)的含义是对该层的两类声音类型分类效果最优的分类器选择使括号内函数取得最大值的分类器。在测试时使用该分类器对未知数据进行分类可降低运算复杂度、提高运算效率。
在对代表性声音类型进行准确分类的基础上，本发明对音频文件中的代表性声音类型建立关注度分析模型，得到各声音类型的关注度曲线。
音频中影响用户关注度的主要因素有能量(五"wgv,)、音调() 和平均过零率(^)，其中能量的大小可以衡量各类声音的强弱程度，音调的高低可以衡量语音的尖锐程度，平均过零率可以衡量音乐的緩急程度。以上是优选因素，当然也可以综合其它因素，例如带宽、线性预测系数、子带能量等特征。如网球比赛的音频中典型声音类型包括语音、鼓掌声、笑声、音乐和击球声等，本发明采用上述因素对这些典型声音类型关注度模型表示如下
<formula>formula see original document page 10</formula>M'。"=C，') xl00% ^臓0匿欲)(弱〃 x 100%
<formula>formula see original document page 11</formula>
公式(10) <formula>formula see original document page 11</formula>公式(11 )
<formula>formula see original document page 11</formula>公式(12)
其中风^， ^，，碼。 , Mw,是分别对语音、鼓掌声、笑声、音
乐和击球声的关注度模型。n， p， q， r， k分别是每个音频例子中采样点数目。
把上述各声音类型关注度模型计算的结果归一化至区间[O， l]内，例如通过高斯归一化标准进行此操作。对于一段确定的音频文件的各个声音类型，连接每个音频例子上的相应关注度值，在时序上获得多条关注度变化曲线语音关注度曲线C^，笑声关注度曲线C,^,掌声关注度曲线 C，，音乐关注度曲线C^、和击球声关注度曲线Q,。这些曲线从不同方面反映了观众倾听该文件时的关注度变化情况。
融合所有声音类型的关注度曲线确定最终的音频文件时序精彩程度变化情况，以精彩关注度时序曲线表示。对各个不同的声音类型关注度模型，可以采用公知技术的方法，不考虑精彩异步声音模型的特殊性从而采用线性加权融合方式进行融合。本发明还提供了一种优选的顺序决策融合方法，该方法采用更为符合人类主观感知特点的非线性融合方法，具有更强的鲁棒性与预测能力。采用顺序决策融合算法获得的音频例子的精彩关注度如下式所示
乾-(、.气e+A歸I画+H^CeH"G(") 公式(13 )
其中、e，义自，4,分别为每个精彩同步声音模型的权重，满足均大于0且
l+U4, = i。 p， q分别为精彩异步声音片段(掌声和笑声)的持续时
间(以秒为单位)。G(")为高斯平滑窗，n是平滑参数，优选的n取60。由音频文件精彩关注度形成的曲线即是该文件的精彩关注度时序曲线。
如公知技术的方法，可以直接使用阈值法在音频文件的精彩关注度时序曲线上选取超出阈值的片断作为精彩候选片断(阈值/可根据具体需要设定)。该方法尤其适用于不存在精彩异步影响因素的音频文件，例如恐怖片、纪录片等。若音频文件中存在精彩异步影响因素，例如情景喜剧、访谈节目等，还可以采用如下所述优选方案。以上述体育比赛为例，一般在精彩片段发生后会马上出现一段欢呼声。
首先，使用精彩异步声音曲线和C，粗略定位发生在观众掌声或欢呼声之前的精彩片段位置。在对整段音频文件进行准确分类的基础上，以精彩异步声音如笑声等发生的左边界作为精彩候选片断的右边界，从该处开始向前查看，若其之前的语音片断长度^e大于预先设定的阈值则将该语音片断的开始点设为精彩候选片断的左边界，否则继续向前查找前一段语音片断的开始点直到该片断长度大于或等于Ar为止。
再利用语音边界检测(静音检测)来精确定位这些精彩片断的左右边界。因为在语音片断中一句完整的意思表达完之后会有一小段停顿，所以需要找出这些语音中的停顿点以避免在最初确定边界时破坏视频的完整性。左右边界之间的那段视频片断就是最终的摘要，如图3所示。
上述是音频摘要方法，不仅可以对单纯的音频文件进行处理，也可以对音视频文件中的听觉模态进行处理。同时对于后者，在该方法的基础上增加视频关注度的分析，从而综合听觉与视觉两方面的因素对各类音视频
文件进行更完善地摘要处理，音视频相结合的关注度分析算法流程如图4所示。
其中视频关注度分析方法具体步骤如下
视频文件中的图像特征如颜色、紋理、形状等可以从一帧图像中计算获得，称为"视频帧内特征"。与其对应的，需从至少两帧图像中获得的图像特征称为"视频帧间特征"。由于视频文件中的精彩片段通常会持续多帧，单一视频帧的个别情况通常对整段视频影响不大。所以本发明从运算效率角度出发采用与精彩片段密切相关的4见频帧间特征"来对视觉关注度建立评价标准。
视觉模态不仅包含空间信息也包含时间信息，这些信息都会对用户注意力产生影响。本发明在视觉模态分别对空间信息与时间信息进行关注度表示。通常平均运动向量(motion vector)可以较好地表征视频帧间的运动情况，当一秒钟内的平均运动向量较大时该视频场景往往具有较大的运动变化强度，更易于吸引观众的注意力。尽管有些时候运动向量并没有真实地反映视频中的运动信息，但利用这一特征可以在绝大多数情况下降低运算复杂度并得到正确结果。本发明把视觉空间信息关注度M_表示为<formula>formula see original document page 13</formula>
其中MJ^表示从解码过程中获得的第i帧的运动向量，k为视频帧速(例
如25帧/秒)。
在时间维度，镜头转换率(shot change rate)通常被用于描述摄像机运动。当镜头切换较为频繁时，通常是视频内容紧张激烈的时刻，观众的注意力也更容易被吸引。视觉时间信息关注度M^表示为
<formula>formula see original document page 13</formula>
其中pw和分别是第*帧左右两侧最近邻的镜头边界帧号；参数5 为常数，由w("-p("确定，用于保证M^的值分布于0%到100%之间。
类似地，各视觉精彩度评价公式的取值范围也可以使用高斯归一化标准限定在区间[O， l]内，对于一段确定的视频文件，可以使用上述公式(14) 和(15)在时序上获得两条视觉精彩度曲线视觉空间关注度曲线C一视觉时间关注度曲线Q。综合语音关注度曲线C，、笑声关注度曲线C,^、掌声关注度曲线C,、音乐关注度曲线。 ,和击球声关注度曲线^,,基于顺序决策融合算法将多条曲线进行融合得到最终的音视频文件关注度时序变化曲线，如图5所示。一段音视频文件的情感关注度曲线如图6所示。
与音频摘要类似，音视频摘要的顺序决策融合算法表述如下使用精彩同步模型m^，《m， m,一m_, i^,等结合精彩异步模型m^， m,。a来
确定最终的视频文件时序精彩程度变化情况。采用该顺序决策融合算法所获得的视频文件精彩程度评价标准如下式所示<formula>formula see original document page 13</formula>
其中V， l， l，义，，4分别为每个精彩同步声音模型的权重，满足均大于0且V+4j^+UK p, q分别为精彩异步声音模型掌
声模型、笑声模型的持续时间(以秒为单位)。G(")为高斯平滑窗，n是平
滑参数(如n可取60)。
本发明适用于各类型音频及音视频文件摘要的提取，其中不同类型文
件仅需在关注度建模时作细微的调整，整体方法不变。该方法具有计算复
杂度较低、得到的摘要片段符合人类主观感知规律的优点，在实验中使用
本方法生成的音频和音视频文件摘要取得了良好的效果。应该注意到并理解，在不脱离后附的权利要求所要求的本发明/々精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
权利要求
1.一种基于关注度分析的音频文件摘要方法，包括下列步骤1)基于二叉层次型的分类树算法按照音频文件中的典型声音类型进行音频分类，其中所述二叉层次型的分类树算法在每一分类层选用不同特征和分类器；2)根据所述音频分类结果，对所述典型声音类型建立关注度分析模型，得到所述典型声音类型的关注度曲线；3)根据所述典型声音类型的关注度曲线确定摘要。
2. 根据权利要求1所述的方法，其特征在于，所述步骤1 )包括下列步骤11) 分割音频文件成为音频例子；12) 基于所述二叉层次型的分类树算法，按照所述典型声音类型对所述音频例子进行分类。
3. 根据权利要求2所述的方法，其特征在于，所述音频例子的相邻音频例子间取5 0%的重叠。
4. 根据权利要求2所述的方法，其特征在于，在步骤12)中，在所述每一分类层采用对该层两类典型声音类型分类效果最优的音频特征。
5. 根据权利要求2所述的方法，其特征在于，在步骤12)中，在所述每一分类层根据分类器能够正确分类的概率选择分类器。
6. 根据权利要求1所述的方法，其特征在于，在所述步骤2)中对所述典型声音类型建立关注度分析模型根据下列因素能量、音调和平均过零率。
7. 根据权利要求1所述的方法，其特征在于，在所述步骤2)还包括步骤将所述关注度分析模型计算的结果归一化至区间[O, l]。
8. 根据权利要求7所述的方法，其特征在于，所述归一化采用高斯归一化标准。
9. 根据权利要求1所述的方法，其特征在于，所述步骤3)采用顺序决策融合方法融合所述关注度分析曲线，进而确定摘要。
10. 根据权利要求1所述的方法，其特征在于，所迷典型声音类型包括精彩同步声音和精彩异步声音。
11. 根据权利要求1所述的方法，其特征在于，所述步骤3)包括下列步骤使用精彩异步声音曲线粗略定位精彩片段右边界；利用语音边界检测精确定位所述精彩片断的边界。
12. 根据权利要求1所述的方法，其特征在于，在所述步骤1)之前还包括对所述音频文件进行预加重处理的步骤。
13. —种基于关注度分析的音视频文件摘要方法，包括下列步骤a) 基于二叉层次型的分类树算法按照音频文件中的典型声音类型进行音频分类，其中所述二叉层次型的分类树算法在每一分类层选用不同特征和分类器；b) 根据所述音频分类结果，对所述典型声音类型建立关注度分析模型，得到所述典型声音类型的关注度曲线；c) 对视频文件的时间关注度和空间关注度进行建模，得到视觉精彩度曲线；d) 根据所述典型声音类型的关注度曲线和所述视觉精彩度曲线确定摘要。
全文摘要
本发明提供一种基于关注度分析的音频文件摘要方法和基于此方法的音视频文件摘要方法。该音频文件摘要方法包括下列步骤1)基于二叉层次型的分类树算法按照音频文件中的典型声音类型进行音频分类，其中二叉层次型的分类树算法在每一分类层选用不同特征和分类器；2)根据音频分类结果，对典型声音类型建立关注度分析模型，得到典型声音类型的关注度曲线；3)根据典型声音类型的关注度曲线确定摘要。该方法结合音视频文件的视觉模态分析可以更好的完成音视频文件摘要方法。本发明对音视频的分类效果好。选取符合人类主观情感规律的特征进行建模，具有框架扩展性强，可广泛适用于体育、影视、新闻、访谈等各类音视频文件的优点。
文档编号G10L15/00GK101539925SQ20081010234
公开日2009年9月23日申请日期2008年3月20日优先权日2008年3月20日
发明者蒋树强, 郑轶佳, 黄庆明申请人:中国科学院计算技术研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑轶佳;黄庆明;蒋树强
技术所有人：中国科学院计算技术研究所
我是此专利的发明人

上一篇：一种汉语普通话中平舌音和卷舌音的客观测试方法
上一篇：一种基于仿生模式识别的声纹识别方法