用于计算视听文件的显著性的方法和设备的制作方法

文档序号：6468918阅读：89来源：国知局

专利名称：用于计算视听文件的显著性的方法和设备的制作方法
技术领域：
本发明涉及一种用于计算视听文件的显著性图(salience map)的设备和方法。
更具体地，本发明涉及识别用于确定视听文件的显著性的音频特征。
背景技术：
确定视听文件的显著区对于诸如压縮(举例而言，将显著区编码为更多的比特，或改变所述区域的量化步长)、索引(可以利用这些显著区内的信息对文件进行索引)等不同应用而言十分有用。
存储多种用于确定视频文件的显著性的方法。以汤姆森许可贸易公司的名义于2004年12月14日提交的欧洲专利EP1695288就描述了一种特别有效的用于建立视频文件的显著性图的方法。
然而，在某些情况下，视频不支持以足够精确的方式获得视听文件的显著性。

发明内容
为了改进现有方法的实用性，本发明提出将音频特征与视觉特征进行关联。
为此，本发明提出了一种用于确定视听文件的显著性图的设备和方
法，其特征在于，所述方法包括以下步骤
-相对于所述文件的视频部分，计算显著性图， -确定至少一个代表所述文件的音频描述符，
-作为所述音频描述符的变化的函数来加权所述视频显著性图。优选地，所述音频描述符从以下描述符中选择 -所述文件的总音量， -声学环境，-各音频声道的音量， -音量的时间变化， -音量的空时变化，以及上述成分的任意组合。
优选地，当把各音频声道的音量和总音量用作音频描述符时， -作为各声道的音量和所有声道的音量的函数来计算(E3)各音频声道的增益。
有利地，
-为每个视觉显著性大于预定程度的像素确定加权窗口，所述像素被称为视觉显著像素，
-在图像中确定所述视觉显著像素位置的空间位置，
-作为各音频声道的增益和图像内像素的空间位置的函数，针对每个视觉显著像素计算各声道的加权函数。
根据一优选实施例，
-针对每个声道和图像的每个像素，作为其在图像中的空间位置和所述音频声道的增益值的函数，计算加权函数。
优选地，每个声道的所述加权函数是线性函数，使得同在空间上远离所述声道的像素相比，位于所述声道侧的像素具有更大的权重。
有利地，当音频类型为立体声时，对于左声道的加权函数，位于图像左侧的像素具有较大的权重，并且，位于图像右侧的像素具有较小的权重。
根据一优选实施例，
-相对视频部分，将多个加权函数与显著性图相乘，从而获得多幅显著性图，
-所述视听显著性图是通过对所述显著性图取平均的方式获得的。优选地，用取决于音量的时间变化的系数对所述显著性图进行加权。本发明还涉及一种用于确定视听文件的显著性图的设备。根据本发明，所述设备包括以下装置-用于相对于所述文件的视频部分，计算显著性图的装置， -用于确定至少一个代表所述文件的音频描述符的装置， -用于作为所述音频描述符的变化的函数加权所述视频显著性图的装置。

参考附图，以非限制的方式，借助于实施例和实施方案，本发明将得到更好的理解和说明。附图中
图1示出了本发明的实施例，以及应用于视听文件的本发明的效果，图2示出了加权函数应用中心的示例，
图3描述了一优选实施例，该实施例将视频图的显著点及其相关加权窗口显示为应用中心和加权函数，
图4a和4b分别针对右声道和左声道示出了立体声情况下加权函数的第一变化的示例，
图5a和5b分别针对右声道和左声道示出了立体声情况下加权函数的第二变化的示例，
图6a和6b分别针对右声道和左声道示出了立体声情况下加权函数的第三变化的示例，
图7a和7b分别针对右声道和左声道示出了立体声情况下加权函数的第四变化的示例，
图8示出了总音量和时间衰减系数间的关系。
具体实施例方式
所示模块是功能单元，功能单元可能与物理上可区分的单元相对应，也可能不与物理上可区分的单元相对应。例如，可以将这些模块或其中的某些模块组合成单独的组件，或同一软件的组成功能。相反，某些模块可由多个分离的物理实体构成。
图1示出了应用于视频序列的本发明的优选模式的实施例，所述视频序列显示一个高尔夫球正在向另一个高尔夫球说话。
在步骤E1中，根据来自视觉注意力模型的视频文件确定显著性图。正如在视图Cl和C2中所确定的那样，针对每幅图像Iml和Im2分别获得一幅显著性图。接着，可以观察到，在所获得的两幅显著性图Cl和C2 上，与每个球相关的显著性极其相似。事实上，两个球具有极其像素的特征。然而，与这些球相关的声音却存在很大差异。事实上，右侧的球在听，而左侧的球在说。观看视听文件的人的注意力自然集中于左侧的球。因此，所获得的显著性图Cl和C2无法充分代表视听文件的特征。
因此，在步骤E2中，确定代表视听文件的音频内容特征的音频描述符。
在这些描述符中，确定来自音轨的描述符
-各声道(右(r)、左(1)、下(b)、上(t)、右后(rl)、左后(bl)等)的音量 (CSL)，
-总音量(OSL)(静默期、活动期)，即CSL声道的音量的总和， -声学环境(AE)，
-音量的时间变化(SLTV)(从静默变为活跃) -音量的空时变化(SLSTV)(从左到右变化，等)
根据上述音频描述符，在步骤E3中确定加权函数。该加权函数根据显著性需要被强调还是减弱，将各像素与较大或较小的权重相关联。因此，该函数支持将图像分辨率作为尺度。默认情况下，即当没有可用的音频数据时，加权函数是均匀的，即对于整幅图像而言加权函数的取值为'T'。
考虑吝声微體
如果可以使用立体声，那么存在两条声道，每条声道分别针对于图像的一侧。因此，如果例如位于图像右侧的人说话而位于图像左侧的人不说话，因而需要强调右侧时，那么当编辑视频上的声音时，可以同左侧相比可以给右侧分配更多的声音。
因此，声音不必针对图像整体，而可以更加局部化。举例而言，采用立体声，可以将左右区分开来。釆用Dolby 5.1的声音，可以将左、右、前、后等区分开来。
各声道定义了加权函数，后者具有取决于其音频掩蔽能力的增益。由于相对于其他声音，幅度较小的声音是无法被听到的，因此承载该声音的声道具有较低的增益。加权函数优选是具有单位幅度的高斯函数，记为具有不同增益的Gauss。 ((7表示高斯包络的空间范围)。
可以通过预定栅格为各声道设置加权函数应用中心。图2给出了一个示例(举例而言其中存在6个声道，因为此时各点均匀分布在图像上)。
该图示出了 9个点，加权函数将这9个点作为它们的中心。
加权函数的应用中心优选位于图3所示的各象限中最显著位置。如果决定仅仅保留预定数量的显著点，那么就使用显著程度大于预定门限的显著点，或者即使了解显著点的位置，在图像的减弱区域包含大量显著点，并且图像包含多个分布显著区时，也仅保留一显著点。
在其他实施例中，可以使用拉普拉斯型函数，利用以某些点为中心且具有固定或可变尺寸的方形窗口来表示该函数。
各音频声道的增益由下式给出 G"/",X =--7
Gc^『e/g/^表示声道i的增益，CSLi表示声道的音量。 P是指数，优选值为2，
s是一个较小的常数值，用于防止以零作为除数。如果声道具有相同的音量或极其接近的音量，那么与各声道相关的增益就是相同的。然而，如果同其他声道的音量相比，某个声道音量更高，那么它的增益就更高。
各声道增益与先前定义的加权窗口的增益(记为权重)相乘。
该加权窗口的幅度取决于声道的增益。
因此，当加权函数的应用中心位于最显著位置时，就定义了如图3所示的该最大值周围的加权窗口。在立体声模式下，最显著位置对于应用该加权函数而言是十分重要的。事实上，对于位于图像右侧的最显著位置，对其应用右声道的G。/"^/g&值是很重要的，而对于位于图像左侧的最显著位置，对其应用左声道的G"^)^z'g^值是很重要的。因此，计算最显著位置相对于图像边缘的距离。对于右声道的加权函数，对位于图像右侧边缘附近的最大值应用较高的Ga^^/g^ ，而对位于图像左侧边缘附近的像素应用较低的系数。
对于左声道的加权函数，对位于图像左侧边缘附近的最大值应用较高的&&,&/^ ，而对位于图像右侧边缘附近的像素应用较低的系数。
当视频不是立体声而是Dolby 5.1时，则不关于图像边缘而关于图像
中的某一位置，计算距离。根据该点，确定声道对该点的影响。
为了将距离考虑在内，可以向前式Ga&^/g似2, = Ga/",/g似,*『e/g/7/加入另一个加权因子。
因而，依赖于距离概念的等式可变为
a取决于偏离于中心(xc,yc)的程度。艮卩，对于当前(x,y)， alpha(x,y)= (x-xc)2陽(y-yc)2。因此，如果(x,y)气xc,yc)， alpha趋向于0，并且alpha随当前位置相对于中心位置的距离的增加而增加。
图4a至7b示出了立体声情况下Gainweight2的不同实施例，所述立体声包含右声道和左声道。
这些实施例不仅改变如上所述的视觉图的最显著位置，还改变图像中所有点的显著性。
图4a示出了右声道的第一实施例。C^"^/g/7^/对于位于图像右侧的点具有最大值，对于中心点和位于中心左侧的图像的点C^/"^/g似2c/为1。
图4b示出了左声道的第一实施例。G。/"P^g&2g对于位于图像左侧的点具有最大值，对于中心点和位于中心右侧的图像的点Gc^『e妙r2g为1。因此，『e/g似表示线性函数。
线性函数是预定义的，其变化可以取决于用户所需的调节强度。
在图4a和4b，还应注意的是，左声道的增益大于右声道的增益。因此，当乘以加权函数时，同右侧点相比，左侧点将获得更突出的显著性。
图5a和5b示出了向左和向右的对数递减。
图5a示出了右声道的第二实施例。Go/n^/g^2d对于位于图像右侧的点具有最大值，对于中心点和位于中心左侧的图像的点G"&『"'g似2d为1。因此，『dg似表示递增指数函数exp(x)。
图5b示出了左声道的第二实施例。Gm'"^妙Cg对于位于图像右侧的点具有最大值，对于中心点和位于中心左侧的图像的点，G"&^/gM2g为1。因此，『e/g似表示递减指数函数exp(x)。
递增或递减函数是预定义的，其变化可以取决于用户所需的调节强度。
图6a示出了右声道的第三实施例。G^,妙f2c/对于位于图像右侧的点具有最大值，对于位于中心右侧的图像区域(如位于图像右侧四分之一部分内的图像区域)，G。/"f^妙^/保持不变。在其他位置Gfl/n,妙r2d的值为'T。
图6b示出了左声道的第三实施例。G^^妙,2d对于位于图像左侧的点具有最大值，对于位于中心左侧的图像区域(如位于图像左侧四分之一部分内的图像区域)，Gfl/"^/g&2"保持不变。在其他位置Ga/"^妙^/的
值为"r。
该函数是预定义的，其变化可以取决于用户所需的调节强度。
图7a示出了右声道的第四实施例。Gm'"^/g似2c/对于位于图像右侧的点具有最大值，并向图像左侧线性下降。
图7b示出了左声道的第四实施例。Gd"^/g似2g对于位于图像左侧的点具有最大值，并向图像右侧线性下降。
最后两条曲线的斜率是相同的。右声道的增益大于左声道的增益，同位于图像左侧的点相比，位于图像右侧的点在显著性上具有更大的增益。该函数是预定义的，其变化可以取决于用户所需的调节强度。
在图1的步骤E4中，用所有N个加权函数与视觉显著性图相乘。然后，对所获得的N幅图取平均，从而获得中间图SMMod。
已知视觉显著性图SM，
已知视听显著性图SMMod，
已知N个声道，
已知縮放因子Norm，
此时，可以根据下式获得视听显著性图
SMMoc/ = SM(l + ^Gm'"^z'g/^2,。股)，其中Ga/"PFe/g似2,。股、Ga/"『eZg&2, 的值由加权窗口的取值的和进行了归一化。孝虑妾量游緣7变众。
在步骤E5中，考虑音量的时间变化。
当音量突然改变时，更具体地说，当音量从低变高时，视觉关注度提高。此外，当变为静默时，视觉关注度必然较弱。
因此，提出在时间上应用显著度调节系数，记为TAC(时间衰减系数)。图8示出了 TAC系数作为总音量的函数而变化的示例。
时间衰减系数TAC取决于总音量OSL的数值的时间变化，所述时间变化可以通过在几秒内取积分的方式获得，也可以通过对其幅度取时间平均的方式来获得。将该系数均匀地应用于显著性图。默认情况下，该系数为1。
换言之在静默期内，用接近于O的系数对显著性进行加权，以免对一区域赋予高于另一区域的优先级。
还应注意的是，正如在前述不同实施例中所描述的那样，本发明往往减弱图像中心的显著性。然而，有时更重要的不是减弱该显著性而是强调该显著性。
默认情况下，如果不同声道的增益是相似的(声音均匀分布在声道之间)，默认情况下或者不采取任何处理，或者强调中心位置。
上述应用具体应用于两人对话的环境。对于更为一般的情形，图像中心仍然是吸引注意力优先区域。
权利要求
1. 一种用于确定视听文件的显著性图的方法，其特征在于，所述方法包括以下步骤-相对于所述文件的视频部分，计算(E1)显著性图，-确定(E2)至少一个代表所述文件的音频描述符，-作为所述音频描述符的变化的函数来加权(E4)视频显著性图。
2. 根据权利要求1所述的方法，其特征在于，所述音频描述符从以下描述符中选择-所述文件的总音量， -声学环境， -各音频声道的音量， -音量的时间变化， -音量的空时变化，以及上述成分的任意组合。
3. 根据权利要求1或2所述的方法，其特征在于当把各音频声道的音量和总音量用作音频描述符时，-作为各声道的音量和所有声道的音量的函数来计算(E3)各音频声道的增益。
4. 根据权利要求3所述的方法，其特征在于-为每个视觉显著性大于预定程度的像素确定加权窗口，所述像素被称为视觉显著像素，-在图像中确定所述视觉显著像素位置的空间位置，-针对每个视觉显著像素，作为各音频声道的增益和图像内像素的空间位置的函数来计算各声道的加权函数。
5. 根据权利要求3所述的方法，其特征在于-针对每个声道和图像的每个像素，作为其在图像中的空间位置和所述音频声道的增益值的函数来计算加权函数。
6. 根据权利要求5所述的方法，其特征在于每个声道的所述加权函数是线性函数，使得同在空间上远离所述声道的像素相比，位于所述声道侧的像素具有更大的权重。
7. 根据权利要求6所述的方法，其特征在于当音频类型为立体声时，对于左声道的加权函数，位于图像左侧的像素具有较大的权重，而位于图像右侧的像素具有较小的权重。
8. 根据权利要求4所述的方法，其特征在于-相对于视频部分，将多个加权函数与显著性图相乘，从而获得多幅显著性图，-所述视听显著性图是通过对所述显著性图取平均的方式获得的。
9. 根据权利要求5所述的方法，其特征在于用取决于音量的时间变化的系数对所述显著性图进行加权。
10. —种用于确定视听文件的显著性图的设备，其特征在于，所述设备包括以下装置-用于相对于所述文件的视频部分，计算显著性图的装置， -用于确定至少一个代表所述文件的音频描述符的装置， -用于作为所述音频描述符的变化的函数来加权所述视频显著性图的装置。
全文摘要
本发明涉及一种用于确定视听文件的显著性图的设备和方法。所述方法包括以下步骤相对于所述文件的视频部分，计算(E1)显著性图，确定(E2)至少一个代表所述文件的音频描述符，作为所述音频描述符的变化的函数来加权(E4)所述视频显著性图。
文档编号G06F17/30GK101470756SQ20081018851
公开日2009年7月1日申请日期2008年12月19日优先权日2007年12月20日
发明者亚历山德拉·尼纳斯, 奥利弗·勒默尔, 让-克洛德·舍韦申请人:汤姆森许可贸易公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：奥利弗.勒默尔;让-克洛德.舍韦;亚历山德拉.尼纳斯
技术所有人：汤姆森许可贸易公司
我是此专利的发明人

上一篇：托架装置以及能连接到托架装置的电子设备的制作方法
上一篇：多路径大概率优先综合清分模型的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。