多媒体显示系统和操作数据处理系统的方法

文档序号：80925阅读：214来源：国知局

专利名称:多媒体显示系统和操作数据处理系统的方法
本发明涉及用于播放多媒体作品的显示系统，更特别的，涉及根据与音轨相关的图象的剪切而改变音轨的声音处理系统。
包括具有叙述、背景声音、背景音乐的静止或运动图象的多媒体作品变得普遍起来。这种作品可以在互连网或CD-ROM上找到。用于在计算机上播放带有声音的运动画面的系统和其它数据处理系统普遍用例如VIDEO FOR WINDOWS的程序在计算机上重现作品。此外，声音的三维建模可以在VRML2.0中详细说明。在VRML2.0兼容浏览器中，通过为每个声源提供独立的音轨以及声源在情景中的定位，可以指定由情景中的各元素产生的声音。在相对于声源的任何位置上面向任何方向的听众所接收到的声音可以通过将各个声源组合来再生。
不同于固定的显示系统，基于计算机的显示系统允许观众剪切、放大并显示数字图象的一部分，卷动被放大的图象，并在另一个剪切帧中显示放大的图象。然而，对于静止图象或运动图象来说，以前技术的音频数据处理系统并不能根据被播放的图象中的变化来改变音轨。通常，同样的声音被再现而不考虑用户所选择的剪切帧。VIDEO FOR WINDOWS并不提供能够剪切运动画面图象和在屏幕上显示被剪切的图象的功能。出于该原因，作为被VIDEO FOR WINDOWS所使用运动画面文件的常规AVI文件，通常并不包括用于根据剪切帧在运动画面图象中的位置来控制多个音频流的数据。因此，如果视频流与多个音频流相关，传统的程序如VIDEO FOR WINDOWS缺乏根据用户对剪切帧在运动画面图象中的位置进行定义的情况来控制从多个音频流中解码得出的音频信号的能力。
虽然VRML2.0提供了产生相应于用户的视点的音轨所需的数据并因而创建了可以根据剪切等操作被改变的三维声音图象，利用VRML2.0的系统并不能根据视觉图象中的改变来改变“声音图象”。此外，VRML2.0实现的声音模型被定制以便实现三维声音效果，而非常不适合于处理与二维图象链接的音频数据的应用。因此，没有一个现存的程序可以自动地控制音频从而符合用户对运动画面图象中剪切帧的定义。
更广泛地说，本发明的目标是提供一种改进的音频处理系统以用于多媒体作品。
本发明的另一个目标是提供一个音频处理系统，能够根据用户选出的情景中的改变而改变音频的播放。
根据下述对本发明的详细描述和附图，本发明的所有目标对于该领域的技术人员将变得很清晰。
本发明是一种显示系统，用于演示包括表示静止或运动图象的图象数据以及与图象数据相关的声音数据的多媒体作品。该系统包括用于显示从图象数据得出的图象的显示器，用于将与该图象链接的第一和第二音频轨迹组合并播放的音频播放系统，用于根据显示系统的用户命令来选择显示器上图象的一个区域的定位系统。该系统还包括一个播放处理器，用于根据定位系统选出图象的新区域的情况改变被音频播放系统播放的第一和第二音频轨迹的组合。播放处理器还改变显示使得定位系统选出的图象部分在中央显示。在本发明的一个实施方案中，第一和第二音频轨迹包括在播放之前要被混合的音轨。在该实施方案中，图象包括当所选出的显示区域在图象的预定位置中被居中时，指定用于音轨混合的增益的数据。如果预定位置中不包括选出区域的中心，播放系统内插预定位置数据以提供将被用于音轨混合的增益。在本发明的另一个实施方案中，多媒体作品包括用于以多个分辨率指定图象的数据。在该实施方案中，定位系统还根据用户的输入选择其中一个分辨率。播放处理器然后根据选出的区域和选出的分辨率来改变被音频播放系统播放的第一和第二音频轨迹的组合。
本发明也是一种在多媒体作品播放过程中操作数据处理系统的方法，其中的多媒体作品包括图象数据和与图象数据相关的声音数据。在该方法中，从图象数据得出的图象被显示。与图象链接的第一和第二音频轨迹被组合并播放。数据被从选出显示图象的一个区域的用户处接收。根据所接收的数据，显示图象的所选出区域被居中显示并且第一和第二音频轨迹的组合被更改。

图1表示简单的多媒体显示。
图2是根据本发明一个实施方案的图象显示系统的简图。
图3是根据本发明另一个实施方案的声音和图象处理系统的方框图。
图4表示内插为图象中选出象素而存储的声音处理参数以获得新的声音处理参数。
参考图1，本发明实现其优越之处的方式会更容易被理解，其中图1说明了简单的多媒体显示。该显示包括由钢琴15和贝斯16组成的图象11和这两个乐器产生的音乐作品的音轨。该音轨是通过包括扬声器17和18的立体声系统来播放的。该立体声轨迹是由两个音频轨迹构成的，一个是钢琴的，一个是贝斯的。每个音频轨迹都有右分量和左分量，它们被混合以产生发送到扬声器17和18的信号。与图象11一致的信号的混合产生一个“声象”，其中钢琴显得离扬声器17近一些，而贝斯显得离扬声器18近一些。
很多播放系统允许用户通过在期望部分周围定义一个剪切帧来放大显示的各个部分。剪切的图象以其自己的帧的形式被重新显示。在一些系统中，剪切的图象被放大以填充原始帧。如上面提到的，以前技术的系统不能改变声象以考虑新的视觉图象。作为结果，剪切帧12中显示的被剪切图象将有一个声象，其中钢琴15在剪切帧中的位置仍然与它在原始帧中所占的位置相同。即，钢琴15仍然与扬声器17更近，即使它现在位于新帧的中间。这种声象和视觉图象中的不一致性对于人类观察者是一种干扰。
本发明解决了以前技术中显示的这一问题，其方式是根据对原始图象的剪切来改变声象。因此，在本发明中，当用户定义一个剪切帧例如帧14时，音轨被重新混合使得视声源同样在声象中运动位置。因此，在本发明中，当观察帧从原始帧11切换到剪切帧14中时，贝斯的声音将被运动使得它与扬声器17和18的距离相等。
现在参考图2，该图是根据本发明一个实施方案的图象显示系统50的一个简图。在该实施方案中，用户用例如施加到图象数据57的指针65来指定一个剪切帧，其中的图象数据在显示器70上显示。被剪切的图象边界通过剪切控制器51被输入，其中的剪切控制器51将新帧的限值发送到显示系统中适当的剪切子程序52。新图象边界还被送到增益控制器53，该控制器控制为每个音频轨迹产生的右和左扬声器信号分量的混合。在本发明的这个实施方案中，音频轨迹被独立处理并通过求和放大器58和59在播放系统66中被混合以给出最终被送往立体声系统中的左右声道61和62的左右信号。示例性的音频轨迹在54-56中给出。每个音频轨迹包括左、右分量，它们的相对增益由施加给相应放大器对的增益设置来确定。对应于音频轨迹54的放大器在63和64给出。通过调整左、右音频轨迹的相对增益，帧中该轨迹的声象的视位置可以从一边移到另一边。在图2的实施方案中，对应于情景中N个声学源存在N个这种音频轨迹。
在图1中给出的简单图象中，只存在两个这种音频轨迹，一个用于钢琴，一个用于贝斯。考虑剪切帧12中的图象，由于钢琴图象在接近中央处显示而贝斯图象在右边显示，两个乐器声音的立体声定位必须被改变使得钢琴声音表现为来自于靠近中央的位置，而贝斯声音表现为来自较远的右边位置。因此，图2中(R1，L1)和(R2，L2)受增益控制器的控制使得例如，左、右声道的相对增益现在是(R1，L1)＝(0.5，0.5)和(R2，L2)＝(1.0，0.0)。
如果通过来自用户的指令图象的显示位置改变到剪切帧14，那麽钢琴图象将在左边显示而贝斯将在图象中央附近显示。因此，增益控制器必须运动相对的增益使得例如(R1，L1)＝(0.0，1.0)和(R2，L2)＝(0.5，0.5)。
在本发明的这个实施方案中，对于图象中位于(x，y)的每个象素指定每个源的音轨属性。例如，为每个象素存储的信息P(x，y)除了图象象素值v之外，还可以包括每个音频轨迹的左、右声道增益，即，P(x，y)＝(v，R1，L1，R2，L2) (I)当图象被剪切使得剪切图象的中心不同于未剪切图象的中心时，从等式(1)得出的现在在显示中心的象素的数据被用来重新计算音频属性，其方式为根据通过剪切旧帧创建的新帧中该音轨的声源位置来改变每个音轨的相对混合。
本发明的教导也可以应用于多分辨率图象。出于该目的，多分辨率图象被定义为能够在两个或多个不同的放大倍数中观看的图象。这种图象可以通过缩放设置来明确。为了放大图象，即，增加放大倍数，用户可以指向图象中的具体位置。显示系统选出在新位置居中的区域，并用次最高分辨率水平来填充显示区域。实际上，显示系统在显示窗口的边界上剪切次最高分辨率图象。放大操作可以根据图象的左右定位线和距离来改变观察者的有效位置。因此，各个音频轨迹的音量和左右声道的相对增益必须被调整以便在图象被放大时提供实际的音轨。重新计算左右平衡以及每个音频源的幅度所需的数据可以通过在各种分辨率下为每个左、右放大器指定增益而明确。即，分辨率层r中的象素属性P(x，y，r)和位置(x，y)被定义为包括当(x，y)上的象素成为情景中心时将要使用的声道放大倍数，即，P(x，y，r)＝(v，R1，L1，R2，L2，...，Rn，Ln) (2)再次参考图1中的例子，当剪切帧被设置为帧14并且图象在原始帧中重新显示时，贝斯部分被放大，并且移到中心。在这种情况下，贝斯的声音从本质上被加大。如果新帧完全消除了钢琴，那么在本发明的某些实施方案中只有贝斯音频轨迹的声音将被播放，即，钢琴音频轨迹被衰减到0。然而，根据前面的讨论，对于该领域的技术人员很明显的是，钢琴轨迹仍然以衰减声级存在的实施方案也是实用的，并不偏离本发明的教导。
本发明的教导还可以应用于动画。在这种情况下，多媒体作品包括表示运动图象的图象数据，其中的运动图象包括帧序列。通过为每个运动画面帧中的每个象素引入声音值，使得当该象素变成帧的中心时，音频轨迹可以被调整，上面描述的方法可以一帧一帧的应用，即对于帧f中位于(x，y)的象素有P(x，y，f)＝(v，R1，L1，R2，L2，...，Rn，Ln) (3)这里，v是图象中相关象素的图象象素值，R1，L1，R2，L2…Rn，Ln分别是音频源1到n的左右声道增益。因此，可以根据观察区域中的改变在时间上改变立体声方位。
在多分辨率运动画面的情况下，可以存储每一帧的各个分辨率层的音频声道幅度，从而允许利用由缩放指定的视觉观察场中的变化及时调整音频源的相对音量。在这种情况下有P(x，y，f，r)＝(v，R1，L1，R2，L2，...，Rn，Ln) (3-1)虽然上面描述的本发明的实施方案使用了放大器来处理音频轨迹，根据以前的讨论，对于本领域的技术人员很明显的是，可以使用其它的处理器。众所周知的是，在声音图象处理技术中，声音图象中声源的视位置可以通过将数字化的音轨滤波而被改变。参考图3，该图是根据本发明另一个实施方案的声音和图象处理系统150的方框图。为了简化下面的讨论，系统150中具有图2中元件的相似功能的元件与图2中具有相似功能的元件的参考标号相差100。在系统150中，用户又确定一个用于剪切或放大的图象区域。关于新情景的信息被滤波器控制器153转换成一组滤波器系数，这些系数被数字滤波器施加给相关音轨。示例数字滤波器在163和164中给出。每个数字滤波器系数根据剪切区域的中心坐标(x，y)、分辨率层r、运动图象帧和位置来改变。
通过使用数字滤波器，可以实现音轨中更复杂的改变。例如，音乐厅场景中的音轨可以被改变，以便包括在情景缩放时被改变的回声，从而产生更真实的音轨。此外，这种处理可以为双耳声记录或伴音播放而定制，在双耳声记录中，声音通过双耳式耳机播放，而在伴音播放中，声音通过立体声扬声器而不是双耳式耳机来播放。在这两种情况的任何一种中，声源被修正以对应于用户选择的修正后显示中的正确位置。
以上所述增益控制器53，滤波器控制器153，放大器63、64，和数字滤波器163、164可以统称为播放处理器。
上面描述的本发明的实施方案使用了多媒体数据使得当任何给定象素成为显示中心时，可以访问到正确的声音属性，其中在多媒体数据中为所有象素提供了所有的声音属性。然而，根据前面的讨论，对于该领域的技术人员很明白的是，当任何特定象素成为显示中心时将使用的声音数据可以根据象素子组的声音数据计算出来。
例如，如果对于图4中201-204处的特定点，当剪切区域的中心坐标为(x，y)时，如果每个音频数据的左右声道的增益给定为P(x，y)，那么，对于具有如在205给出的中心的剪切帧的左右声道增益可以通过将点201-204给出的值内插而从为点201-204存储的值中获得。
(Ri(xc，yc)，Li(xc，yc))＝(1-A)(1-B)(Ri0，Li0)+A(1-B)(Ri1，Li1)+ (4)AB(Ri2，Li2)+(1-A)B(Ri3，Li3)其中当图象剪切区域的中心位置为(xc，yc)时，(Ri(xc，yc)，Li(xc，yc))是第I个音轨的左右声道增益，并且，当图象剪切区域的中心位置在第j个参考点时，(Rij，Lij)是音轨数据第I个分量的左右声道增益。这里，A和B是图象剪切区域的中心位置被图4中给出的4个参考点定义的矩型区域的宽和高所除的比例，即，0≤A，B≤1.
虽然图4中的例子用到了4个参考点，根据前面的讨论，对于该领域的技术人员而言很明显的是可以使用其它数量的参考点。如果例如，仅对声音图象的左右位置进行校正，那么只需要两个参考点。同样的，如果上面讨论的简单线性内插的结果不会令人满意，那么更大数量的参考点可以被使用。在这种情况下，距离新中心位置最近的参考点的子组被内插。另外，在使用高阶内插算法时可以使用额外的参考点。
上面讨论的内插方法已经以固定分辨率、非运动图象的形式被描述。然而，根据以前的讨论，对于本领域的技术人员很明显的是，类似的方法可以应用于多分辨率图象和运动画面，因为这些图象类型可以被看做单个分辨率、非运动图象的组合。因此，如果参考点被包括在每个单分辨率图象中，相关数据可以在单分辨率、非运动图象级别上被内插。还很明白的是，在运动画面的情况下，对于一些帧，参考点可以被省去。在这种情况下，用于丢失帧的参考点可以通过内插参考点而获得，其中的参考点是为关注帧每一边的特定帧而提供的。
虽然本发明以显示系统的形式被描述，但是根据上面的讨论，对于该领域的技术人员很明白的是，本发明可以被用于任何通常的具有播放多媒体作品的数据处理系统。在这种情况下，本发明可以通过改变播放子程序以提供各种上面参考本发明显示系统实施方案而描述的用户输入函数和混合函数来实现。
根据以前的描述和附图，对于该领域的技术人员来说，针对本发明的各种修正将变得很明白。因此，本发明仅受下面权利要求
的限制。
权利要求
1.用于播放多媒体作品的显示系统[50，150]，其中的多媒体作品包括图象数据和与所述图象数据相关的声音数据，所述系统包括用于显示从所述图象数据获得的图象的显示器[70]；用于组合并播放与所述图象链接的第一和第二音频轨迹[54，55，154，155]的播放系统[66，166]；用于在所述显示器[70]上选出所述图象中一个区域的指针[65，165]，所述选出区域由所述显示系统[50，150]的用户命令指定；剪切控制器[51]，用于输入被剪切的图像位置，并将其送至播放处理器[53，63，64，153，163，164]；以及播放处理器[53，63，64，153，163，164]，用于根据指针[65，165]在显示器[70]上选出新区域的情况来改变被所述播放系统[66，166]播放的所述第一和第二音频轨迹[54，55，154，155]的组合，并显示位于所述显示器[70]中心的所述新区域。
2.权利要求
1的显示系统[50，150]，其中所述第一和第二音频轨迹[54，55，154，155]包括在播放之前要被混合的音轨，并且其中所述图象包括当所述显示器[70]的所述选出区域在所述图象的预定位置中被居中时，指定将被用于所述混合的增益的数据。
3.权利要求
2的显示系统[50，150]，其中所述播放处理器[53，63，64，153，163，164]为所述预定位置内插所述数据以便当所述选出区域在不同于所述预定位置的点上被居中时为所述音轨提供增益。
4.权利要求
3的显示系统[50，150]，其中所述多媒体作品包括用于在多个分辨率下指定图象的数据，其中所述指针[65，165]还根据所述用户的输入来选出其中一个分辨率，并且其中所述的播放处理器[53，63，64，153，163，164]根据所述选出区域和所述选出分辨率改变被所述播放系统[66，166]播放的第一和第二音频轨迹[54，55，154，155]的组合。
5.权利要求
4的显示系统[50，150]，其中所述图象包括当所述显示器[70]的所述选出区域在预定分辨率下在所述图象的预定位置被居中时，指定用于所述音轨混合的增益的数据。
6.权利要求
5的显示系统[50，150]，其中所述内插处理器针对所述预定定位和分辨率内插所述数据以便当所述选出区域在不同于所述预定位置和分辨率的点上被居中时为所述音轨提供增益。
7.权利要求
1的显示系统[50，150]，其中对于每个所述音轨[54，55]，所述播放处理器[53，63，64，153，163，164]包括一个可变增益放大器，所述放大器的增益被根据所述图象的所述选出区域中的变化而设置。
8.权利要求
1的显示系统[50，150]，其中对于每个所述音轨[154，155]，所述播放处理器[53，63，64，153，163，164]包括一个滤波器，每个滤波器由所输入的滤波器系数控制，并且其中所述播放处理器[53，63，64，153，163，164]根据所述选出区域中的变化来改变所述滤波器系数。
9.权利要求
1的显示系统[50，150]，其中所述图象数据的每个象素包括声音参数。
10.用于在多媒体作品播放过程中操作数据处理系统的方法，其中的多媒体作品包括图象数据和与所述图象数据相关的声音数据，所述方法包括以下步骤显示从所述图象数据得出的图象；将与所述图象链接的第一和第二音频轨迹[54，55，154，155]组合并播放；根据用户选出所述显示图象的一个区域的情况接收数据；以及居中显示所述选出区域并根据所述接收的数据改变所述第一和第二音频轨迹[54，55，154，155]组合。
11.权利要求
10的方法，其中所述第一和第二音频轨迹[54，55，154，155]包括在播放前要被混合的音轨，其中所述图象包括当所述显示器[70]的所述选出区域在所述图象的预定位置被居中时，指定将要被用于所述混合的增益的数据。
12.权利要求
11的方法，其中对所述第一和第二音频轨迹组合的改变包括为所述预定位置内插所述数据以便当所述选出区域在不同于所述预定位置的点上被居中时为所述音轨提供增益。
13.权利要求
12的方法，其中所述多媒体作品包括用于在多个分辨率下指定图象的数据，其中所述接收数据还指定了其中一个所述分辨率，并且其中所述第一和第二音频轨迹[54，55，154，155]的组合依赖于所述选出区域和所述选出分辨率。
14.权利要求
13的方法，其中，当所述选出区域在预定分辨率下在所述图象的预定位置被居中时，所述图象包括用来指定将被用于所述音轨混合的增益的数据。
15.权利要求
14的方法，还包括当所述选出区域在不同于所述预定位置和分辨率的点上被居中时，为所述预定位置和分辨率内插所述数据以便为所述音轨[54，55，154，155]提供增益的步骤。
16.权利要求
10的方法，其中将所述音频轨迹[54，55，154，155]组合的步骤包括为每个所述音频轨迹[54，55，154，155]改变增益，所述音频轨迹的增益根据所述图象的所述选出区域中的变化被设置。
17.权利要求
10的方法，其中将所述音频轨迹[154，155]组合的所述步骤包括为每个所述音频轨迹[154，155]施加一个滤波器[163，164]，所述滤波器[163，164]中的每一个由滤波器系数控制，这些系数根据所述选出区域的变化而改变。
18.权利要求
10的方法，其中所述图象数据的每个象素包括声音参数。
专利摘要
用于演示多媒体作品的显示系统(50，150)，其中的多媒体作品包括图象数据和与图象数据相关的声音数据。该系统包括用于显示从所述图象数据得出的图象的显示器(70)，一个用来组合并播放第一和第二音频轨迹(54，55，154，155)的音频播放系统(66，166)，以及用来根据显示系统(50，150)的用户命令在显示器(70)上选择一个图象区域的定位系统(65，165)。该系统还包括播放处理器(53，63，64，153，163，164)用于根据选出新区域的定位系统(65，165)改变被音频播放系统(66，166)播放的第一和第二音频轨迹(54，55，154，155)的组合。播放处理器(53，63，64，153，163，164)还改变显示器(70)使得被定位系统(65，165)选出的图象部分位于显示器(70)的中心。
文档编号G06F3/14GKCN1126026SQ98808045
公开日2003年10月29日申请日期1998年8月11日
发明者K·纳高申请人:惠普公司导出引文BiBTeX, EndNote, RefMan

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：K.纳高
技术所有人：惠普公司
我是此专利的发明人

上一篇：液体加热容器的制作方法
上一篇：颗粒状粉粒及其制备方法和用途的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。