与视频/音频播放协同的视频/音频及图形演示系统的制作方法

文档序号:7583556阅读:209来源:国知局
专利名称:与视频/音频播放协同的视频/音频及图形演示系统的制作方法
技术领域
本发明涉及图形对象如重叠在多媒体电视演示上的文本或画面(sprites)的显示,更准确的说,涉及与多媒体演示协同的动画图形显示或视频、音频的播放。
许多视频应用,包括交互式以及多媒体应用,利用视频观众的装备能够在象电视或个人计算机显示器的视频屏幕上重叠图形显示,这些图形显示或者象许多电子节目向导或菜单的情况那样控制整个屏幕,或者控制其一些部分,在这些图形重叠后的影像,整个或部分地变朦胧,从而干扰了景物的感受,用于电子节目向导演示的系统,例如在美国专利5,737,030,5,592,551,5,541,738和5,353,121中所描述的,显示这种向导时或者在屏幕上缺乏视频影像,或者使用静止帧,或者是活动影像简单地作为背景,并且在影像中的项目位置和图形叠加位置之间不相配合。
当前,观众的设备如象机顶盒(STB)还没有能力确定对象是否位于视频影像中,在视频影像中对象位置的确定是必需的,以便在视频演示时在不干扰对象显现的位置上放置图形对象,如屏幕上的文本或动画角色。
如象在美国专利5,585,856中描述的这一系统,通过把设计成与视频内容相适应的图形重叠屏,试图协调视频和包含在广播流,或预先存储在观众的设备中的图形显示。然而,这些屏必需在演示之前被完好地生成,故此缺乏灵活性,以合适地产生及显示无干扰的图形重叠。另外,这种系统在演示时于特定的“触发点”显示图形,而不是在贯穿演示过程的任意点上。
另外的系统是附加图形或音频内容到现存的演示中,例如在美国专利号5,708,764中所描述的系统,它要求演示过程中观众的主动参与。观众例如可被要求在演示之前或演示期间回答一些问题,这些响应则在预定时间被显示在屏幕上。
为各个用户提供的个性化内容的系统在Web浏览的环境中是熟知的。其它的系统,例如在美国专利5,585,858和4,616,327中所描述的系统,由观众设备以预定的文本或图形,提供有限的介绍。如美国专利4,839,743,4,786,967和4,847,700所描述的某些系统,通过少量改变同时广播的视频和音频道中选择,提供音频和/或视频的个性化,此选择在观众的设备上实现。
需要这样的系统,借此使视频对象的位置和定时以及音频事件为观众的显示设备所知,给这种设备以灵活性,按适应的方式遍及整个演示而不是在有限的点上,在其认定合适的时间和位置加入不引起干扰的图形或音频。这种能力将使观众的设备产生协同的视频/音频/图形演示,无须观众在演示过程中的主动参与。这种系统必须允许协调未预先存储的图形内容如广播新闻公告,以及执行静止或动画视频图形重叠,视频叠加或替代,还有与演示的现有视频和音频内容协调的音频替换。
本发明是用以规定及使用信息的一系统,它使与数字视频演示的视频和音频演播协同显示或演播音频、视频或图形对象成为可能。由此得以提高的演示可通过广播或以点播电视脚本的方式得到。在视频分配系统上,视频可从象陆地电视广播那样的单向系统中得到,或者利用双向通信,如象带有返回信道能力的光纤/同轴混合有线系统。
本发明通过在视频或音频演示中定义视频和音频“窗口(holes)”,在这些窗口中没有明显的视频或音频活动,使得能够协同演示附加的音频、视频或图形。上述的“窗口”的位置和时间都处在视频演示之中,图形或音频对象由STB(机顶盒)合适地呈现在这些“窗口”中,STB被告知与这些“窗口”相关的位置和/或时间,以及其它的信息,这些信息表示STB需要呈现的素材的特性。
用了这些信息,本发明允许STB明智地安放图形对象到屏幕上或演播的音频或视频内容中,并避免干扰视频对象或音频事件。由STB显示的图形对象可以是静态的或动态的,即动画方式的。这样,本发明还能够产生视频演示,其中在原始视频或动画中的对象与通过观众的设备添加的视频或图形对象协同交互以及移动。例如,一卡通可被产生,其中几个角色可同时在屏幕上见到,并且一个“窗口”留给附加的动画角色,该角色由观众的设备如STB所添加。
另外,“窗口”可被定义在相对不重要的角色位置上,这个角色能被STB-动画角色所遮蔽。当观众的STB不支持本发明时,将仍然能看到没有视频“窗口”的演示。关于什么类型的角色可被添加,加在屏蔽上什么位置,什么时间,以及可选择的此附加角色的运动信息,必需在角色显示之前递交给STB。
类似地,此发明允许协调演示的音频内容和由STB产生的音频内容之间的音频播放。
此发明允许由STB产生的视频,图形或音频内容的个性化。个性化是通过观众当他或她指定几个个人参数,例如经观众界面输入的名字及年龄而得到的。接着以上的例子,孩子的名字也可以被输入到STB的个性化信息中,当观看准备好的演示时,当此角色呈现在视频“窗口”位置时,STB-动画角色能显示这个孩子的名字。另外,在音频“窗口”期间STB可以播放孩子名字的音频剪辑。个性化的音频或视频剪辑可被记录及存储在STB中为协同播放时使用。
这样,本发明允许单一版本的素材如卡通演示被生成和广播,仍然可被不同观众有差别地见到和听到,以及对他们进行专门的剪裁,原始演示和由观众的STB产生并送到“窗口”中的图形和/或音频加在一起,混合的演示得以有效地生成。
相应地,在本发明的个性化信息中,音频和视频片段以及可能有的“窗口”信息被存储在STB中。STB接收嵌有“窗口”信息的多媒体演示流。“窗口”信息是在创作阶段嵌进流中,此时演示的创作者确定“窗口”的位置和时间。此“窗口”信息在STB被取出,同时音频和视频片段还有预先存储在STB中的个性化信息同此“窗口”相协调,并且与多媒体演示被协同播放。


图1是一监示器屏幕的视图,用视频“窗口”指示的“位置”显示动画演示。
图2是如同图1同样屏幕的视图,在视频“窗口”位置外加STB-动画角色。
图3是一流程图,显示包含在提取和处理多媒体演示流中“窗口”信息的步骤。
图4给出提取“窗口”信息和显示协同内容所必需的设备。
按照本发明,准备和播放与STB视频图形显示和/或音频、视频播放协调演示所必需的步骤包括1.在创作阶段定义视频和音频“窗口”,并当成控制信号的一部分把它们嵌到具有视频和音频的演示流中;2.在观众的STB上执行个性化;3.递交此演示流到观众的STB;4.由STB从演示流中提取控制信息并做分析;5.与STB在“窗口”时间和位置上提供的图形,音频,或视频对象一起,显示演示流的视频和音频。创作阶段为了指定视频和音频“窗口”的位置和时间,视频演示必需用控制信息做上标记。在此优选实施例中,这是通过使用作标记处理的创作导流脱机完成的,并在美国专利申请09/032,491中做了说明。
通过向STB指出视频“窗口”,控制信息也可以实时地加到现场演播中。STB将使用此信息去显示与节目(例如新闻或体育节目)相关联的文本,并随着视频和音频一起广播。用以显示的文本的选择可以根据已经存储在STB中的个性化信息进行。
创作系统接受作为输入的视频/音频内容。创作者在全部内容中标记视频和/或音频“窗口”的位置。这样产生的标记由创作系统使用以生成描述这些“窗口”的控制信息,这些“窗口”被插入到视频/音频内容中。
在此优选实施例中,控制信号采用HTML标记的形式,它指出1.“窗口”标识符,用于配合“窗口”插入应用,2.“窗口”类型,例如视频或音频,3.“窗口”的开始时间,4.“窗口”的结束时间,5.“窗口”的开始屏幕位置,例如在视频影像中的x,y坐标,6.“窗口”的结束屏幕位置,例如在视频影像中的x,y坐标,7.在视频中“窗口”运动的运动矢量,
8.要被插进视频“窗口”中的位图描述,以及9.被插入音频的音量级别。
自动对象识别可被加入到创作系统中以简化创作过程。创作者指出视频对象,例如一不太重要的角色的起始位置,那么其后继位置被创作系统检测出,随着对象的移动它把合适的控制信息插入到流中。
对于数字视频流,可以采用运动图象专家组(MPEG-2)对音频和视频信号压缩,以及MPEG-2系统传送以传送这些信号。由于数字视频要求高的位率,在通过网络传输之前,压缩的方法通常被用到视频上。在此优选实施例中,视频和音频内容使用MPEG-2压缩进行压缩,如同在ISO/IEC 13818-2对视频和ISO/IEC 13818-3对音频详细说明的那样。
MPEG-2标准还指出由音频和视频元素流组成的演示如何在“传输流”中被复合在一起,这是在MPEG-2系统规范,ISO/IEC 13818-1中指定的。MPEG-2系统规范通过使用“私有数据”流,提供演示传输流中的非视频和非音频流的内容。全部传输流包不管其内容,都是一样的大小(188字节)和格式。“节目特有信息”也被装入传输流中,该携带的信息涉及哪些元素流已复合到传输流中,它们携带了什么类型的内容,以及它们如何被分解。在此实施例中,控制信息被装入MPEG-2传输流的私有数据流。
在使用MPEG-2视频的实施例中,“窗口”开始和结束时间的技术要求在“窗口”出现的那些帧的演示时间标记(PTS)项中被规定。PTS通常出现在每个第三帧的各个帧中,这样用以同步已是足够了,因为对NTSC视频其帧率是30帧/每秒。视频“窗口”为矩形,于是由一(x,y)坐标对来指示。其它实施例可使用更复杂的多边形以描述视频“窗口”的形状,这就要求更多坐标和说明那一个多边形要被使用,在开始和结束屏幕位置之间视频“窗口”的移动是线性的。另外,更复杂的功能可在其它的实施例中被指定,以描述视频“窗口”的运动。递交阶段作为本发明的功能,控制信息可被特意地产生,用处在视频和/或音频中的“窗口”以供STB插入内容。为了对那些他们的STB不支持本发明的观众展现完整的演示,“窗口”实际上可以是视频或音频的缺省单元。未针对本发明设计的演示可被改型以适应本发明,即可在能被重叠的现存内容区域和/或声音处找到“窗口”。
在形成控制信息以后,视频演示与这种控制信息一起,依靠以下方式可以送到观众的STBa.在模拟视频信号的视频消隐期间被传送,并以类似于闭路字幕信息所用的方式由观众的设备提取;b.在独立的残留边带信道上传送;c.在数字视频/音频流中传送,并以类似于提取视频或音频流所用的方式由观众的设备提取。STB图4显示本发明所必需的典型设备,包括电视机或监示器屏幕4,接收多媒体演示的电缆6,STB 5用以接收、处理及通过电缆7传送要在监示器屏幕4上显示的作为结果的演示。MPEG-2分配器,MPEG-2音频解码器和MPEG-2视频解码器现在广泛地可以得到。C-CubeC19110传输分配器,C-Cube C19100 MPEG-2视频解码器,和CrystalSemiconductor CS4920 MPEG音频解码器就是例证。在此优选实施例中,视频和音频解码器可用一单个芯片一起实现,例如用IBM CD21MPEG-2音频/视频解码器。如果音频和视频解码器不结合在一起,在解码器的输出端为了从数字转换为模拟,以及在视频的情况下编码到所要求的视频模拟信号格式如NTSC,PAL或SECAM,中间集成电路是必需的。来自这些集成电路的S-Video输出是可选项。
重叠视频内容的屏幕上图形对象,通过使用STB中MPEG-2视频解码器的屏幕显示(OSD)功能而被成像。这些解码器按提供的OSD的先进技术和用于控制OSD的应用程序接口(API)而有不同。各个象元能被寻址,并且位图被用于许多文本和图形对象。最小等级的OSD图形能力提供16种颜色。更可取的能力提供256种颜色以及多级混合能力。OSD的混合能力允许改变图形重叠的不透明程度。
音频内容的重叠在MPEG音频情况下由STB音频解码器执行,或由利用API到媒体播放器的STB处理器执行。被这种播放器支持的文件格式包括“.wav”,“.rmi”和“.mid”。另外,音频播放功能能被加入到STB自身的应用中。
视频的替换或添加能由STB中另一视频解码器执行。具有“画中画”能力的系统能使用这一特性以添加或替换视频对象。
在两种情况下都是用STB的音频输出使播放的音频与原始的音频演示混合或先取原始音频。在另外的实施例中,其中可以得到二个声道,一个用于音乐,一个用于对话,在准许前者象往常一样工作的同时,STB能替换后一声道的内容。
要被观看的本发明的演示,可使用NTSC或PAL模拟电视标准以及ATSC或DVB数字电视标准广播,在其它实施例中,演示可被观看并基于每个用户进行控制,如象使用点播电视系统或从录像带观看。
实现本发明所需的处理能力很容易同当前大多数STB中起始值粗略为1MIPS的处理器的处理能力相适应,此处理器运行视频/音频内容的插入请求,并且控制OSD和音频功能的使用。
STB 5通常具有1到4MB的RAM,本发明的程序需要下载到或存储在STB的RAM中,它大约要占据0.5MB。
对于家庭中全部观众,只需要少量STB 5存储器来存储个性化信息。在此优选实施例中,对每个观众的个性化信息包括1.名字,2.年龄,3.内容限制,例如PG-13,4.文本选择,例如大字体,5.允许音频替换,6.允许视频替换,及7.指向与观众关联的光标的指针。这些信息需要存储在不易失存储器中,为的是在观众的STB电源关闭或电源故障时信息仍能保持。为此目的一般的STB都有不易失RAM。
图1和图2给出作为示例的屏幕显示,它与为协同播放最初准备的演示相对应。图1显示具有一个视频角色20的动画节目屏10。“窗口”30的位置用点划线40表示围绕“窗口”30的点划线40只是一示例并不会出现在实际节目上。关于“窗口”30位置的控制信息被嵌在视频流中并由STB来提取。
图2是带有附加STB动画角色50的相同屏幕,角色50被显示在“窗口”30的位置上。另外,STB还可能利用“窗口”30显示例如描述上述角色的图形文本。
还可以利用寻找自然出现在音频和视频演示中“窗口”30位置的机制以制备演示。另外,通过现存声道的空白部分或影像屏的阴暗部分,将“窗口”30产生在演示中。
装载到STB并用于分析视频演示流的控制数据,以及在演示的“窗口”中显示存储在STB中的信息的应用,其逻辑流程视示于图3,当前演示的程序说明信息(PSI)在步骤80被分析。在步骤81确定是否关于“窗口”位置的任何控制信息随此演示而到来。如该信息将不到来,程序控制返回到步骤80,并且下一演示将被分析。如果信息将会到来,那么在步82多路分解器队列被设置以接收此信息。在步83,判断控制数据是否已经到达多路分解器队列。如果没有,步83的检测被重复。当信息已达到队列时,它在步84被分析以查明HTML标记。在步85将HTML标记与“窗口”信息匹配,如果不匹配,程序控制返回到步83,如果匹配,步86把接收的数据赋给相关的变量,并返回程序控制到步83。
当全部关于“窗口”的信息和重叠信息被分析并安装到STB时,则它变成了简单的公众所知的STB任务,用以在视频监示器上显示演示流的同时,在给定“窗口”处叠加内容与叠加数据相协调。类似的处理也应用到音频“窗口”处。
当本发明已被专门地展示并通过优选实施例的具体描述后,在熟悉本领域的人士都会懂得,形式上内容上、前面的和其它的改变都可能做出。这些都不会脱离本发明范围的形式和精神,只受所附的权利要求书范围的限制。
权利要求
1.一种与多媒体演示协同地显示音频、视频和图形单元内容的方法,多媒体演示具有指示显示所说的音频、视频和图形单元的预定位置和时间的“窗口”,此方法包括传送多媒体演示流到接收装置;判断是否所说的“窗口”信息被嵌在上述多媒体演示流中;提取所说的“窗口”信息;以及与所说多媒体演示协同,在上述多媒体演示的所说“窗口”中显示所说的音频,视频和图形单元。
2.按照权利要求1的方法,其中所说的音频,视频以及图形单元被存储在上述接收装置中。
3.按照权利要求2的方法,其中所说的音频,视频以及图形单元与所说的多媒体演示有联系。
4.按照权利要求3的方法,其中所说的“窗口”信息在传送步骤之前的创作步被确定,并被嵌入到多媒体演示流中。
5.按照权利要求4的方法,其中所说的“窗口”信息允许在上述接收装置中经用户接口而被改变。
6.按照权利要求5的方法,其中所说的“窗口”信息包括与插入应用相配合的标识符,媒体类型,开始时间,结束时间,开始屏幕位置,结束屏幕位置,视频中运动的运动矢量,在所说视频要被插入时其位图的描述,以及在音频要被插入时其音量的等级。
7.按照权利要求6的方法,其中所说的“窗口”信息按下述方式而被规定所显示的音频、视频以及图形单元将不干扰观看所说的多媒体演示。
8.按照权利要求7的方法,其中所说的“窗口”信息与所说多媒体演示中可见对象相协调而被规定。
9.按照权利要求8的方法,其中所说的“窗口”信息按下述方式而被规定,音频播放可被执行,不干扰所说多媒体演示中的声音。
10.按照权利要求9的方法,其中所说的“窗口”信息按下述方式而被规定音频单元可与所说多媒体演示的音频单元协同产生。
11.按照权利要求10的方法,其中所说的“窗口”信息用于以不干扰所说多媒体演示的视听方式显示上述音频,视频和图形单元。
12.按照权利要求11的方法,其中所说的“窗口”信息用于显示与所说多媒体演示的音频视频和图形单元相协调的上述音频,视频以及图形单元,根据上述多媒体演示内容和所说音频,视频和图形单元内容的结合,形成协调的演示混合。
13.按照权利要求12的方法,其中个性化信息是通过所说用户接口,存储在所说的接收装置中。
14.按照权利要求13的方法,其中所说的个性化信息包括所说观众的名字,观众的年龄,对上述观众的内容限制,文本选择,音频替换允许开关,视频替换允许开关,以及指向与观众相关的光标的指针。
15.一种可被机器读取的计算机程序装置,它实际地包含有可由机器执行的程序指令,以实现与多媒体演示协同显示音频,视频和图形单元内容的方法步骤,上述多媒体演示具有指示显示所说音频,视频以及图形单元的预定位置和时间的“窗口”,此方法包括传送多媒体演示流到接收装置;判断是否所说的“窗口”信息被嵌在上述多媒体演示流中;提取所说的“窗口”信息;以及与所说多媒体演示协同,在上述多媒体演示的所说“窗口”中显示所说的音频,视频和图形单元。
16.按照权利要求15的方法,其中所说的音频,视频以及图形单元被存储在上述接收装置中。
17.按照权利要求16的方法,其中所说的音频,视频以及图形单元与所说的多媒体演示有联系。
18.按照权利要求17的方法,其中所说的“窗口”信息在传送步骤之前的创作步被确定,并被嵌入到多媒体演示流中。
19.按照权利要求18的方法,其中所说的“窗口”信息允许在上述接收装置中经用户接口而被改变。
20.按照权利要求19的方法,其中所说的“窗口”信息包括与插入应用相配合的标识符,媒体类型,开始时间,结束时间,开始屏幕位置,结束屏幕位置,视频中运动的运动矢量,在所说视频要被插入时其位图的描述,以及在音频要被插入时其音量的等级。
21.按照权利要求20的方法,其中所说的“窗口”信息按下述方式而被规定所显示的音频、视频以及图形单元将不干扰观看所说的多媒体演示。
22.按照权利要求21的方法,其中所说的“窗口”信息与所说多媒体演示中可见对象相协调而被规定。
23.按照权利要求22的方法,其中所说的“窗口”信息按下述方式而被规定音频播放可被执行,不干扰所说多媒体演示中的声音。
24.按照权利要求23的方法,其中所说的“窗口”信息按下述方式而被规定音频单元可与所说多媒体演示的音频单元协同产生。
25.按照权利要求24的方法,其中所说的“窗口”信息用于以不干扰所说多媒体演示的视听方式显示上述音频,视频和图形单元。
26.按照权利要求25的方法,其中所说的“窗口”信息用于显示与所说多媒体演示的音频视频和图形单元相协调的上述音频,视频以及图形单元,根据上述多媒体演示内容和所说音频,视频和图形单元内容的结合,形成协调的演示混合。
27.按照权利要求26的方法,其中个性化信息是通过所说用户接口,存储在所说的接收装置中。
28.按照权利要求27的方法,其中所说的个性化信息包括所说观众的名字,观众的年龄,对上述观众的内容限制,文本选择,音频替换允许开关,视频替换允许开关,以及指向与观众相关的光标的指针。
全文摘要
一种用以协调和显示与多媒体演示相结合的图形或播放音频或视频的方法。如象文本或画面的图形对象,它们可以是动画表示的,被显示在观众的设备上。设备通常是先进的播放视频和音频的电视或机顶盒。图形对象被显示在附加在视频对象位置的位置上。类似地,存储在机顶盒或嵌入到流中的音频或视频片段,在合适的时间可显示在演示中被称做视频和音频“窗口”的屏幕位置上。描述这些“窗口”的数据以及其它控制信息被嵌入到视频流中,并且由观众的STB提取用以协调协同播放。
文档编号H04N7/081GK1256583SQ9912434
公开日2000年6月14日 申请日期1999年11月24日 优先权日1998年11月25日
发明者理查德·斯蒂芬·切尔诺克, 波罗·迪特里, 弗兰克·安德雷·沙法, 戴维·伊斯莱尔·塞德曼 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1