用于传送与节目相关联的数据来为音频内容生成相应视觉显示的方法和装置的制作方法

文档序号:6419096阅读:191来源:国知局
专利名称:用于传送与节目相关联的数据来为音频内容生成相应视觉显示的方法和装置的制作方法
技术领域
本发明涉及提供一个音频信号,其带有一个相关联的视频信号。更特别地,涉及音频描述数据的使用,其作为音频流的一部分与一个音频信号被传输,来选择一个合适的视频信号在重放过程中伴随所述音频信号。
背景技术
在数字音乐媒介和广播应用中,如MP3播放器和数字音频广播,一般都是单独音频的体验。当听音乐时,人们通常倾向于只是倾听,而不看什么东西。所述音频节目一般不提供给收听者任何有趣的视觉显示。
在一些标准中,辅助数据可以被携带在一个音频基本码流内用于在音频媒介内的广播或存储。辅助数据最普通的使用是与节目相关联的数据,其是与所述音频信号密切关联的数据。与节目相关联的数据的例子是与节目相关的文本,演讲或音乐的指示,到一个接收机的专门的命令用于同步所述音频节目,以及动态范围控制信息。所述与节目相关联的数据可以包括一般信息,如歌曲名称,歌手以及音乐公司名称。它给出相关信息,但是除此之外无用。
在当前数字电视发展中,携带文本和互动服务的与节目相关联的数据可以为所述电视节目开发。这些解决方案包括实施要点,包含协议、通用应用程序接口语言,接口以及推荐技术标准。所述与节目相关联的数据被与所述视频和音频内容一起传输,多路复用在所述数字节目或传输流中。在这样的实施中,相应的与节目相关联的数据必须为每一个电视节目开发,并且还必须对所述多路复用过程进行持续的监控。另外,这个方法占用传输带宽。
为与节目相关联的数据开发内容要求巨大的人力资源。因此,传送这样的应用需要的成本很高,尤其当需要为不同的电视节目开发不同的内容。还期望,这样的与节目相关联的数据内容可以被不同的视频、音频和电视节目重新使用。
进行了其他的尝试,这些尝试涉及有时在音频重放中显示一些内容,特别是为卡拉OK。
日本专利No.JP10-124071公开了一种硬盘驱动,具有一个乐曲数据存储部分,其在卡拉OK乐曲上存储乐曲数据,以及一个乐曲信息数据库,其存储关于包括这些乐曲的专辑的信息。在所述乐曲数据中,提供一个标记,显示该乐曲是否包含在专辑中。一个控制器确定一首歌曲是否是能够得到所述专辑信息的歌曲。在一首歌的间歇时间内,对该歌曲可得到所述信息,关于所述专辑名称和乐曲的数据被显示为一个静态的图画。
日本专利No.JP10-268880公开了一个系统来减少存储各自的图像数据所需的所述存储容量,通过根据特定的参考数据一起显示静态图画数据和动态图画数据。在卡拉OK乐曲演奏数据的首部中的类型数据被用来指向一个静态图像数据表来选择在所述导言、间歇和终曲中被显示的静态图像数据。所述类型数据还被用来指向一个动态图像数据表,在对应于文本数据的时段内选择和显示动态图像数据。
根据专利JP2001-350482A,卡拉OK数据可以包括时间间歇信息,其指示非演唱间歇的时间。对于一个表演,这个信息与表演时间信息比较,该表演时间信息关联于一个定点节目。所述定点节目的表演时间最接近于所述非演唱间歇时间,其在所述非演唱间歇被显示。
日本专利No.JP7-271,387公开了一种记录媒介,其一起记录音频和视频信息以便于避免一种情况,即,当卡拉OK演唱设备播放前奏和间奏时,一个歌手只聆听所述乐曲并等待下一步。一个记录媒介包括音频信息,用来伴奏一首歌的乐曲,以及图画信息,用于显示所述歌曲的文本的图画。它还包括文本图画信息,用于一个文本图画而不是所述歌曲的文本。
根据日本专利NO.JP2001-350,482,卡拉OK数据可以包括时间间歇信息,指示非演唱间歇的时间。在重放时,这个信息与关联于一个定点节目的表演时间信息比较。所述定点节目的表演时间最接近于所述非演唱间歇时间,其被在所述非演唱间歇中播放。

发明内容
本发明目的在于提供生成令人兴奋和有趣的视觉显示的可能性。可能希望生成相应于所述音频节目的变化的视觉内容,例如相应于乐曲的美丽的景色,以及对于不同主题音乐,歌曲和抒情诗的相应的视觉内容。
根据本发明的一个方面,提供一种方法,该方法提供带有相关联视频信号的一个音频信号,包括以下步骤解码一个被编码的音频流来提供一个音频信号和音频描述数据;以及提供一个相关联的第一视频信号,其至少一部分内容根据所述音频描述数据被选择。
优选地,所述提供步骤包括使用所述音频描述数据来选择合适于所述音频信号内容的视觉描述数据;以及从所述被选择的视觉描述数据创建视频内容;以及提供包括所述被创建的视频内容的所述第一视频信号。
该方法可能进一步包括从一个传输流中提取所述视觉描述数据的步骤,例如一个MPEG流包括音频,视频和所述视觉描述数据。
根据本发明的第二个方面,提供一种方法,来传送与节目相关联的数据来为音频内容生成相应的视觉显示,所述方法包括以下步骤编码一个音频信号和相关联的音频描述数据到一个被编码的音频流中;编码视觉描述数据;以及合成所述被编码的音频流和所述视觉描述数据。
所述第一和第二方面可以被合并。
根据本发明的第三个方面,提供一种装置来提供带有一个相关联视频信号的一个音频信号,包括音频解码装置,用来解码一个被编码的音频流来提供一个音频信号和音频描述数据;以及第一视频信号装置,用来提供一个相关联的第一视频信号,其至少一部分内容根据所述音频描述数据选择。
根据本发明的第四个方面,提供一个系统来提供带有一个相关联视频信号的一个音频信号,包括音频编码装置,用来编码一个音频信号和音频描述数据到一个被编码的音频流中;描述数据编码装置,用来编码视觉描述数据;以及合成装置,用来合成所述被编码的音频流和所述视觉描述数据。
所述第三和第四方面可以合并。
根据本发明的第五个方面,提供一个系统来传送与节目相关联的数据来为音频内容生成相应的视觉显示,所述系统包括音频编码装置,用来编码一个音频信号和与其相关联的音频描述数据到一个被编码的音频流中;视频编码装置,用来编码视觉描述数据到一个被编码的视频流中;以及合成装置,用来合成所述被编码的音频和视频流。
在如上所述的任何一个方面中,所述视觉描述数据能够包括一个或多个以下的组视频剪接部分,静态图像,图形和文本描述。可选地或另外,所述视觉描述数据可以被分类,与以下至少一种使用至少一种风格的音频内容,至少一种主题的音频内容,以及至少一种类型的活动,对于该活动所述数据是合适的。
所述音频描述数据可以包括相关于以下至少一组的数据歌手识别,组合识别,音乐公司识别,服务提供商识别和卡拉OK文本。可选地或另外,所述音频描述数据可以包括相关于所述音频信号的风格的数据。可选地或另外,所述音频描述数据可以包括相关于所述音频信号的主题的数据。另一种可能性,所述音频描述数据可以包括相关于所述活动类型的数据,对于该活动,所述音频信号是合适的。
所述音频描述数据可以在所述被编码的音频流的帧内,所述帧也包括所述音频信号。所述被编码的音频流可以是一个MPEG音频流。当两种都发生时,所述音频描述数据可以是在所述MPEG音频流内部的辅助数据。
在本发明的另一个方面,上述的任何装置或系统根据上述的任何一种方法都是可操作的。
这样,本发明提供带有相关联的视频信号的一个音频信号。特别地,它提供一个音频描述数据,作为音频流的一部分与所述音频信号一起传输,来选择一个合适的视频信号来伴随所述音频信号。
本发明提供一种有效的装置,来添加相关于所述音频节目的进一步的信息。它为所述内容提供商生成一个选项来插入或修改描述所述音频内容的相应信息,用于在发布或广播之前生成相关的视觉内容。所述与节目相关联的数据,其可能被携带在所述音频基本码流的所述辅助数据部分中,提供所述优选的分类或类型的一般描述,被所述解码器使用来生成相关的视觉显示以及互动应用。
可能希望插入与节目相关联的数据来为收听者生成相关的,令人激动和有趣的视觉显示,例如,为与运动相关的歌曲或音乐生成体育画面或静态图画。为了生成这样的视觉显示,提供在所述音频基本码流中编码和插入所述与节目相关联的数据的方法,以及解码,译码和生成所述视觉显示的技术。本发明提供一种有效的装置,来添加相关于所述音频节目的进一步信息。携带在所述音频基本码流的所述辅助数据部分中的所述与节目相关联的数据应该提供所述优选的分类或类型的一般描述,被所述解码器使用来生成相关的视觉显示以及互动应用。
在一个方面,一个MPEG音频流被与一个MPEG视频流一起传输。所述音频流包括一个音频信号,以及作为辅助数据的与其相关联的音频描述数据。所述视频流包括一个视频信号,以及作为专用数据的视频描述数据(如,视频剪接部分,静态图,图形,文本等),所述视频描述数据不必和与其一起传输的所述视频数据有任何关联。对于接收,所述音频和视频流被解码。所述视频描述数据被存储在一个存储器中,所述音频信号被播放。所述音频描述数据被用来,为来自于所述存储器或其他存储,或来自于当前输入的视频描述数据的所述特定的音频信号选择合适的视频描述数据。当所述音频信号被播放时,这就随即被显示。


本发明将根据附图通过非限制性的实例来进一步描述图1是编码音频和视频描述数据的一个框图;图2是本发明的一个实施例的接收机的框图;以及图3是一个示意图,显示了表达本发明的一个接收机的情况。
具体实施例方式
在本发明中,描述一个音频内容的与节目相关联的数据被用于作为一个基础来为一个听众生成一个视觉显示,例如关于特殊场合的,用于歌曲或抒情诗的欢庆活动的简短的视频剪接部分,场景,图像,广告,图形,文本和互动内容,其中所述视觉显示关联于所述音频内容。编码和插入所述与节目相关联的数据到音频基本码流内的方法被用来生成如此的视觉显示。
所述与节目相关联的数据被用来生成与所述音频内容相关联的视觉显示。它可以被清楚地分成两类数据(i)音频描述数据,用来描述所述音频内容以及(ii)视觉描述数据,用来生成所述视觉显示。所述视觉描述数据不需要为特定的音频节目或音频描述数据来开发。
(i)音频描述数据音频描述数据给出所述音频内容的一般描述,例如所述乐曲主题,所述歌曲抒情诗的相关关键字,名称,歌手或公司名称,以及所述乐曲的风格。所述音频描述数据可以被插入到每一个音频帧内或遍布所述乐曲或歌曲的不同的音频帧内,这样可以在所述音频节目的不同部分插入不同的描述。
(ii)视觉描述数据所述视觉描述数据可以包括简短的视频剪接部分,静态图像,图形,文本描述,以及能进行互动应用的数据。所述视觉描述数据可以被独立于所述音频描述数据进行编码,并作为专用数据被传送到所述接收机,存在于所述传输或节目流的专用表中。所述视觉描述数据不需为特定的音频节目或音频描述数据开发。它可以为特定的音频“风格”、“主题”、“活动”开发,并且还可包含相应的广告和互动信息。
图1是根据本发明的一个实施例的对于音频和视觉描述数据的一个编码处理的框图。
一个音频源12提供一个音频信号14到一个音频编码器16,该编码器编码该信号到合适的音频基本码流18中,用于在一个存储媒介20中存储,例如一组硬盘。
一个音频描述数据编码器22是用于开发音频描述数据的一个内容生成工具,例如所述音频内容的一般的描述。它是用户可操作的或可以自动工作的,例如,通过分析所述音频基本码流中的所述乐曲和/或文本内容(例如,乐曲的速度可以被分析来提供相关的信息)。所述音频描述数据编码器22从所述存储媒介20中检索音频基本码流并插入所述音频描述数据,它在所述音频基本码流的每一帧中生成到所述辅助数据部分中。在编辑或插入之后,包含所述音频描述数据24的所述音频基本码流被存储回所述存储媒介20中,用于发布或广播。所述音频描述数据编码器22还生成识别和时钟参考数据26,其与所述音频基本码流相关联,包括所述音频描述数据24,并且存储这些在所述音频基本码流中。
一个视频/图像源28提供一个视频/图像信号30到一个视频/图像编码器32,其编码它成为一个合适的数据格式34,用于存储在一个存储媒介36中。其他的数据媒介38也可以贡献合适的视觉数据40,例如文本和图形数据。来自于所述存储媒介36的视频剪接,图像,图形和文本数据42的档案被提供到一个视觉描述数据编码器44,并被用来生成所述视觉内容。这通过平台相依性的方式来完成。对于视频剪接,它们可以被存储为MPEG-1/MPEG-2或任何支持的视频格式中的一种。对于图形,它们可以被提供并存储作为MPEG-4或MPEG-7描述语言或Java或诸如此类。对于文本,它可以以统一的字符编码标准被提供并存储。对于这些中的任何一个,所述定义甚至可以是专有的。
所述视觉描述数据编码器44是用于开发视觉描述数据46的一个内容生成工具。所述视觉描述数据46被存储在一个存储媒介48中,用于发布或广播。所述视觉描述数据46可以独立于所述音频内容被开发。然而,对于所述视觉描述数据46要连同相关联的音频描述数据一起被执行的应用,来自于音频描述数据编码器22的所述识别代码和时钟参考26被用来同步所述视觉描述数据的解码。对此,它们被包含在专用的限制描述中,其嵌入在携带所述视觉描述数据的所述专用部分中。
在广播中,不管是通过有线,光纤或无线传输,还是作为电视或互联网,来自于音频存储媒介20的音频基本码流(包括所述音频描述数据)与来自于视频存储媒介36的作为专用数据的所述视觉描述数据以及视频基本码流(例如,包括一个视频)多路复用来形成一个传输流。继而,这是声道,被编码和调制来传输。
图2是根据本发明的用于数字电视接收的另一个实施例建造的一个接收机的框图。一个射频(RF)输入信号50被接收并传递到一个前级52,其被控制在所述合适的电视信道中调谐。所述前级52解调并声道解码所述RF输入信号50来生成一个传输流54。
一个传输解码器56,通过识别一个唯一的13位节目标识符(PID)从所述传输流54中提取一个专用部分表,该PID包含所述视觉描述数据。所述视觉描述数据被引导通过所述解码器的数据总线58被存储到一个循环缓冲区60内。同时,所述传输解码器56也从所述传输流54,分别过滤所述音频基本码流62和视频基本码流64到一个MPEG音频解码器66和一个MPEG视频解码器。
所述PID(节目标识符)对于每一个流是唯一的,并被用来提取所述音频流,所述视频流和包括所述视觉描述数据的所述专用部分数据。
所述MPEG音频解码器64解码所述音频基本码流62来生成所述被解码的数字音频信号70。所述被解码的数字音频信号70被送到一个音频编码器72中来生成一个模拟音频输出信号74。包括所述音频基本码流中的所述音频描述数据的所述辅助数据被过滤并通过所述音频解码器的数据总线78存储在一个循环缓冲区76中。
所述MPEG视频解码器68解码所述视频基本码流64来生成所述被解码的数字视频信号80。所述被解码的数字视频信号80被送到一个图形处理器和视频编码器82来生成所述视频输出信号84。
所述接收机主机微处理器86控制所述前级52通过一个I2C总线88来在所述合适的电视声道调谐。它还通过所述传输解码器的数据总线58,90,从所述循环缓冲区60中检索所述视觉描述数据。所述视觉描述数据通过所述主机数据总线94被存储在一个存储系统92中。所述视觉描述数据还可以通过外部数据总线96和接口98从外部设备中下载,如个人电脑或其他存储媒介。
所述微处理器86还通过所述音频解码器的数据总线78,100,从所述循环缓冲区76中读取所述被过滤的音频描述数据。从所述音频描述数据,它使用认知和搜索工具来从所述系统存储器92中选择所述最合适视觉描述数据。选择所述最合适的一般步骤可以如下所述i.从所述音频基本码流中检索音频描述数据。这通过所述“audio_description_identification”值识别(下文中描述);ii.检索所述“description_data_type”值(下文中描述)来确定跟在后面的数据的类型;iii.如果所述“description_data_type”的值在1和15之间,检索所述“user_data_code”(统一字符编码标准文本)(下文中描述),其描述信息的各自的类型。这个信息被用来作为搜索标准;iv.如果“description_data_type”的值是16,17和18中的任何一个,检索所述“description_data_code”(下文中描述)来确定所述搜索标准。所述“description_data_code”对于“description_data_type”的值16,17和18,分别遵循表5,6和7(下文中出现)中描述的定义;v.根据所述搜索标准,为最佳的匹配搜索存储器92的所述视觉描述数据库。所述数据库包含所述视觉描述数据文件,存储在目录下,其文件名称允许一个有效的搜索法则的运用。
所述MPEG视频解码器68的工作也通过所述解码器的数据总线102,被所述微处理器86控制。
所示图形处理器以及视频编码器模块82具有一个图形生成工具,来覆盖文本和图形,并且在所述被解码的视频上执行合成和alpha缩放。所述图形处理器的操作由所述微处理器86控制,通过所述处理器的数据总线104。从所述系统存储器92中选择出来的最合适的视觉描述数据在所述微处理器86的控制下被处理,来生成所述视觉显示,使用所述图形处理器的特征和性能。然后,它就作为所述唯一视频输出信号输出或被添加在所述视频信号上,由所述视频基本码流产生。
这样,在应用中,所述接收机提取包括所述视觉描述数据的所述专用数据并存储在它的存储系统中。当播放一个音频节目时(甚至于在晚些时候),所述接收机提取所述音频描述数据并用其为相应的视觉描述数据搜索它的存储系统。所述最合适的视觉描述数据被选择来生成所述视觉显示,然后就在所述音频节目中出现。
MPEG是本发明中优选的传送流。它能够携带很多视频和音频流。所述解码器能够解码,并同时提供两个音频-视觉流。
应用的具体类型不同,取决于所述广播或网络服务和所述接收机的硬件性能。在电视应用中,如一个音乐视频,其已经包括一个视频信号,所述与节目相关联的数据也可以被用于生成相应的视频剪接部分,图像,图形和文本显示,以及在屏显示(尤其是互动节目),作为一个第一视频信号,并且添加或覆盖它到所述音乐视频上(所述第二视频信号)。然而,还有一些应用,其中生成的视觉描述数据的显示是显示的唯一信号。
另外,当一个用户播放包含音频描述数据的一个音频节目时,一个图标出现在显示器上,指示有效的与节目相关联的数据出现了。如果所述用户按“开始视频”按钮,所述接收机搜索最合适视觉描述数据并生成相对应的视觉显示。通过使用预先指定的远程控制按钮,所述用户可以操纵互动节目,其携带在所述视觉描述数据中。当检测到输入的音频描述数据时,一个自动的选项也被提供来打开所述最合适的视觉显示。
所述接收机自由地决定哪一个视觉描述数据应该被选择,并且每一个视觉描述数据应该被显示多长。一般地,当接收到音频描述数据时,搜索标准从所述音频描述数据中得到。基于所述搜索标准,所述视觉描述数据库被搜索,并且根据播放次序,建立了一列表的文件位置。如果所述视觉描述播放特征被激活,这个数据就以这个顺序播放。如果得到另一个搜索标准,所述剩余的视觉描述数据被播放,接着是以上的过程来建立匹配所述新标准的一新列数据。用户选项被包括入内,来改进所述认知算法和搜索处理。在实施中,所述视觉描述数据可以是陈述式的(如,HTML)或程序式的(如,JAVA),取决于从所述接收机得到的一组应用程序接口函数。
图3是在一个接收机发生的情况的示意图。
一个数字电视(DTV)源MPEG-2流102包括视觉描述数据104,一个被编码的视频流106,以及一个被编码的音频流108提供每一个流,分别到达。一个MPEG-2传输流在DTV中是优选的,因为它具有鲁棒性误差传输。所述视觉描述数据被携带在一个MPEG-2专用部分。所述编码的视频流被携带在MPEG-2包化基本数据流(PES)。所述被编码的音频流也携带音频描述数据110,当所述被编码的音频流被解码的时候,其被分离开。
其他源112,如档案库存储器,也提供第二视觉描述数据114和一个第二编码视频流116。
所述的两组视觉描述数据和所述的两个被编码的视频流被提供到一个搜索工具118,作为可搜索材料,而所述音频描述数据也被输入到所述搜索工具作为搜索信息。被选择的视觉描述数据被一个解码器解释来创建一个视频信号120(通常图形或简短的视频剪接)。相比于所述视频流,它使用更少的数据来创建这个视频信号。被选择的一个被编码的视频信号被解码来生成一个第二视频信号122。
同时,所述被编码的音频流的解码,以及提供音频描述数据110也提供音频信号124。
一个播放器(renderer)126接收所述两个视频信号,并且因为它被建造成不同的层(包括图形和在屏显示),能够提供一个合成的视频信号128,其中多个视频信号重叠。所述播放器还具有来自于所述音频描述数据的一个输入。所述合成的视频信号可以北一个用户选择130改变。
所述音频信号还被单独地提供来生成声音132。
现在要描述所述音频描述数据的格式的一个例子。
所述音频描述数据被置于一个音频基本码流中的每一帧内的一个辅助数据部分中。表1显示出如ISO/IEC11172-3(MPEG-音频)所定义的所述语法。
表1音频帧的语法

所述辅助数据位于每一个音频帧的尾部。辅助位的数目等于在一个音频帧可用的位的数目减去头部(32位),误差检测(16位)以及音频使用的位的数目。音频数据位的数目以及辅助数据位的数目都是变量。表2显示了用于携带所述与程序相关联的数据的所述辅助数据的语法。根据所述音频内容本身,所述辅助数据是用户可定义的,基于下文中要显示的定义。
表2辅助数据的语法

在发布或广播之前,通过所述所述内容发生器或提供器,所述音频描述数据被生成并作为辅助数据插入。
表3显示了在每一个音频帧内的所述音频描述数据的语法,位于所述辅助数据部分。
表3音频描述数据的语法

所述语义的定义为audio_description_identification-用于携带音频描述信息的用户可定义辅助数据的一个13位唯一的识别。它应该被用于检验关联于所述音频内容的音频描述数据的存在。
distribution_flag_bit-这个1位的字段指示在所述音频帧内部的所跟随的音频描述数据是否可以被编辑或消除。“1”代表不允许任何修改。“0”代表所述音频描述数据的编辑或消除对于再发布或广播是可能的。
description_data_type-这个5位的字段定义跟随着的数据的类型。所述数据类型定义如表4所示。
description_data_code-这个5位的字段包括对于大于15的description_data_type的所述预先定义的描述代码。对于0-15之间的description_data_type未下定义。
audiovisual_pad_identification-一个16位与节目相关联的数据标识,对于当包括所述音频描述数据的所述音频内容和可选的相关联的视觉描述数据一起输入时的应用。所述接收机可以在所述接收机的存储器系统中匹配具有相同的标识的视觉描述数据。
audiovisual_clock_reference-这个16位的字段为所述接收机提供一个时钟参考来同步所述视觉描述数据的解码。每一个计数为20ms。
user_data_code-在每一音频帧内的用户数据来描述文本字符以及卡拉OK文本和时间信息。
表4显示了所述description_data_type的定义,其为description_data_code定义所述数据类型。
表4description_data_type的定义


0的值表示在description_data_code之后的所述代码应该包含audiovisual_pad_identification和audiovisual_clock_reference数据。其中前者为所出现的音频内容和具有相同识别数目的可选的关联的视觉描述信息一起输入的应用提供一个16位的唯一识别。当所述接收机检测到这种情况时,它可以在其存储系统中匹配具有相同识别的视觉描述数据。如果没发现匹配的视觉描述数据,所述接收机可以为所述匹配的视觉描述信息过滤输入的流。所述audiovisual_clock_reference为所述接收机提供一个16位时钟参考来同步所述视觉描述数据的解码。每一个计数是20ms。随着16位时钟参考和每个计数20ms的象素,不溢出的最大总时间为1310.72s,并且足够于每一个音频音乐或歌曲的持续时间。
表5,6和7分别列出了“风格”,“主题”和“活动”数据类型的预先定义的所述description_data_code的描述。所述description_data_type和description_data_code应该被用作在所述接收机内实施认知和搜索处理的基础,来推导出所述最合适的视觉描述数据以生成所述视觉显示。视觉描述数据的选择可以不同,即便对于相同的音频基本码流,因为它取决于所述接收机的认知和搜索工具的实现。用户选项可以被添加来指定视觉描述数据的优选的类别。
表5对于description_data_type等于“风格”的description_data_code的定义

表6对于description_data_type等于“主题”的description_data_code的定义


表7对于description_data_type等于“活动”的description_data_code的定义

所述音频描述数据可以为卡拉OK应用来描述音频内容的文本和所述时间信息。表8显示了位于所述音频帧的所述辅助数据部分中的所述karaoke_text_timing_information的所述语法。表8属于表3中的“user_data_code”。当表4中的“description_data_type”=13时,存在此情况。
表8karaoke_text_timing_description()的语法

表9提供了音频声道信息。
表9audio_channel_format的定义

所述语义定义如下karaoke_clock_reference-这个16位字段为所述接收机提供一个时钟参考来同步所述卡拉OK文本和时间代码的解码。它被用来在所述解码器中设定当前的解码时钟参考。每一个计数是20ms。
iso_639_language_code-这个24位字段包括3个字节的ISO 639语言代码。每一个字符根据ISO 8859-1被编码成为8位。
start_display_time-这个16位字段指定显示所述两行文本的时间。它被参考于karaoke_clock_reference来使用。每一个计数是20ms。
audio_channel_format-这个2位的字段指示用在所述接收机中的所述音频声道格式,来设定所述左输出和右输出。参见表9的定义。
upper_text_length-这个6位的字段指定在上部显示行中的文本字符的数目。
upper_text_code-这个代码定义在所述上部显示行中的所述文本字符(从0到64)。
lower_text_length-这个6位的字段指定在下部显示行中的文本字符的数目。
lower_text_code-这个代码定义在所述下部显示行中的所述文本字符(从0到64)。
upper_time_code-这个16位的字段指定在所述上部显示行中的各个文本字符的滚动信息。它参考于karaoke_clock_reference来使用。每一个计数是20ms。
lower_time_code-这个16位的字段指定在所述下部显示行中的各个文本字符的滚动信息。它参考于karaoke_clock_reference来使用。每一个计数是20ms。
所述karaoke_clock_reference在每一首卡拉OK歌曲的开始,从计数0开始。对于具有音频的卡拉OK文本的同步,所述音频描述数据编码器负责为每一首卡拉OK歌曲更新所述karaoke_clock_reference和设置start_display_time,upper_time_code以及lower_time_code。
在所述接收机,用于文本显示和滚动的时间在所述start_display_time,upper_time_code以及lower_time_code字段中定义。所述接收机的卡拉OK文本解码器计时器应该被更新到karaoke_clock_reference。当所述解码器计数匹配start_display_time时,所述的两行文本应该被非高亮地显示。所述滚动信息被嵌入到所述upper_time_code以及lower_time_code字段。它们被用来高亮所述文本字符显示来起到所述滚动效应。例如,所述解码器将使用upper_time_code[n]和upper_time_code[n+1]之间的差异来为所述上部行中的第n位置文本字符确定所述滚动速度。滚动中的一个停顿通过插入一个空格文本字符来完成。在所述较低行中滚动的末尾,所述解码器清除所述文字显示,并且所述解码器处理根据下一个start_display_time重复。
伴随16位时间代码以及每个计数20ms的象素,所述不溢出的最大总时间是1310.72秒或21分50.72秒。所述说明不限定所述解码器模块的显示类型。它取决于所述解码器实施来使用所述start_display_time以及所述时间代码信息用于显示和高亮所述卡拉OK文本。这使得具有不同性能的不同硬件以及在屏显示(OSD)特征来执行卡拉OK文本解码。
这个视觉描述数据可以以不同的格式,如前所述。这倾向于平台相依性。例如,在多媒体家庭平台(MHP)接收机中,JAVA和HTML被支持。
在只有音频的应用中,可能希望插入与节目相关联的数据来为收听者生成一个相应的、令人激动和有趣的视觉显示。为了生成这样一个视觉显示,引入编码和插入与节目相关联的数据到所述音频基本码流中的方法,以及解码的技术,译码和生成所述视觉显示的技术。
开发与所述音频或电视节目相关的视觉内容需要很多的资源。使观看者去访问这些附加的数据服务信息对于成功的商业实施是重要的。在大多数情况下,所述观察者在看完一个节目之后,会发现这个电视节目没意思,不愿意看更多遍。然而,对于音频应用,收听者更可能一次又一次地重复同一首乐曲和歌曲。这样,生成相关于所述音频内容的视觉显示的方法包括生成不同的显示来吸引观看者的注意力,即使当播放相同的音频内容时。为了减少用于生成所述视觉显示内容的费用,现有的发明允许在不同的音频和电视应用中,共享和重用与节目相关联的数据。
在电视应用中,例如音乐电视,携带在所述音频基本码流中的所述与节目相关联的数据可以被使用来在视频上生成相应的图形和文本显示。这样,一个实施例提供一个方法,其能够使附加的视觉内容添加或重叠到所述视频上。
所述实施主要是软件。编辑音频描述数据的应用可以被使用来协助所述内容生成器或提供器来插入相应的数据到所述音频基本码流中。软件开发工具可以被用来生成所述视觉描述数据,用来插入到所述传输或节目流中,作为专用数据。在所述接收机,当包括所述音频描述数据的所述音频节目被播放时,所述接收机为相应的视觉描述数据提取所述音频描述数据并搜索其存储系统,所述视觉描述数据被先前提取或下载。所述用户还生成各自的视觉描述数据。所述最合适的视觉描述数据被选择来生成所述视觉显示。
随着技术的进步,尤其是在数字电视领域中,有很多机会在一个背景视频上开发视觉和互动节目。这个发明提供一种有效的装置,来添加与所述音频节目相关联的进一步的信息。它在发布或广播前,为所述内容生成器生成一个选项来插入或修改相应的描述性信息或用于生成相应的视觉内容的链接。所述携带在所述音频基本码流的所述辅助数据部分的与节目相关联的数据提供用于所述解码器的优选的分类或种类的一般的描述,来生成相关的视觉显示和互动应用。适应于数字音频和电视广播的一个商业化可行方案,以及其他的多媒体平台有益于内容提供商,广播公司或消费者。这样,本发明能够用于多媒体应用中,如数字电视,数字音频广播,以及在因特网域中,为音频内容发布与节目相关联的数据。
对于定位所述被构建的视觉描述数据而言,其能够被如愿地放置,例如,如在同一个申请人2002年10月4日提交的名为“卡拉OK应用中的视觉内容”的同时待决的专利申请所述,其整个内容在这里全部被包括作为参考。
虽然只描述了编码器和接收机和所述音频描述数据的一个实施例,可以容易地使用符合本发明范围的其他实施例和格式,如权力要求等所述,均属于本
权利要求
1.一个方法,提供带有相关联视频信号的一个音频信号,包括以下步骤解码一个被编码的音频流来提供一个音频信号和音频描述数据;以及提供一个相关联的第一视频信号,其至少一部分内容根据所述音频描述数据被选择。
2.根据权利要求1所述的方法,进一步包括较早的步骤,编码所述音频信号和所述音频描述信号到所述被编码的音频流中。
3.根据权利要求1或2中的任何一个所述的方法,进一步包括解码来自于一个被编码的视频流的一个第二视频信号的步骤。
4.根据权利要求1-3中的任何一个所述的方法,其中所述提供步骤包括使用所述音频描述数据来选择合适于所述音频信号内容的视觉描述数据;从所述被选择的视觉描述数据创建视频内容;以及提供包括所述被创建的视频内容的所述第一视频信号。
5.根据权利要求4所述的方法,进一步包括从一个传输流中提取所述视觉描述数据的步骤。
6.根据权利要求5所述的方法,其中所述视觉描述数据从所述传输流内的专用数据中提取。
7.根据权利要求5或6中的任何一个所述的方法,当至少从属于权利要求3时,其中所述传输流进一步包括所述被编码的视频和音频流。
8.根据权利要求7所述的方法,其中在所述被编码的音频流中的所述音频描述数据包括识别数据和时钟参考数据,与在所述同一个传输流内的所述视觉描述数据一起使用。
9.根据权利要求8所述的方法,其中对应于所述识别数据和时钟参考数据的描述符被存储在所述视觉描述数据的专用部分内。
10.根据权利要求7-9中的任何一个所述的方法,其中所述音频流,所述视频流和所述视频描述数据被多路复用到所述传输流中,其在一个电视信号中传输。
11.根据权利要求7-10中的任何一个所述的方法,其中使用所述音频描述数据来选择合适的视觉描述数据的步骤包括从所述同一个传输流中选择视觉描述数据。
12.根据权利要求4-11中的任何一个所述的方法,进一步包括存储所述被提取的视觉描述数据的步骤。
13.根据权利要求12所述的方法,当不从属于权利要求11时,其中使用所述音频描述数据来选择合适视觉描述数据的步骤包括选择被存储的视觉描述数据。
14.根据权利要求4-13中的任何一个所述的方法,进一步包括编码所述视觉描述数据的步骤,其在提取所述视觉描述数据的步骤之前。
15.传输与节目相关联的数据来为音频内容生成相关联的视觉显示的方法,所述方法包括以下步骤编码一个音频信号和相关联的音频描述数据到一个被编码的音频流中;编码视觉描述数据;以及合成所述被编码的音频流和所述视觉描述数据。
16.根据权利要求15所述的方法,其中所述视觉描述数据能够被合成到一个第一视频信号中。
17.根据权利要求15或16中的任何一个所述的方法,进一步包括编码一个第二视频信号到一个被编码的视频流中。
18.根据权利要求17所述的方法,进一步包括合成带有所述视觉描述数据的所述被编码的视频流和所述被编码的音频流到一个传输流中。
19.根据权利要求18所述的方法,进一步包括在一个电视信号中传输所述传输流。
20.根据权利要求18或19中的任何一个所述的方法,其中所述视觉描述数据不相关于在所述同一个传输流内的所述被编码的视频信号。
21.根据权利要求18,19或20中的任何一个所述的方法,其中所述视觉描述数据不相关于在所述同一个传输流内的所述被编码的音频信号。
22.根据权利要求4-14以及18-21中的任何一个所述的方法,其中所述的传输流是一个MPEG流。
23.根据权利要求15-22中的任何一个所述的方法,与权利要求1-14中的任何一个所述的方法相结合。
24.根据权利要求3-23中的任何一个所述的方法,其中所述视觉描述数据包括一个或多个包括以下内容的组视频剪接部分,静态图像,图形和文本描述。
25.根据权利要求3-24中的任何一个所述的方法,其中所述视觉描述数据被分类与以下任何一种一起使用音频内容的至少一种风格,音频内容的至少一种主题,以及活动的至少一种类型,对于该活动类型其是合适的。
26.根据前述权利要求中的任何一个所述的方法,其中所述音频描述数据包括相关于以下至少一组的数据歌手识别,组合识别,音乐公司识别,服务提供商识别和卡拉OK文本。
27.根据前述权利要求中的任何一个所述的方法,其中所述音频描述数据包括关于所述音频信号的风格的数据。
28.根据前述权利要求中的任何一个所述的方法,其中所述音频描述数据包括关于所述音频信号的主题的数据。
29.根据前述权利要求中的任何一个所述的方法,其中所述音频描述数据包括关于所述活动类型的数据,对于该活动,所述音频信号是合适的。
30.根据前述权利要求中的任何一个所述的方法,其中所述音频描述数据被编码于所述被编码的音频流的帧内,这些帧也包含所述音频信号。
31.根据权利要求30所述的方法,其中所述音频描述数据作为辅助数据被编码到所述音频流的音频帧内。
32.一个装置,用于提供带有一个相关联的视频信号的一个音频信号,包括音频解码装置,用来解码一个被编码的音频流来提供一个音频信号和音频描述数据;以及第一视频信号装置,用来提供一个相关联的第一视频信号,其至少一部分内容根据所述音频描述数据选择。
33.根据权利要求32所述的装置,进一步包括视频解码装置,用于解码来自于一个被编码的视频流的一个第二视频信号。
34.根据权利要求32或33中的任何一个所述的装置,其中所述第一信号装置包括选择装置,用于使用所述音频描述数据来选择合适于所述音频信号内容的视觉描述数据;创建装置,用于从所述被选择的视觉描述数据来创建视频内容;以及装置,用于提供包括所述被创建的视频内容的所述第一视频信号。
35.根据权利要求34所述的方法,进一步包括提取装置,用于从一个传输流中提取所述视觉描述数据。
36.根据权利要求35所述的装置,其中所述提取装置可被操作来从所述传输流内的专用数据中提取所述视觉描述数据。
37.根据权利要求35或36中的任何一个所述的装置,当至少从属于权利要求32时,当所述传输流进一步包括所述被编码的视频和音频流时,可操作。
38.根据权利要求37所述的装置,当在所述被编码的音频流内的所述音频描述数据包括识别数据和时钟参考数据,与所述同一个传输流中的所述视觉描述数据使用时,可操作。
39.根据权利要求38所述的装置,当对应于所述识别数据和时钟参考数据的描述符被存储在所述视觉描述数据的专用部分时,可操作。
40.根据权利要求37-39中的任何一个所述的装置,当所述音频流,所述视频流和所述视觉描述数据多路复用到在一个电视信号中传输的所述传输流时,可操作。
41.根据权利要求37-40中的任何一个所述的装置,其中所述选择装置可操作来从所述同一个传输流中选择合适的作为所述视觉描述数据。
42.根据权利要求35-41中的任何一个所述的装置,进一步包括存储装置,用于存储所述被提取的视觉描述数据。
43.根据权利要求42所述的装置,其中所述选择装置可操作来从所述存储装置中选择合适的视觉描述数据。
44.一个系统,用于传送与节目相关联的数据来为音频内容生成相应的视觉显示,包括音频编码装置,用来编码一个音频信号和与其相关联的音频描述数据到一个被编码的音频流中;描述数据编码装置,用来编码视觉描述数据;以及合成装置,用来合成所述被编码的音频流和所述视觉描述数据。
45.根据权利要求44所述的系统,进一步包括视频编码装置,用来编码一个第二视频信号到一个被编码的视频流中。
46.根据权利要求45所述的系统,其中所述合并装置可操作来合并所述视觉描述数据,所述被编码的音频流和所述被编码的视频流到一个传输流中。
47.根据权利要求46所述的系统,其中所述合并装置可操作来合并所述视觉描述数据和与它不相关的被编码的视频信号,在所述同一个传输流中。
48.根据权利要求46或47中的任何一个所述的系统,其中所述合并装置可操作来合并所述视觉描述数据和与它不相关的被编码的音频信号,在所述同一个传输流中。
49.根据权利要求46-48中的任何一个所述的系统或根据权利要求35-43中的任何一个所述的装置,其中所述传输流是一个MPEG流。
50.根据权利要求44-50中的任何一个所述的系统与根据权利要求31-43中的任何一个所述的装置相结合。
51.根据权利要求44-50中的任何一个所述的系统或根据权利要求31-43以及权利要求50中的任何一个所述的装置,其中所述视觉描述数据包括以下一个或多个组视频剪接部分,静态图像,图形和文本描述。
52.根据权利要求44-51中的任何一个所述的系统或根据权利要求31-43以及权利要求50-51中的任何一个所述的装置,其中所述视觉描述数据被分类与以下至少一个使用音频内容的至少一种风格,音频内容的至少一种主题,以及活动的至少一种类型,对于该活动其是合适的。
53.根据权利要求44-52中的任何一个所述的系统或根据权利要求31-43以及权利要求50-52中的任何一个所述的装置,其中所述音频描述数据包括相关于以下至少一组的数据歌手识别,组合识别,音乐公司识别,服务提供商识别和卡拉OK文本。
54.根据权利要求44-53中的任何一个所述的系统或根据权利要求31-43以及权利要求50-53中的任何一个所述的装置,其中所述音频描述数据包括相关于所述音频信号的风格的数据。
55.根据权利要求44-54中的任何一个所述的系统或根据权利要求31-43以及权利要求50-54中的任何一个所述的装置,其中所述音频描述数据包括相关于所述音频信号的主题的数据。
56.根据权利要求44-55中的任何一个所述的系统或根据权利要求31-43以及权利要求50-55中的任何一个所述的装置,其中所述音频描述数据包括相关于所述活动类型的数据,对于该活动,所述音频信号是合适的。
57.根据权利要求44-56中的任何一个所述的系统或根据权利要求31-43以及权利要求50-56中的任何一个所述的装置,其中所述音频编码装置可操作来编码所述被编码的音频流的帧中的所述音频描述数据,这些帧内也包括所述音频信号。
58.根据权利要求57所述的系统或装置,其中所述音频编码装置可操作来编码所述音频描述数据作为所述音频流的音频帧内的辅助数据。
59.一种方法,来传送与节目相关联的数据来为音频内容生成相应的视觉显示,所述方法包括在一个或多个音频基本码流中,编码与所述音频内容相关联的音频描述数据;以及编码视觉描述数据,该数据为音频内容创造以生成一个视觉显示;其中所述视觉描述数据相关于以下至少一组一个种属音频风格,一个种属音频主题,特殊活动以及特殊目标。
60.根据权利要求59所述的方法,进一步包括以下的前述步骤为所述音频基本码流的所述帧指定优选的视觉显示;以及使用与所述优选的视觉显示相关联的信息创建所述音频描述数据。
61.根据权利要求58所述的方法,其中所述指定步骤包括识别以下至少一种所述音频内容的风格;所述音频帧的主题;与所述音频帧关联的一个活动;以及所述音频帧的任何歌词的关键词;以及进一步包括在所述识别步骤后,指定一个最优选的视觉显示。
62.根据权利要求60或61中的任何一个所述的方法,其中所述指定步骤包括为每一个所述帧指定所述优选的视觉显示。
63.根据权利要求59-62中的任何一个所述的方法,进一步包括插入所述音频描述数据到所述音频基本码流的所述音频帧的辅助数据部分。
64.根据权利要求59-63中的任何一个所述的方法,其中所述创建步骤包括指定一个唯一的识别代码;为指明发布权利,指定一个发布标志;指定所述数据类型;插入描述所述音频内容的文本描述;插入描述所述优选视觉描述的数据代码;以及插入用户数据代码来生成所述视觉显示。
65.根据权利要求59-64中的任何一个所述的方法,进一步包括编码背景视频到一个视频基本码流中;以及编码所述音频内容到所述一个或多个音频基本码流中;以及其中所述音频描述数据描述所述音频内容。
66.根据权利要求59-65中的任何一个所述的方法,其中编码视觉描述数据的步骤包括编码所述视觉描述数据到专用数据中,其被一个传输流携带。
67.根据权利要求65-66中的任何一个所述的方法,进一步包括多路复用所述视频基本码流,所述一个或多个音频基本码流以及所述专用数据到用于广播的一个传输流中。
68.根据权利要求59-67中的任何一个所述的方法,进一步包括传送所述音频描述数据和所述视频描述数据到一个接收机,用于解码和生成所述视觉显示。
69.根据权利要求59-68中的任何一个所述的方法,进一步包括从外部媒介下载所述视觉描述数据或在一个用户终端创建视觉描述数据来提供所述视觉描述数据的步骤。
70.一个方法,传送卡拉OK文本和时间信息来为一首音频歌曲生成一个卡拉OK视觉显示,所述方法包括编码所述音频歌曲到一个音频基本码流中;插入时钟参考用于同步所述卡拉OK文本和时间信息的解码和所述音频基本码流中的所述音频歌曲;插入所述音频歌曲的声道信息到所述音频基本码流中;在所述音频基本码流中插入所述音频歌曲的所述卡拉OK文本信息;以及插入所述卡拉OK时间信息,来生成所述音频基本码流中的卡拉OK文本的滚动。
71.根据权利要求1-31以及权利要求59-70中的任何一个所述的方法,被用于数字电视广播和或接收中。
72.一个装置,用于为音频内容生成相关联的视觉显示,包括存储装置,用于存储生成所述视觉显示的视觉描述数据;播放装置,用于播放携带在一个音频基本码流中的所述音频内容;提取装置,用于为来自于所述音频基本码流中的所述音频内容提取音频描述数据;选择装置,用于使用来自于所述音频描述数据的信息,从所述存储装置中选择优选的视觉描述数据;以及执行装置,用于执行所述视觉描述数据来生成所述视觉显示。
73.根据权利要求72所述的装置,其中所述执行装置可操作来执行携带在所述视觉描述数据中的互动节目。
74.根据权利要求72或73中的任何一个所述的装置,进一步包括接收装置,用于接收包括一个或多个所述音频基本码流的一个多路复用传输流以及作为专用数据携带的所述视觉描述数据。
75.一个系统,用于连接音频和视觉内容,包括下载装置,用于为所述音频内容下载音频基本码流以及下载视觉描述数据;创建和编辑装置,用于创建和编辑与所述音频基本码流携带的所述音频内容相关的音频描述数据,以及创建和编辑视觉描述数据来生成所述视觉内容;选择装置,用于选择最适合于所述音频描述数据的所述视觉描述数据来生成一个视觉显示;用户可操作装置,用于修改所述选择装置的行动;以及处理装置,用于执行所述视觉描述数据来生成所述显示。
76.根据权利要求75所述的系统,其中所述选择装置包括认知和搜索工具。
77.根据权利要求75或76中的任何一个所述的系统,是一个家庭娱乐系统。
78.一个方法,提供带有与其相关联的视频信号的一个音频信号,基本上如前所述并结合附图所示。
79.一个方法,传送与节目相关联的数据为音频内容生成相关的视觉显示,基本上如前所述并结合附图所示。
80.一个装置,提供带有与其相关联的视频信号的一个音频信号,基本上如前所述并结合附图所示地被创建和安排用于操作。
81.一个系统,提供带有与其相关联的视频信号的一个音频信号,基本上如前所述并结合附图所示地被创建和安排用于操作。
82.一个系统,传送与节目相关联的数据为音频内容生成相关的视觉显示,基本上如前所述并结合附图所示地被创建和安排用于操作。
83.根据权利要求32-43,51-58,72-74以及权利要求80中的任何一个所述的装置或根据权利要求44-58,75-77,81以及82中的任何一个所述的系统,根据权利要求1-31,59-71以及权利要求78,79中的任何一个所述的方法可操作。
全文摘要
一个MPEG音频流与一个MPEG视频流一起被传输。所述音频流包括一个音频信号和与其相关联的音频描述数据作为辅助数据。所述视频流包括一个视频信号和视频描述数据(如,视频剪接部分,静态图像,图形,文本等)作为专用数据,所述视频描述数据不必与和它一起传输的所述视频数据有关系。在接收时,所述音频和视频流被解码。所述视频描述数据被存储在一个存储器中。所述音频信号被播放。所述音频描述数据被用来从所述存储器或其他存储,或从当前输入的视频描述数据中为所述特定的音频信号选择合适的视频描述数据。当所述音频信号播放时,它就被显示。
文档编号G06F17/00GK1695137SQ03825062
公开日2005年11月9日 申请日期2003年9月25日 优先权日2002年10月11日
发明者谭易通, 申盛眉 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1