音频/数据/视频信息选择的方法和装置的制作方法

文档序号:7593189阅读:153来源:国知局
专利名称:音频/数据/视频信息选择的方法和装置的制作方法
背景技术
发明领域本发明一般地涉及音频/数据/视频信息的选择系统,更具体地涉及过滤如电视、数据、或基于互联网的信号的音频/数据/视频信号流的系统,且提供在各种内容提取水平上的、基于用户定义的参数的、已经过滤了的信息。
背景信息随着电视频道的增加,电视观众有一困难的选择,即看什么电视节目和当看电视时怎样最好的利用他的时间。由于从印好的和在荧屏上的电视节目单上不能准确的判定每一电视节目的整个内容,很多电视观众采取“频道冲浪”来识别哪个电视节目或部分是“有趣的”。
经常,电视观众花费大量的时间进行频道冲浪,希望确认与他的兴趣一致的电视节目。这会引起观众错过很多他可能喜欢看的电视节目。例如,如果有广告在正在“冲浪”的节目上播出,观众要确定正在冲浪的频道上播出的电视节目将遇到拖延。因此,将花更多的时间来确定正在播出的节目是否有趣。结果,将错过在其他频道上播出的有趣的节目。如果观众找到了想要的电视节目,在播出过程中,他经常遇到不感兴趣的广告,从而错过了正在其他频道上播出的有趣的节目。
电视观众通常疲于增加的电视频道的数目,这些频道只是在部分时间有有趣的节目,电视观众也厌倦了节目播出和作频道冲浪时播出的众多的广告。从而,用于浏览、聪明地选择和/或记录观众感兴趣播出电视和有线节目和/或信息的技术对未来的电视是基本的。
虽然通过使用新的捕捉板和快速处理器在数字视频处理上取得的改进是明显的,如何能根据观众的需要来最好地恢复、分析、分类和传递由视频数据传送的信息这方面没有什么进展。
基于对提供给系统的观众信息的电子节目向导(EPG)数据分析的系统近来得到了发展。基于对EPG数据的分析,可以提供观众感兴趣的电视节目表。然而EPG数据是有限的且,不可能对每一视频画面或每一电视节目的片段基于观众定义的参数进行不同水平的内容分析。
发明目的和概要本发明的一个目的是为音频/数据/视频信息的选择、储存和传送提供一种方法和装置,克服前面提到的现有技术的问题。
本发明的另一个目的是提供一种方法和装置,该方法和装置选择、储存和传送音频/数据/视频信息,它监视多个音频/数据/视频信号,识别个人感兴趣的音频/数据/视频信息,使个人能够采用经过识别的音频/数据/视频信息。
本发明的另一目的是提供一种方法和装置,该方法和装置只选择性的记录与定义的参数相关的基于电视的和/或基于互联网的信息的片段。
根据本发明的一种形式,选择所需要的有趣的和反映个人在电视节目方面的爱好和趣味的音频/数据/视频的信息的方法,其所包含的步骤有确定观众的观看爱好、接收第一多个音频/数据/视频信号、从第一多个音频/数据/视频信号中识别待监视的第二多个音频/数据/视频信号,其中第二多个音频/数据/视频信号是第一多个音频/数据/视频信号的子集,将观看爱好与第二多个音频/数据/视频信号进行比较,识别所需要的音频/数据/视频信息,以及为所需要的音频/数据/视频信息提供存取。
根据本发明的另一方面,一种选择所需要的音频/数据/视频信息的方法包含的步骤有确定使用者的爱好、接收多个音频/数据/视频信号、将爱好与多个音频/数据/视频信号相比较以识别所需要的音频/数据/视频信息,并为所需要的音频/数据/视频信息提供存取。
根据本发明的另一方面,音频/数据/视频信息的选择系统包括一用来提供观众的观看爱好的输入装置和一个信息选择器。信息选择器接收第一多个音频/数据/视频信号,从第一多个音频/数据/视频信号中识别待监视的第二多个音频/数据/视频信号,其中第二多个音频/数据/视频信号是第一多个音频/数据/视频信号的子集。信息选择器还将观看爱好与第二多个音频/数据/视频信号进行比较,识别所需要的音频/数据/视频信息,以及为已识别的音频/数据/视频信息提供存取。
根据本发明的另一方面,这一音频/数据/视频信号的选择系统包括一用来提供用户的观看爱好的输入装置和一个信息选择器。信息选择器接收多个音频/数据/视频信号,将比较爱好与多个音频/数据/视频信号来识别所需要的音频/数据/视频信号,并为已识别的音频/数据/视频信号提供存取。
本发明的以上和其他的目的、特性和优点将容易的从下面的细节描述中显现出来,将它与附图结合在一起阅读。
优选实施例详述本发明提供一音频/数据/视频信息选择系统(“电视搜索系统”),它监视多个电视的或基于互联网的音频/数据/视频信号。系统选择和记录基于观众的观看爱好的有趣的音频/数据/视频信息。例如,当某人想看涉及一定主题的电视节目时,他不需要知道电视节目、播出时间和/或电视的频道。更进一步,他不需要在电视节目播出的时间在场。本发明的系统可为他想看的节目、人物、特征、主题和事件建立可编程的愿望表。而后系统对在愿望表中所列的项目,连续地监视接收到的电视信号,记录满足愿望表中的判据的整个电视节目或其部分,使能够存取所记录的项目,以便观众在方便的时间观看。
根据本发明的音频/数据/视频信号选择系统可以包含在计算机或电视中,或它可以是与电视或计算机相连接的单独的装置,它在接收电视、广播或基于互联网的信号中“冲浪”并将所需要的节目片段记录在本地的存储装置中。节目片段的选择是基于广播和有线电视或互联网的信号的内容数据。内容数据可以包括封闭的字幕文字(closed-captioned text)、EPG数据(它可以是元-数据的形式)、音频信息(如频率、音调、音质、音响和旋律)、视频信息(例如颜色、运动、形状、和2-维/3-维物体的外观)和译写信息。
虽然本发明在此文描述的应用与电视广播信号相关,可以预见,系统可采用可存取因特网的计算机以便搜索基于互联网的信号的为观众感兴趣的信息(例如作为互联网爬虫或电视网的入口),采用用于个性化的收音应用的收音机以便搜索特定的形式音频信号、信息网络(如有私有权的网络和个人的区域网络),以及用于仅仅传送数据信息的系统。
现在来看附

图1,显示的是音频/数据/视频信息的选择装置10。装置优选地与视频监视器12相连接,如电视机。装置包括个人简介的输入装置14(例如一个键区,键盘,屏幕显示,电视遥控,触摸屏,口头命令接收器或触摸板),通过它,用户可以输入个人观看爱好。观看爱好与用户想看(和/或以前看过的)的电视节目的特性相关。一些观看爱好的实例包括运动队(例如纽约Yankees),人物(例如,总统比尔·克林顿),地方(比如,白宫),动作(比如击球手打出本垒打),以及主题(比如世界锦标赛)。基于所有用户提供的数据,用户观看爱好的简介产生了。如下面详细解释的,监视电视信号至少用于得到与观看爱好有关的广播的片段。例如如果一观看爱好是“纽约Yankees”,本发明将记录整个纽约Yankees的棒球赛,而没有广告,除非广告是与纽约Yankees有关的,任何涉及纽约Yankees的电影(例如“Yankees的骄傲”)和播出了前一夜的纽约扬基棒球比赛的精彩场面的新闻的体育部分/体育节目。
也可以预见该装置具有储存于存储器中的个人的简介,其具有多个主题,因此用户不需要输入特定的观看爱好,而只需输入与预定的观看爱好典型相关的数字(例如,“1”代表体育,“2”代表地方新闻,“3”代表国内新闻,“4”代表世界新闻,“5”代表政治,“6”代表科学小说,等等)。结果,用户不需要为系统输入大量的信息来提供宽范围的需要的信息。
装置还包括一个音频/数据/视频信号的接收器16,用于接收待分析的多个电视信号。不是过滤掉除电视机显示的一个信号外的所有信号,接收器16有多个调谐器并保持所有信号以进行分析。合适的音频/数据/视频信号接收器包括天线、卫星碟形天线、机顶盒、互联网连接、电缆等等。如本领域中公知的,提供给接收器的广播和有线电视信号是复用的信号。
可操作地连接到音频/数据/视频信号接收器16输出的是一个复用信号分离器18,用来分离由音频/数据/视频信号接收器接收的复用的多个电视信号。信号分离器分离多个信号且能单独地分析多个电视信号的每一个,其细节在下面解释。
在优选实施方案中,装置包括一个EPG(电子节目向导)信号接收器20,用于接收与多个电视信号有关的电子节目向导信号。如本领域中公知的,EPG信号包括大量种类的信息,这些信息是关于正播出的电视节目和待播出的电视节目。EPG信息的实例包括标题、开始时间、结束时间、演员(如果适用)、主题、节目和种类及节目简述。合适的EPG信号接收器包括天线,卫星碟形天线、机顶盒、互联网的连接等等。可以预见,EPG信号接收器和音频/数据/视频信号接收器可以结合在一个装置里,其中结合在一起的装置可在用于接收音频/数据/视频信号的第一种模式和用于接收EPG信号的第二种模式之间切换。另外,装置可以同时接收音频/数据/视频信号和EPG信号。
该装置也包括一音频/数据/视频信息选择器22,它从EPG信号接收器20接收EPG信号、从信号分离器18接收经过信号分离的电视信号和通过个人简介输入装置14接收观众的爱好。音频/数据/视频信息选择器分析经过信号分离的基于它们的内容数据(下面详细解释)的音频/数据/视频信号,用来识别用户感兴趣的电视广播的相关的EPG信号和观看爱好。信息可以是完整的电视节目或如果EPG数据指示仅是电视节目的片段与观看爱好符合它可能只是电视节目的一个片段。重要的是注意音频/数据/视频信息选择器是优选地能够同时分析每一个提供给它的电视信号,以便能并行地监视电视信号,并将经过音频/数据/视频信息选择器识别的电视信号记录在存储器中。可编程实现音频/数据/视频信息选择器的功能的合适的装置的实例是一个人计算机的CPU(例如,奔腾或MIPS),一特殊的可编程数字信号处理器(如三媒体)或一特殊配置的芯片结构。后面将详细解释音频/数据/视频信息选择器的工作。
可操作地与音频/数据/视频信息选择器22相连接的是存储器24(例如,RAM,硬盘记录器,光学的存储装置,或DVHS,每一个都有数百千兆字节的存储能力)用来记录由音频/数据/视频信息选择器22识别的与观看爱好相一致的电视广播或其部分。当用户要求时,音频/数据/视频信息选择器可以存取储存于存储器中的音频/数据/视频信息,并提供信息到视频监视器12,以让用户回顾。
现在来看图2,描述了用于音频/数据/视频信息选择、储存和传送的装置的工作。
开始,用户通过个人的简介输入装置14(步骤100)来输入个人简介。个人简介与用户的观看爱好相关,诸如观众想要看的特定形式的电视节目、人物或电视节目的观点。信息可由多种方法提供,例如,信息可以通过个人简介输入装置14输入。另外,信息可以通过电视机上的一个屏上向导输入或通过视频监视器12借助传统的电视遥控装置上的箭头键输入。作为上面的替代,所有用户的简介信息可以自动地产生,其中个人简介输入装置监视用户的观看习惯,以及通过人工智能,“学习”个人的观看爱好。可以预见用户简介可以基于用户习惯或改变观看兴趣而得到发展。也可预见信息选择器或输入装置监视着用户改变观看习惯和自动地更新观看爱好(步骤101)。例如,如果用户以前只看体育事件,但最近已观看经济新闻频道,系统将修改原始的观看爱好(体育事件)以把经济新闻包括进去。个人简介输入装置优选地将“学来的”观看习惯存储到一内部的存储器中(未显示)。可替代地,“学来的”观看习惯存在存储器24中。也可预见用户可选择基于他的最相配的预-储存的简介中一个。
音频/数据/视频信号接收器16接收观众可用的音频/数据/视频电视信号(例如,那些需通过当地的有线电视或卫星服务订阅的频道)(步骤102),该电视信号用信号分离器18进行信号分离(步骤104)并提供给音频/数据/视频信息选择器22(步骤106)。EPG信号通过EPG信号接收器20接收,然后,提供给音频/数据/视频信息选择器22(步骤106)。
音频/数据/视频信息选择器22对接收到的电视信号实施一初始的选择过程。对每一接收到的电视信号,将其与EPG数据相关的部分与观看爱好相比较,以决定哪些电视节目与观看爱好根本无关(步骤108)。那些与观看爱好无关的电视节目不受监视。结果,接收到的电视信号的子集(电视节目)被保存下来,用于进一步分析并与观看参数相符合。EPG数据的使用只是过滤的第一级以消除那些明显的与用户的观看爱好完全无关的电视节目。例如,当正在播放“飘”时,如果一电视信号的EPG数据识别出相应的电视频道,而用户的观看爱好与“棒球”或“股市”有关,就没有必要当这一频道在播电影时监视这一频道。可是,当正播报新闻时,如果另一电视信号的EPG数据识别出相应的频道,监视这一频道可能是恰当的,因为可能将讨论前一夜的棒球分数和当天的经济新闻。
应该指出,如果没有EPG数据可用来确定所接收到的待分析的电视信号子集,那么音频/数据/视频信息选择器开始监视一组在观看爱好中识别出来的优选的频道或观众经常观看的频道。如果对音频/数据/视频信息选择器的计算资源没有限制,那么所有可得到的频道将同时被监视。
还应该指出,将周期性的检查未被监视的电视节目(即,回顾)以保证在相应的频道上的节目没有变化和现在没有播出与观看爱好相符合的节目。
一旦电视频道的子集被选择,每一电视频道的子集被连续地并行分析以确定目前播出节目的某一(如果任何)部分是否对应于观看爱好(每一电视节目被同时分析)。该分析包括从待分析的每一电视节目中(步骤110)提取封闭的字幕文字或译写的(tanscribed)文字。提取的封闭的字幕或译写的文字被编成索引(步骤112)。更明确地,如在本领域中公知的,编索引包括监视文字中字的出现频率以便为节目的主题事物提供指示。编索引解释在由G.Salton和M.J.Mcgill所著,于McGraw-Hill,NY,NY,1983,题为“Introduction to ModernInformation Retrieval(现代信息检索介绍)”;由James Allen所著,于The Benjamin/Cummings Publishing Company,Inc.,1995,题目为“Natural Language Understanding(自然语言理解)”;以及由Inderjeet Mani和Mark T.Maybury编辑,于MIT Press,Cambrige,MA,1999,题目为“Advances in Automatic TextSummarization(自动文字总结的进步”,其整个公开内容在此引入作为参考。分析索引的文字以决定特定的字是否在与观看爱好相联系的节目中频繁使用(步骤114)。如果在电视节目中频繁出现的字确实与观看爱好是一致的,那么节目或相应的片段应该被标记并进行进一步的分析或记录。
在文字摘要和索引的同时,对电视节目中广告的出现进行监视(步骤116)。如果观看爱好不包括对广告的兴趣,当广告在正被分析频道的其中一个播出时,本发明不分析广告,因此系统的资源可以集中关注无广告的电视的播出。另外如果需要广告,可将所有广告储存在存储器中以便以后分析。
该方法也包括电视信号的视频部分的分割(步骤118),以分析电视节目的视频画面。在优选实施方案中,每一正被监视的节目的每一视频画面都被分析(即,在美国,每秒分析30个视频画面)。视频分割在本领域是公知的且一般地解释在由T.McGee和N.Dimitrova所著,于Proc.SPIE Conf.on Storage and Retrieval for Imageand Video Databases,pp.243-251,San Jose,CA,January,1999,题为“Parsing TV Programs For Identification and Removal ofNon-Story Segments”(用于识别和除去非-故事片段的电视节目分析)的出版物中;由N.Dimitrova,H.Elenbass和T.McGee所著,于SPIEConference on Multimedia Storage and Archiving SystemsIV,pp.2-10,September 1999,Boston,题目为“PNRS-Personal NewsRetrieval System”(PNRS-个人新闻检索系统);以及由A.Hauptmann和M.Smith所著,于AAAI Fall 1995 Symposium on ComputationalModels for Integrating Language and Vision 1995,题目为“Text,Speech,and Vision For Video SegmentationTheInfomedia Project”。其整个公开内容在此引入作为参考。如果用户的观看爱好指示出愿意观看关于John F.Kennedy为主题的事件,包括与John F.Kennedy相关的视频(如面部)和/或文字信息的电视节目的视频部分的任何片段将显示目前的播出与观众的观看爱好相关。如在本领域公知的,视频分割包括,但也不限于切换(cut)检测其中两个连续的视频画面被比较,以便识别突然的场景变化(硬切换)或软过渡(渐隐画面,淡入、淡出)。切换检测的解释提供在由N.Dimitrova,T.McGee,H.Elenbaas所著,于Proc.ACM Conf.Knowledge and Information Management,pp.113-120,1997,题为“Video KeyframeExtraction and FilteringA Keyframe is Not a Keyframe to Everyone(视频关键画面的提取和过滤关键画面并不对每个人都是关键画面)”的出版物中,其整个公开内容在此引入作为参考。
面部检测其中包括皮肤-特性以及与橄榄形对应视频画面区域被识别,在优选实施方案中,一旦面部图像被识别出来,即将该图象与储存在存储器中的已知的面部的图象的数据库相比较,以确定显示在电视画面的面部的图象是否与用户的观看爱好相关。面部检测的解释提供在由Gang Wei和Ishwar K.Sethi,所著,于PatternRecongnition Letters,Vol.20,No.11,November 1999,题为“FaceDetection for Image Annotation(用于图象注释的面部检测)”的出版物中,其整个公开内容在此引入作为参考。
文字检测其中出现在视频画面中的文字例如被覆盖或重叠的文字被识别并确定文字是否与用户的观看爱好相关。文字检测的解释提供在由作者L.Agnihotri和N.Dimitrova所著,于与IEEEConference on Computer Vision and pattern Recognition(计算机视觉和图形识别大会)1999一起召开的Proceeding of IEEEWorkshop on CBAIVL,Fort Collins,Colorado,June 1999,题为“Text Detection in Video Segment(视频片段中的文字检测)”的文章中,其整个公开内容在此引入作为参考。在优选实施方案中,一旦文字被检测到,在本领域公知的光学字符识别(OCR)被用在被检测的区域,并且用储存在存储器中的查询表来识别被检测的文字。查询表优选地包括各种字之间的关联。例如,“比尔·克林顿”可以与“美国总统”和“政治”、“白宫”、“莫妮卡莱温斯基”和“白水”相关联。
运动判断/分割/检测其中,确定在视频序列中运动的物体以及分析运动物体的轨迹。为了确定在视频序列中物体的运动,公知的操作如光流判断、运动补偿和运动分割被优选地采用。运动判断/分割/检测的解释提供在由作者Patrick Bouthemy和Francois Edouard所著,于International Journal of Computer Vision,Vol.10,No.2,pp.157-182,April 1993,题为“Motion Segmentationand Qualitative Dynamic Scene Analysis from an ImageSequence”(视频序列的运动分割和定性动态场景分析)一文中,其整个公开内容在此引入作为参考。
摄像机的运动其中使用了一组五(5)个万向摄像机参数,优选的两(2)个平移和三(3)个转动。3-维摄像机运动被分成纯追踪(水平运动)、吊杆上下移摄像机(垂直运动)、摄影车移动(在深度方面的运动)、摇摄(绕垂直万向轴的旋转)、倾斜(绕水平万向轴的旋转)、和滚动(绕Z轴的旋转)或这些运动的组合。这一信息可被用来将视频镜头分类成如“静止的”、“变焦的”和/或“跨距”,而进一步确定导演制作镜头的意图。摄像机运动的信息被用来分类这样以致于如果当EPG数据不可用时,可以基于摄像机运动来确定节目的种类。摄像机运动检测提供在由作者R.Y.Tasi和T.S.Huang所著,于IEEE Transaction on PAMI,Vol.6,number 1,pp.13-27,1994,题为“Uniqueness and Estimation of Three-DimensionalMotion Parameters of Rigid Objects with Curved Surfaces(具有曲线表面的刚性物体的三维运动参数的唯一性及判断)”中,其整个公开内容在此引入作为参考。
该方法也包括电视信号的音频部分的分割(步骤120),其中电视广播中的音频部分被监测以便监测与观看爱好相关的字/声的出现。音频分割包括以下电视节目分析类型语音到文字的转换、音频效果和事件检测、说话者的识别、节目的识别、音乐分类和基于说话者识别的对话检测。
音频分割包括将音频信号分离成语音和非语音部分。音频分割的第一步涉及采用低-级的音频特征如带宽、能量和音调的片段分类。此后频道分离被用来将同时发生的每一音频成分(如音乐和语音)相互分离开,从而对每一个可单独的加以分析。此后,电视节目的音频部分用不同的方法进行处理,如语音到文字的转换、音频的效果和事件的检测以及说话者的识别。音频分割在本领域是公知的,并且一般的解释在由E.Wold和T.Blum所著,于IEEE Multimedia,pp.27-36,Fall 1996,题为“Content-Based Classification,Search,and Retrieval of Audio”(基于内容的音频的分类、搜索、和检索)的出版物中,其整个公开内容在此引用作为参考。
一旦电视信号的音频部分的语音片段从背景噪声或音乐中被识别或隔离出来,就可以进行语音到文字的转换(本领域所公知的,例如,请看由P.Beyerlein,X.Aubert,R.Haeb-Umbach,D.klakow,M.Ulrich,A.Wendemuth和P.Wilcox所著,于DARPA Broadcast NewsTranscription and Understanding Workshop,VA,8-11,1998,题目是“Automatic Transcription of English Broadcast News(英语广播新闻的自动译写)”的出版物,其整个公开内容在此引用作为参考)。如果没有封闭的字幕可用来提供电视节目的音频部分的录制,语音到文字的转换就是重要的。语音到文字的转换可以用于如关于观看爱好的关键字的识别上。
音频效果可以用来检测事件(本领域公知的,例如见由T.Blum,D.Keislar,J.Wheaton,和E.Wold发表,于IntelligentMultimedia Information Retrieval,AAAI Press,Menlo Park,California,pp.113-135,1997,题为“Audio Databases withContent-Based Retrieval”(具有基于内容的检索的音频数据库)出版物,整个公开内容在此引用作为参考)。事件可以由识别可能与特定事件相关的声音而得到检测。例如,在体育事件中一人大声喊的“射门”可以被检测到,如果观看参数包括曲棍球或足球的射门重放,那么节目片段可以被纪录在存储器中。
说话者的识别(本领域公知的,例如见由Nilesh V.Patel和Ishwar K.Sethi发表,于IS&T SPIE ProceedingStorage andRetrieval for Image and Video Databases V,pp.218-225,SanJose,CA,February 1997,题为“Video Classification UsingSpeaker Identification”(利用说话者的识别的视频分类)的出版物,其整个公开内容在此引用作为参考)涉及分析出现在音频信号中语音的的声音特征,以确定正在说话的人的身份。说话者的识别可以被用来,例如,寻找喜欢的演员或政治人物的评论。
节目识别涉及分析音频/数据/视频信号的音频部分来识别电视节目。这在节目的编写目录和编写索引上特别有用。如果EPG信息是不可用的,这就是很重要的了。已被分析的音频部分与节目特性库去比较,以便识别节目以确定该节目是否与观看参数一致。
音乐的分类涉及分析音频信号的非-语音部分,以确定出现的音乐类型(古典、摇滚、爵士等等)。这通过分析例如音频信号非-语音部分的频率、音调、音色、声响和旋律且将分析结果与特定音乐类型的已知特性进行比较来实现。音乐分类在本领域是公知的,且一般解释在由Eric D.Scheirer所著,于1999 IEEE Workshop onApplications of Signal Processing to Audio and Acoustics,NewPaltz,NY October 17-20,1999,题为“Towards Music UnderstandingWithout SeparationSegmenting Music With CorrelogramComodulation”(无分离的音乐理解采用相关图共调制分割音乐)的文中。
在音频和视频信号分割之后,已被分割的音频和视频信号的不同部分被结合(步骤121),如果合适,确定目前的电视节目是否与观看参数相符合。已被分割的音频和视频信号的结合对复杂的观看参数是必要的。例如,如果观众想要看特定演员说一特定的台词,同时做一特定的手势,不只是需要面部的识别(识别演员),而且也需要说话者的识别(保证屏幕上的演员正在说话)、语音到文字的转换(保证演员说合适的词)和运动判断/分割/检测(识别特定的演员的手势)。
如以上所解释的,同时存在的视频和音频的分割,已被分割的音频和视频信息被结合(如果适用)且与观看爱好相比较(步骤122)。之后确定一特定频道上的当前的节目是否与观看爱好一致。如果是,在优选的实施方案中,依照与观看爱好的一致性程度,节目被进行分级(步骤123),且只要当前的节目与用户的观看爱好一致即被记录在存储器中(步骤124)。分级涉及将与用户最喜欢观看参数一致的视频的片段放在存储器的第一位,以及将那些涉及最不喜欢的观看爱好放在存储器的最后。用这种方法,当观众看录下的节目片段时,最高级别的将被首先回顾。
如果在本发明正在工作的同时用户在看另一电视演出,用户可以被同时通知一个有趣的电视演出正在一特定的频道上播出(步骤126)。一旦观众请求,录下的节目片段可被检索并提供给用户观看。(步骤128)。
如上面提到的,可以预见,音频和视频分割的部分(由核心AV模块确定)可以利用中-级和高-级的模块而结合(即,组合)以确定在电视节目中的特定事件。核心AV模块包括提供独立的音频和视频分析的视频和文字模块。这些模块本身包括多个处理单元。核心AV模块的主要目的是提取更低-级的特征,它们可用作给组合模块(中-级和高-级工具)的输入,用于推断出与电视节目内容的语义描述类似的较高-级的决定。基本的视频属性是颜色、运动、形状和结构。这些属性的每一个由操作符的一个大的集合来描述,它们的范围从局部操作符和区域/全局操作符。这些操作符是基本数据单元,因为它们各自相互独立地被处理且它们是任务独立的。这个中-级和高-级组合模块的集合包括结合来自AV模块不同元素的工具。组合模块的目的是从内容数据中提取高-级信息。这涉及更低-级特征的多模式组合。中-级工具(模块)典型地用来描述目标各部分与音频/数据/视频属性之间的关系。高-级工具被用来识别/结合/处理目标。这些模型可以是静止的或动态的。动态模型是及时更新的。
高级信息与中-级信息的区别是,在循环中前者存在一个判定过程。这意味着,模块的内部,存在一个过程,用于决定用哪个核心AV模块以及在什么样的条件使用。高-级模块典型的实例是动作、事件检测/识别、故事分割和分类、节目分类、和环境(context)检测。
如果观看爱好是一个演员的一个特定的动作(例如,开门和进入房间),中-级或高-级的模块将被使用,因为不只是用到面部的检测和/或音频的识别被用到,而且,运动检测被用来找出特定演员的动作的确切的位置来确定演员的动作是否与观看参数相对应。结果,使用多个判断循环来分析电视节目。
可以预见本发明能够发展出整个节目的视频的概要,以使用户看到的所记录的片段可以在节目的环境中观看到(即,一个“抓获”功能)。视频概要可用关键画面图象和封闭的字幕发展,以提供未被录制的节目部分的指示。
也可以预见每当一特定的用户看电视时观看爱好可以被自动的更新。这一点的实现,是基于观众花在观看一定的节目(节目的种类)的时间以及节目的视频和其他的特性(如,动作、明亮的颜色)。父母的控制可以增加进来,以基于节目的内容过滤掉部分电视节目或整个节目。本发明可以检测电视节目中有裸体、暴力或淫秽的词的场面并防止节目的那些部分被未成年人观看。
可以预见,当观众正在看电视时,系统可以就对录下的信息为观众提供更新。换句话,当观众正在看另一电视频道时,观众将被通知与观看参数相匹配的电视片段已被记录下来。也可以预见如果用户正在看电视节目,而系统识别出某一个电视节目有趣,用户将被实时通知检测到有趣的节目。进一步,可以预见系统可对存储器执行每天/每周的自动储存清除功能,以便基于观看爱好管理存储空间。在优选的实施方案中,系统也包括一种时间抓获功能。具体地,当某人正在进行电视频道的冲浪且碰到一个有趣的节目,他可以通过浏览“一个提取的海报”(或摘要,预告)“抓获”有趣的节目。
本发明因此提供一“视频搜索系统”,其中,当某人想要观看一定类型的电视节目或只是想看特定的信息时,本发明建立一种用于观众想看的节目、主题和事件的可编程的愿望表。
虽然本发明已讨论了有关为观众位置上的观众寻找想要的电视节目和电视节目的片段/信息,一视频经纪行服务(brokerage houseservice〕可以被用来根据要求过滤和传送特定的视频片段。因此系统也许不放置在用户端,但是,例如,在有线电视提供者端和系统可用于多个用户同时操作。
本发明应用和改进现有的技术,如视频分割、视频分析、语音识别、字符识别及目标是别,用于在视频流中发现线索,以提供一个性化的视频信息识别系统。
还可以预见,可以本发明被采用来监视和记录观众对特定的节目的反馈和兴趣。收集的信息对推出新的节目、新的产品、新的电影和特定事件的制作是有价值的。本发明能够捕捉每个观众的兴趣。由个人使用的装置越多,就会更能够适合于用户的不同的兴趣。本发明因此建立随时间变化的关于个人兴趣的信息模型,这种变化可以是用户变化,也可是系统所需要的更多的关于用户的信息。这种信息对广告人和广播公司是有用的。视频过滤系统通过视频分析处理,能够生成完整的电影或电视节目的可浏览的编排。进一步,本发明允许个人预看和预听作为一多媒体的显示的电视节目的内容。这可通过分割视频、分析它的内容和提供给用户由原始和合成的画面构成的可浏览的编排,以及重要的对话的片段来实现。
通过参考相关的附图,描述了本发明的特定的优选实施方案,应当理解本发明不限于那些精确的实施方案,其中本领域的普通的技术人员可实施各种变化和修改而不违背本发明所附带的权利要求中所述范围或精神。
权利要求
1.一种选择所需要的音频/数据/视频信息的方法,包括的步骤有(a)确定观众的观看爱好(100);(b)接收第一多个音频/数据/视频信号(102);(c)从第一多个音频/数据/视频信号中识别待监视的第二多个音频/数据/视频信号,其中第二多个音频/数据/视频信号是第一多个音频/数据/视频信号的子集(108);(d)将所述观看爱好与第二多个音频/数据/视频信号进行比较,以识别所需要的音频/数据/视频信息(122);以及(e)为所需要的音频/数据/视频信息提供存取(124)。
2.根据权利要求1的选择所需要的音频/数据/视频信号的方法,还包括的步骤有储存所需要的音频/数据/视频信息(124);以及当观众要求时检索所需要的音频/数据/视频信息(128)。
3.根据权利要求1的选择所需要的音频/数据/视频信息的方法,其中,步骤(d)包含的步骤有提取相应于每一个所述第二多个音频/数据/视频信号的内容数据(110);对所述已提取的内容数据编写索引(112);以及将所述索引的内容数据与所述观看爱好比较以识别所需要的音频/数据/视频信息(114)。
4.根据权利要求3的选择所需要的音频/数据/视频信息的方法,其中,提取的内容数据包括一封闭的字幕文字、EPG数据、音频内容信息、视频内容信息及译写的信息中的至少一种。
5.根据权利要求4的选择所需要的音频/数据/视频信息的方法,其中,视频内容信息包括切换检测、面部检测、文字检测、运动判断/分割/检测和摄像机运动中的至少一种。
6.根据权利要求4的选择所需要的音频/数据/视频信息的方法,其中,音频内容信息包括语音到文字的转换、音响效果和事件检测、说话者的识别、节目的识别、音乐的分类和基于说话者的识别的对话检测中的至少一种。
7.根据权利要求4的选择所需要的音频/数据/视频信息的方法,其中,所述译写的信息包括自然语言处理和理解、话语分析、关键词检测和广播分类中的至少一种。
8.根据权利要求4的选择所需要的音频/数据/视频信息的方法,还包括的步骤有将封闭的字幕文字、EPG数据、提取的音频信息、提取的视频信息,以及已提取的译写的信息中的至少两种组合(121)。
9.根据权利要求8的选择所需要的音频/数据/视频信息的方法,其中,所述组合的步骤提供事件和动作的检测、故事分割、故事分类、节目分类以及环境检测中的至少一种。
10.根据权利要求9的选择所需要的音频/数据/视频信息的方法,其中所述环境检测包括人面部和背景检测中的至少一种。
11.根据权利要求1的选择所需要的音频/数据/视频信息的方法,其中所述所需要的音频/数据/视频信息包括广播和有线电视信号、基于互联网的信号和数据信号中的至少一种。
12.根据权利要求1的选择所需要的音频/数据/视频信息的方法,其中步骤(c)包括的步骤有将用于每一个第一多个音频/数据/视频信息的电子节目向导(EPG)数据与观看爱好比较,以识别与观看爱好相联系的第二多个音频/数据/视频信息(108)。
13.根据权利要求1的选择所需要的音频/数据/视频信息的方法,其中步骤(a)包括的步骤有借助键区、键盘、屏上显示、遥控、触摸屏、口头命令或触摸板,输入观众想看的音频/数据/视频信息的特性(100)。
14.根据权利要求1的选择所需要的音频/数据/视频信息的方法,其中步骤(a)包括的步骤有监视观众的观看习惯,制定与观众想看的音频/数据/视频信息的特性相应的观看爱好(101)。
15.根据权利要求14的选择所需要的音频/数据/视频信息的方法,还包括的步骤有每次观众存取电视广播信号或基于互联网的信号时自动更新观看爱好(101)。
16.根据权利要求1的选择所需要的音频/数据/视频信息的方法,还包括的步骤有识别第二多个音频/数据/视频信号的广告和非广告部分(116)。
17.根据权利要求1的选择所需要的音频/数据/视频信息的方法,还包括的步骤有根据与所述观看爱好的关联性将音频/数据/视频信息分级(123)。
18.根据权利要求1的选择所需要的音频/数据/视频信息的方法,其中步骤(e)包括的步骤有在存储器中储存所述所需要的音频/数据/视频信息的至少一部分(124)。
19.根据权利要求1的选择所需要的音频/数据/视频信息的方法,还包括的步骤有通知观众,所需要的音频/数据/视频信息已被识别出来(126)。
20.根据权利要求19的选择所需要的音频/数据/视频信息的方法,其中当观众正在与音频/数据/视频信息交互时,观众被通知。
21.根据权利要求1的选择所需要的音频/数据/视频信息的方法,其中所述方法对多个观众同时执行。
22.选择所需要的音频/数据/视频信息的方法,包括的步骤有a)确定用户的爱好(100);b)接收多个音频/数据/视频信号(102);c)将所述爱好与多个音频/数据/视频信号比较,以识别所需要的音频/数据/视频信息(122);以及d)为所需要的音频/数据/视频信息提供存取(124)。
23.根据权利要求22的选择所需要的音频/数据/视频信息的方法,还包括的步骤有选择多个音频/数据/视频信号的至少一个与所述爱好比较(108)。
24.根据权利要求23的选择所需要的音频/数据/视频信息的方法,其中,多个音频/数据/视频信号中的至少一个的选择是以随机地、顺序地、和周期地其中至少一种方式实现的。
25.一种音频/数据/视频信号选择系统,包括一个输入装置(14),用于提供观众的观看爱好;以及一个信息选择器(22)用于接收第一多个音频/数据/视频信号从第一多个音频/数据/视频信号中识别待监视的第二多个音频/数据/视频信号,其中第二多个音频/数据/视频信号是第一多个音频/数据/视频信号的子集;将所述观看爱好与第二多个音频/数据/视频信号比较,以识别所需要的音频/数据/视频信息;以及为识别的音频/数据/视频信息提供存取。
26.一种音频/数据/视频信号选择系统,包括一个输入装置(14),用于提供用户的观看爱好;和一个信息选择器(22)用于接收第一多个音频/数据/视频信号将所述观看爱好与第二多个音频/数据/视频信号比较,以识别所需要的音频/数据/视频信息;以及为已识别的音频/数据/视频信息提供存取。
27.根据权利要求26的音频/数据/视频信号选择系统,还包括一个存储器(24),可操作地与信息选择器连接,用于储存所述所需要的音频/数据/视频信息的至少一部分。
全文摘要
一种用于选择、储存和运送所需要的音频/数据/视频信息的方法,其包括的步骤有确定观众的观看爱好(100)和接收第一组音频/数据/视频信号(102),比如,广播和有线电视信号或基于互联网的信号。基于第一组音频/数据/视频信号,作为第一组音频/数据/视频信号子集的第二组音频/数据/视频信号被识别(108)。第二组音频/数据/视频信号是基于与用于每一信号的EPG数据与观众的观看爱好的联系来选择。而后内容数据从第二组音频/数据/视频信号提取并与观看爱好相比较(110,14)。内容数据可包括,例如,封闭的字幕内容、EPG数据、音频信息、视频信息、和译写信息。基于将从第二组音频/数据/视频信号提取出的内容数据与观看爱好进行比较,包含在第二组音频/数据/视频信号中对观众是有趣的音频/数据/视频信息被识别(122)并且被储存起来以方便观众再看(124)。
文档编号H04N5/00GK1408178SQ00805217
公开日2003年4月2日 申请日期2000年10月26日 优先权日1999年11月18日
发明者N·迪米特罗瓦, T·麦吉, J·H·埃伦巴尔斯, L·阿尼霍特里, R·雅辛施, S·达塔斯, A·门德索恩 申请人:皇家菲利浦电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1