用于识别节目的高层结构的方法和设备的制作方法

文档序号:6495032
专利名称:用于识别节目的高层结构的方法和设备的制作方法
技术领域
本发明总体上涉及视频分析领域,并且尤其涉及使用分类器来识别节目(诸如电视或视频节目)的高层结构,以便呈现在所述节目中所出现的不同类型的电视图文。
随着视频变得更加普遍,用于分析其中所包含内容的更高效方法变得越来越必要且重要了。视频内在包含了大量数据并且具复杂性,这使分析成为难题。重要的分析在于了解视频的高层结构,这可以为更进一步的详细分析提供基础。
已知多种分析方法,参见Yeung等人的“Video Browsing usingClustering and Scene Transitions on Compressed Sequences”,Multimedia Computing and Networking(多媒体计算及联网)1995,卷SPIE 2417,第399-413页,1995年2月;Yeung等人的“Time-constrained Clustering for Segmentation of Video intoStory Units”,ICPR,卷C,第375-380页,1996年8月;Zhong等人的“Clustering Methods for Video Browsing and Annotation”,SPIE Conference on Storage and Retrieval for Image and VideoDatabases(关于存储并检索图像和视频数据库的SPIE会议),卷2670,1996年2月;Chen等人的“ViBEA New Paradigm for VideoDatabase Browsing and Search”,Proc.IEEE Workshop onContent-Based Access of Image and Video Databases(关于图像和视频数据库的基于内容访问的专题会议IEEE会刊),1998年;以及Gong等人的“Automatic Parsing of TV Soccer Programs”,Proceedings of the International Conference on MultimediaComputing and Systems(ICMCS)(关于多媒体计算和系统的国际会议论文集),1995年5月。
Gong等人描述了一种在分析足球视频的结构中使用域知识和域具体模型的系统。像其它现有技术系统一样,视频首先被分段为镜头。镜头被定义为在快门打开和关闭之间的所有帧。从每个镜头内的帧所提取的空间特征(比赛场地线)用来把每个镜头分类为不同的类别,例如禁区、中场、角球区、角球和射门。注意,该工作很大程度上依赖于在提取特征前把视频准确地分段为镜头。镜头也不能完全表示在足球视频中出现的事件。
Zhong等人还描述了一种用于分析运动视频的系统。该系统检测高层语义单元的边界,例如棒球中的投掷以及网球中的发球。进一步分析每个语义单元以便提取感兴趣事件,例如网球中的斯托克数目、击球的类型-擦网球或擦线球。把基于颜色的自适应过滤方法应用于每个镜头的关键帧以便检测具体视图。使用诸如边缘和移动物体之类的复杂特征来校验和改善检测结果。注意,该工作同样很大程度上依赖于在特征提取之前把视频准确地分段为镜头。简言之,Gong和Zhong都把视频认为是基本单元的级连,其中每个单元是镜头。特征分析的分辨度不会比镜头级的更精细。该工作很复杂,并且很大程度上依赖于基于颜色的过滤以便检测具体视图。此外,如果视频的调色板改变,那么会使系统无法使用。
因而,通常现有技术如下首先把视频分段为镜头。
然后,从每个镜头提取关键帧并且将其分组为场景。使用场景转变图和分级树来表示这些数据结构。这些方法的问题在于低级镜头信息和高级场景信息之间的不匹配。它们只在感兴趣内容的变化对应于镜头的变换时才起作用。
在诸如足球视频之类的许多应用中,诸如“比赛”之类的感兴趣事件不能由镜头变化来定义。每个比赛可以包含具有相似颜色分布的多个镜头。在比赛之间的转换很难由只基于镜头特征的简单帧聚类来发现。
在许多情况中,其中存在实在的摄像机运动,镜头检测过程易于出现分段错误,这是因为此类型的分段基于低级特征,而不考虑视频的域特定的高层语法和内容模型。因而,很难根据镜头级的分段来桥接在低级特征和高级特征间的间隙。此外,在镜头分段过程期间丢失了太多的信息。
在不同域中的视频具有非常不同的特性和结构。域知识可以极大地有助于分析过程。例如,在运动视频中,通常存在固定数目的摄像机、视图、摄像机控制规则以及由所述游戏规则强加的转换语法,例如足球实况报道(play-by-play)、网球实况报道(serve-by-serve)和棒球实况报道(inning-by-inning)。
Tan等人在1999的“Rapid estimation of camera motion fromcompressed video with application to video annotation”中,IEEE Trans.On Circuit and Systems for Video Technology,并且Zhang等人在1995年的“Automatic Parsing and Indexing of NewsVideo”中,Multimedia Systems(多媒体系统),卷2,第256-266页,描述了新闻和棒球的视频分析。但是很少系统考虑在更复杂的视频以及广泛的视频中的高层结构。
例如对于足球视频,问题在于足球比赛与像新闻和棒球之类的其它视频相比较具有相对松散的结构。除实况报道结构之外,内容流可能完全不可预测并且随机地发生。在足球比赛的视频中存在大量运动和视图改变。解决此问题用于为球迷和专家进行自动内容过滤。
在视频结构分析和内容理解的更广背景下,对所述问题更感兴趣。相对于结构,主要关注点是高级视频状态的时间序列,例如足球比赛的比赛状态和暂停。希望把连续视频流自动分析到这两种比赛状态的交替序列中。
现有技术的结构分析方法主要集中在检测域特定的事件。分别分析来自事件检测的结构具有下列优点。典型情况下,不超过60%的内容对应于比赛。因而,人们可以通过分段排除对应于中场休息的视频部分来实现信息的显著减少。在比赛和暂停中的内容特性也是不同的,因而人们可以利用这种预先的状态知识来优化事件检测器。
相关技术的结构分析工作主要关于运动视频分析,包括足球和各种其它比赛,以及一般视频分段。对于足球视频,已经对镜头分类作了预先工作,参见上面Gong的文献;场景重构,Yow等人的“Analysis and Presentation of Soccer Highlights from DigitalVideo”,Proc.ACCV,1995,1995年12月;和Tovinkere等人的基于规则的语义分类“Detecting Semantic Events in SoccerGamesTowards A Complete Solution”Proc.ICME 2001,2001年8月。
隐藏马尔可夫模型(Hidden Markov models HMM)已经用于一般的视频分类并且用于区分不同类型的节目,诸如新闻、商业广告等,参见Huang等人的“Joint video scene segmentation andclassification based on hidden Markov model”Proc.ICME 2000,第1551-1554页,卷3,2000年7月。
基于域具体特征和主要颜色比例的启发式规则也被用来划分比赛和暂停,参见Xu等人的“Algorithms and system for segmentationand structure analysis in soccer video”,Proc.ICME 2001,2001年8月,以及美国专利申请系列号09/839,924“Method andSystem for High-Level Structure Analysis and Event Detectionin Domain Specific Videos”,由Xu等人在2001年4月21日提交。然而,在这些特征中的变化很难利用明确的低级判定规则来量化。
因此,需要其中保持视频的低级特征的所有信息并且较好地表示特征序列的框架。然后,可以并入域特定语法和内容模型来识别高层结构以便能够在高层节目结构而不只是镜头上进行视频分类和分段。
本发明的主要思想在于使用与人类分析员合作的的无监督的聚类算法来辨别节目(诸如电视或视频节目)的高层结构。
更特别地是,本发明提供一种用于自动确定节目的高层结构的设备和方法,所述节目诸如电视或视频节目。所发明的方法由三个阶段组成,这里第一阶段指的是文本类型聚类阶段,第二阶段是种类/子种类识别阶段,其中检测目标节目的种类/子种类类型,以及第三和最后阶段,这里指的是结构恢复阶段。结构恢复阶段依靠图形模型来表示节目结构。用于训练的图形模型可以是手动构建的Petri网,或使用Baum Welch训练算法来自动构造的隐藏马尔可夫模型。为了揭示目标节目的结构,可以使用维特比(Viterbi)算法。
在第一阶段中(即,文本类型聚类),从目标节目的帧来检测覆盖和重叠的文本,所述目标节目诸如为用户感兴趣的电视或视频节目。对于在目标节目中所检测的每行文本,提取各种文本特征,诸如位置(行,列)、高度、字体和颜色。根据对每行检测文本所提取的文本特征构成特征向量。接下来,根据无监督的聚类技术把特征向量分组为聚类。然后依照由特征向量所描述的文本类型来标记所述聚类(例如,铭牌、分数、片头字幕等)。
在第二阶段中(即,种类/子种类识别),进行训练过程,借此依照上述在阶段一的方法来分析用于表示各个种类/子种类类型的训练视频以便确定它们各自的群集分布。一旦获得,令聚类分布充当各个种类/子种类类型的种类/子种类标识符。例如,喜剧电影具有确定的聚类分布,而棒球比赛具有明显不同的聚类分布。然而每个聚类分布完全表示它们各自的种类/子种类类型。在训练过程结束时,然后可以通过把先前在第一阶段所获得的聚类分布(文本类型聚类)与在第二阶段所获得的各个种类/子种类类型的聚类分布相比较,来确定目标节目的种类/子种类类型。
在第三且最后阶段中(即,高层节目结构恢复阶段),通过首先创建更高阶图形模型的数据库,借此模型图形化表示在多个种类/子种类类型节目的过程期间的视频文本流,来恢复目标节目的高层结构。一旦通过使用在动作140所确定的文本检测的结果以及在动作160所确定的聚类分布的结果构造了图形模型数据库,那么可以识别和检索多个存储的模型中的单个图形模型。所选择的图形模型以及文本检测和聚类信息用来恢复节目的高层结构。
诸如视频或电视节目之类的节目的高层结构可以有益地用于各式各样的应用中,包括但不限于搜索目标节目中的时间事件和/或文本事件和/或节目事件,作为推荐器并且用于创建所述目标节目的多媒体概要。
参照本发明说明性实施例的下列详细说明并且结合附图,本发明的上述特征将变得更加清楚并且可以理解,其中

图1是图示依照一个实施例的本发明的文本类型聚类阶段的流程图;图2是图示依照一个实施例的本发明的种类/子种类识别阶段的流程图;图3是图示依照一个实施例的本发明的高层结构恢复阶段的流程图;图4是用于图示电影的节目事件的示例性图形模型;图5是与图4的图形模型相关联的预先和后置条件的概要;和图6是高阶Petri网的说明性例子。
在本发明下面的详细说明中,阐明了许多的具体细节以便提供根本的发明,其可以在没有这些具体细节的情况下实施。在有些情况下,在框图形式中没有详细地示出公知的结构和装置,以免模糊本发明。此外下述的图1-6和在本专利文献中用于描述发明原理的各个实施例仅仅为了说明,而不应当理解为对本发明的范围的任何限制。
在下面的描述中,将明确地描述本发明的优选实施例,其通常可能被实现为软件程序。那些本领域技术人员应当容易地认识到,这种软件的等效物也可以用硬件来构造。由于视频处理算法和系统是公知的,本说明书将特别针对形成依照本发明的系统和方法的一部分或与之直接合作的算法和系统。这种算法和系统的其它方面以及用于生成并处理与之相关的视频信号的硬件和/或软件(这里没有特别示出或描述)可以从本领域中已知的这种系统、算法、组件和元件中选择。在下面材料中描述的依照本发明的系统和方法,这里没有特别示出、建议或描述的、可用于实现本发明的软件是常规的并且为本领域技术人员所知。
更进一步,如这里所用,计算机程序可以被存储在计算机可读存储介质中,其例如可以包括诸如磁盘(诸如硬盘驱动器或软盘)或磁带之类的磁存储介质;诸如光盘、光带或机器可读的条形码之类的光存储介质;诸如随机存取存储器(RAM)或只读存储器(ROM)之类的固态电子存储器;或用于存储计算机程序的任何其它物理装置或介质。
随后的描述使用在下面所定义的术语种类/子种类——种类是品种、类别或分类,尤其是文学或艺术作品的分类,并且子种类是特定种类内的类别。种类的一个例子是“运动”,具有子种类篮球、棒球、足球、网球等。种类的另一例子是“电影”,具有子种类喜剧、悲剧、音乐、动作等。种类的其它例子例如包括“新闻”、“音乐节目”、“自然”、“谈话节目”和“儿童节目”。
目标节目——是终端用户感兴趣的视频或电视节目。向本发明的过程提供所述目标节目作为输入。依照本发明的原理对目标节目的操作提供下列能力(1)使终端用户能够接收所述目标节目的多媒体概要,(2)恢复所述目标节目的高层结构,(3)确定所述目标节目的种类/子种类,(4)检测在所述目标节目内的预定内容,其可以是在节目中所想要或不想要的内容,并且(5)接收关于所述目标节目的信息(即,作为推荐器)。
聚类——聚类划分向量集以便具有类似内容的向量处于相同的组,并且组彼此之间尽可能彼此不同。
聚类算法——聚类算法通过找到类似项的组并且把它们分组为类别来进行操作。当所述类别未被指定时,这有时被称为无监督的聚类。当所述类别被先验指定时,这有时被称为监督聚类。
现在转向图1-3,示出了依照一个实施例的本发明的方法。
图1是用于图示依照一个实施例的本发明的第一阶段的流程图,这里指的是文本类型的聚类阶段100,其中从目标节目的帧中检测覆盖和重叠文本,所述目标节目诸如用户所感兴趣的电视或视频节目。
图2是用于图示依照一个实施例的本发明的第二阶段的流程图,这里指的是种类/子种类识别,在所述种类/子种类识别期间进行训练过程,借此分析用于表示各个种类/子种类类型的训练视频以便确定它们各自的聚类分布。一旦获得,聚类分布充当各个种类/子种类类型的种类/子种类标识符。在训练过程结束时,然后可以通过把目标节目的聚类分布与在训练期间所获得的各个种类/子种类类型的聚类分布相比较来确定所述目标节目的种类/子种类类型。
图3是用于图示依照一个实施例的本发明的第三阶段的流程图,指的是目标节目结构恢复阶段,在所述结构恢复阶段期间通过首先创建更高阶图形模型的数据库,借此每个模型图形表示在特定种类/子种类类型的节目过程期间的视频文本流,来确定所述目标节目的高层结构。一旦构造了数据库,先前在过程的阶段一所获得的结果用来从在所述数据库中所存储的图形模型中识别并选择单个图形模型,以便恢复所述节目的高层结构,所述结果诸如关于所述目标节目的文本检测和聚类分布结果。
注意,除所图示之外,并非在下述的过程流程图中所描述的所有动作都要执行。某些动作也可以与其它动作基本上同时执行。在读取此说明书之后,技术人员能够确定什么动作能够用于它们的具体需要。
I.第一阶段-文本类型聚类如图1的流程图所示,第一阶段,即文本类型的聚类阶段100通常包括下列动作110-检测在终端用户感兴趣的“目标节目”中文本的存在,所述目标节目诸如电视或视频节目。
120-识别并提取在所述目标节目中所检测的视频文本的每一行的文本特征。
130-根据所识别并提取的特征来形成特征向量。
140-把所述特征向量组织到聚类中。
150-依照在所述聚类中所存在的视频文本类型来标记每个聚类。
现在将更详细地描述这些一般动作中的每一个。
在动作110,通过分析“目标”电视或视频节目以便检测在目标节目的单个视频帧内所包含的文本的存在来开始所述过程。在于2003年8月19日发布的Agnihotri等人的美国专利号6,608,930的题为“Method and System for Analyzing Video Content UsingDetected Text in Video Frames”的专利中提供了对视频文本检测的更详细的解释,这里通过全面引用以供参考。可以从目标节目中检测的文本类型例如可以包括开始和结束字幕、分数、标题文本、铭牌等。作为选择,还可以依照MPEG-7标准来实现文本检测,所述MPEG-7标准描述了用于静态或移动视频对象分段的方法。
在动作120,从在动作110所检测的文本识别并提取文本特征。文本特征的例子可以包括位置(行和列)、高度(h)、字体(f)和颜色(r,g,b)。其它特征也是可以的。对于位置特征,为了实现本发明,考虑将视频帧分成3×3网格以产生9个具体区域。位置特征的行和列参数定义所述文本所位于的特定区域。对于字体(f)特征,“f”表示所使用的字体类型。
在动作130,对于所检测文本的每一行,将所提取的文本特征归类为单个的特征向量,Fv。
在动作140,特征向量Fv被组织(分组)为聚类{C1,C2,C3,...}。通过使用在特征向量FV1和聚类{C1,C2,C3,...},FV2之间的距离量度来实现分组,并且把特征向量FV1与具有最高相似度的聚类相关联。无监督的聚类算法可以用来根据相似性度量来聚类特征向量FV。
在一个实施例中,所使用的距离量度是曼哈顿距离(Manhattandistance),所述曼哈顿距离被计算为在各自文本特征中差异的绝对值的和,计算如下Dist(FV1,FV2)=w1*(|FV1row-FV2row|+|FV1col-FV2col|)+w2*(|FV1h-FV2h|)+w3*(|FV1f-FV2f|+|FV1g-FV2g|+|FV1b-FV2b|)+w4*(FontDist(f1,f2))等式(1)其中FV1row,FV2row=第一和第二特征向量行位置;FV1cot,FV2col=第一和第二特征向量列位置;FV1h,FV2h=第一和第二特征向量高度;FV1f,FV1g,FV1b=第一特征向量颜色(r,g,b);FV2f,FV2g,FV2b=第二特征向量颜色(r,g,b);f1=第一特征向量的字体;f2=第二特征向量的字体;FontDist(a,b)=在多个字体之间预先计算的距离;应当注意,可以根据经验确定w1到w4的加权系数以及“Dist”。
在动作150,然后依照聚类中的文本类型来标记在动作140所形成的每个聚类{C1,C2,C3,...}。例如,聚类C1可以包括描述这样文本的特征向量,所述文本总是以黄色播出并且总是位于屏幕的右下部。据此,由于所描述的特性指的是通知即将播放的文本,所以可能会把聚类C1标记为“将来节目通知”。作为另一例子,聚类C2可以包括用于描述这样文本的特征向量,所述文本总是以黑底蓝色播出并且总是位于屏幕的左上部。据此,由于所述文本特征是用于显示分数的文本特征,所以可能把聚类C2标记为“运动分数”。
标记聚类的过程,即动作150,可以手动或自动地执行。手动方法的好处在于聚类标签更为直观,例如“标题文本”、“新闻更新”等。自动标记生成诸如“TextType1”、“Texttype2”等之类的标签。
II.第二阶段-种类/子种类识别如图2的流程图所示,第二阶段,即种类/子种类识别阶段200通常包括下列动作210-执行种类/子种类识别训练。
210.a-特定种类/子种类类型的多个训练视频N被作为输入提供。
210.b-对于每个训练视频N执行文本检测。
210.c-对于在每个训练视频N中所检测文本的每行识别并提取文本特征。
210.d-根据在动作210.c所提取的文本特征构成特征向量。
210.e-通过使用距离量度将在动作210.d所形成的特征向量与在动作140所导出的一个聚类类型{C1,C2,C3,...}相关联,来根据特征向量导出聚类类型{C1,C2,C3,...}。
220-对于目标节目的种类/子种类类型构造种类特征向量。
为了进一步帮助理解怎样使用种类特征向量定义各个种类/子种类类型,提供了表1作为例子。表1的行描述了各个种类/子种类类型并且列2-5描述了在动作210执行种类/子种类识别之后产生的聚类分布(计数)。
表1
根据执行种类/子种类识别所确定的种类特征向量表征了各自的种类/子种类类型,例如电影/西方={13,44,8,43},运动/棒球{5,33,8,4}等。
在动作220,确定目标节目的种类/子种类类型。对于各个种类/子种类类型,现在把所述目标节目的聚类分布(先前在动作140计算出的)与在动作210所确定的聚类分布相比较。通过确定在动作210所确定的哪个聚类分布最接近于在动作140所确定的目标节目的聚类分布,来确定所述目标节目的种类/子种类类型。可以使用阈值确定来确保足够的相似度。例如,可能要求目标节目的聚类分布具有与在动作210所确定的最近聚类分布至少80%的相似度,以便宣布成功地识别了目标节目的种类/子种类。
Petri网概述在描述第三阶段300,即高层结构恢复阶段300(下面将给出描述)之前,作为基础,特别集中于Petri原理来回顾某些图形建模的基本原则。
Petri网的原理是公知的,并且在Austin的Peterson of theUniversity of Texas的James L的书“Petri Net Theory and theModeling of Systems”中给出了很好的阐述。这本书由Prentice-Hall,Inc.of Englewood Cliffs,N.J.出版,并且通过引用在此结合。
简要地,Petri网是特定种类的有向图,由两种节点组成,称作库所和变迁,其具有有向弧,所述有向弧从库所到变迁或从变迁到库所。库所用来收集令牌,即用来表示什么流过系统的元素,而变迁在库所之间移动令牌。
在图4中描述了具有库所、变迁、弧和令牌的示例性Petri网系统。在图4中所示出的Petri网是建模电影“The Player”的介绍分段的图形模型。在该电影中,在三个独立的文本位置处示出了电影的开始字幕,这里指的是L1、L2和L3。介绍分段期间文本在位置L1、L2和L3的出现以及随后的消失是由Petri网根据系统状态及其变化来图形建模的。更特别地是,把系统状态建模为一个或多个条件,而把系统状态改变建模为变迁,稍后将对此进行描述。
继续参考图4,示例性Petri网的“库所”由空圈表示,并且被标记为P1-P6并且在此例子中表示“条件”。例如,图4的Petri网的一个条件是“在电影屏幕位置L1出现文本”。为了建模目的,此条件与库所P5相关联。变迁由矩形表示,被标记为t1-t8并且表示事件。例如,图4的Petri网的一个事件是“在电影屏幕位置L1文本开始”。为了建模目的,此事件与t2相关联。
条件和事件的概念只是在Petri网原理中所使用的变迁和库所的一个解释。如所示的,每个变迁t1-t8具有某些输入和输出库所,分别用于表示所述事件的前置条件和后置条件。对于要发生的事件,必须满足前置条件。
对于图4的示例性Petri网,在图5中提供了前置和后置条件以及把它们链接起来的事件的汇总。在列1中描述了前置条件,在列3中描述了后置条件,并且在列2描述了链接前置和后置条件的事件。
图4的Petri网只是系统文本流的一个例子,其描述了一小段电视或视频节目。因此图4的Petri网可以被恰当表征为“低阶的”Petri网。本申请利用“更高阶”的Petri网,所述“高阶”Petri网部分地根据“低阶”Petri网构造,下面将对此进行描述。
III.第三阶段-恢复目标节目的高层结构如图3的流程图所示,第三阶段,即高阶结构恢复阶段300通常包括下列动作310-目的恢复目标节目的高层结构。
310.a-创建高阶图形模型的数据库。
310.b-识别每个较高阶图形模型内的热点。
310.c-获取先前在动作140为目标节目所产生的文本检测的结果(参见图1)。
310.d-获取先前在动作160为目标节目所产生的聚类分布的结果(参见图1)。
310.e-使用目标节目的聚类分布的结果,从所述数据库中存储的多个高阶图形模型中识别并获取高阶图形模型的子集。
310.f-使用文本检测的结果和在动作210.e所识别的高阶图形模型的子集,从在动作310.e所识别模型的子集中识别单个的高阶图形模型,所述单个高阶图形模型最近似于在动作210.c所获取的目标节目的文本检测事件的序列。所述的单个高阶图形模型图形化表示了目标节目的高层结构。
现在将更详细地描述这些一般动作中的每一个。
在动作310.a,构造多个较高阶图形模型(例如,Petri网),用于描述在整个节目过程期间的系统视频文本流。多个图形模型中的每一个唯一地描述了特定种类/子种类类型的视频文本流。多个模型被存储在数据库中以便稍后在帮助确定用户所感兴趣的目标节目的种类/子种类类型中参考。
在一个实施例中,图形模型是手动构造的高阶Petri网。为了手动来构造这种模型,系统设计者分析在各种节目种类/子种类类型的节目过程期间的视频文本检测和聚类映射。
在另一实施例中,使用Baum-Welch算法来把图形模型自动地构造为隐藏马尔可夫模型。
不管构造方法是手动还是自动的,高阶图形模型的某些关键特性是(1)高阶图形模型在节目级上对流进行建模,并且(2)图形模型包括实际上是低阶图形模型的速记表示的变迁。换句话说,高阶模型部分地根据低阶图形模型构建。参考图6进一步说明了此关键特性。
图6是高阶Petri网的说明性例子,高阶Petri网是一种类型的高阶图形模型。图6的高阶Petri网图形化示出了在花样滑冰节目过程期间的系统视频文本流。即,它在节目级对系统流建模。众所周知,花样滑冰节目由多个节目事件组成,诸如在下面的表II中所列出。
表II
要求前置条件来触发事件并且后置条件作为事件的结果出现。在本说明性例子中的条件可以被定义为(条件a-节目开始);(条件b-滑冰者介绍);(条件c-滑冰者现有分数);和(条件d-最终比赛结果显示)。
应当理解图6的高阶网的事件1-5实际上是低阶Petri网的速记表示。例如,第一事件1——即开始字幕——可扩展为诸如在图4中所示出的低阶Petri网。
在动作310.b-在动作210.a所构造的每个高阶图形模型内,可以识别多个感兴趣区域(“热点”)。这些热点可以具有可变范围。这些热点区域对应于那些可能为终端用户感兴趣的事件。例如,事件2“滑冰者表演”作为感兴趣的节目事件可能具有比事件1“开始片头字幕”更多的重要性。可以给所谓的“热点”分配对应于其相对重要性的等级顺序。此外,对于所谓的热点也可以识别组成高阶Petri网的低阶Petri网。
在动作310.c-获取先前在动作140为目标节目所产生的文本检测的结果(参见图1)。
在动作310.d-获取先前在动作160为目标节目所产生的聚类分布的结果(参见图1)。
在动作310.e-使用先前在动作210.d所获取的目标节目的聚类分布数据,从数据库中识别并选择在动作210.a所创建的高阶图形模型的子集。通过确定哪个高阶模型包含为所述目标节目识别的相同聚类来选择高阶模型的子集。
在动作310.f-使用先前在动作310.c所获取的目标节目的文本检测数据,从动作310.d所识别的网的子集中识别单个高阶Petri网。为了识别一个高阶Petri网,把文本检测数据与Petri网子集的每个Petri网的系统流相比较以便识别满足所述目标节目的文本事件序列的一个Petri网。
作为识别最相似于目标节目的高层结构的单个图形模型的结果,可以容易地获得关于所述目标节目的信息。这种信息例如可以包括时间事件、文本事件、节目事件、节目结构、概要。
作为一个具体例子,可以使用来自目标节目的文本检测数据连同识别的单个高阶图形模型一起来辨别节目事件信息。表III表示目标节目的虚构文本检测数据。
如表III的第一行所图示,文本检测产生关于所检测的特定文本事件的聚类类型的数据(列1),出现文本事件的时间(列2),所述文本事件的持续时间(列3)和规定所述文本事件必须出现的时间下限和上限的时间边界信息。应当理解,为了便于解释,所述表表示在节目持续期间所出现的文本事件序列的简略版本。
表3
如表2所示,本发明的感光性树脂组合物是高灵敏度的,能以高分辨率形成图案。而且如表3所示,对于延伸率和吸水率而言,即使在250℃固化,也能得到与300℃固化时毫不逊色的膜物性。关于5%重量减少温度,在250℃固化的虽然显示稍微低数值,但是这些数值在大致450℃以上实用都没有问题。此外,关于实施例10,调查了300℃下保持1小时情况下渗出的气体,在250℃固化时为1.3%,与在300℃固化时的0.95%的数值相比毫不逊色。
应当理解,这里所示出并描述的实施例和变化仅仅说明本发明的原理,并且在不脱离本发明范围和精神的情况下那些本领域技术人员可以实现各种修改。
在解释附加权利要求中,应当理解的是a)词“包括”并不排除那些没有在给定权利要求中列出的其它元件或动作的存在;b)位于元件之前的词“一个”或“一种”并不排除存在多个这样的元件。
c)权利要求中的任何附图标记并不限制其保护范围;d)几个“装置”可以由相同的项或硬件或用软件实现的结构或功能来表示;以及e)每个公开的元件可以由硬件部分(例如,离散的电子线路)、软件部分(例如,计算机程序)或其组合来组成。
权利要求
1.一种用于恢复目标节目的高层结构的方法,包括动作a)产生所述目标节目的文本检测数据;b)使用在动作(a)所产生的文本检测数据来产生所述目标节目的种类/子种类特征向量;c)创建多个高阶图形模型;d)使用所述目标节目的聚类分布数据来识别所述高阶图形模型的子集;并且d)使用所述目标节目文本检测数据来从所述模型子集中识别单个的高阶图形模型,其中所述单个的高阶图形模型对应于所述目标节目的高层结构。
2.如权利要求1所述的方法,还包括动作使用具有所述文本检测数据的单个高阶图形模型来创建节目概要。
3.如权利要求2所述的方法,其中创建所述节目概要的动作还包括动作确定对观众重要的一个或多个事件;搜索所述重要事件的文本检测数据;从所述文本检测数据提取所述重要事件;并且把所述提取的事件包括在所述节目概要中。
4.如权利要求1所述的方法,还包括创建节目概要的动作,包括动作搜索节目事件;根据预定等级来分级在所述搜索动作上所识别的节目事件;根据所述等级选择特定的所述识别的节目事件。
5.如权利要求4所述的方法,其中搜索节目事件的动作,包括动作确定共同定义一个节目事件的文本事件序列;搜索所述文本事件序列的文本检测数据;当识别所述文本检测数据中的所述文本事件序列时,把所述文本事件序列与在所述高阶图形模型中的相应节点相比较;并且确定所述文本事件序列出现的时间序列是否符合与在所述高阶图形模型中的相应节点相关联的时间约束。
6.如权利要求1所述的方法,还包括搜索所述目标节目中如下信息的动作,包括文本类型、与除所述目标节目之外节目的相似性、文本模式、节目事件和节目事件模式。
7.如权利要求6所述的方法,其中要在所述目标节目中搜索的所述信息使用由所述文本检测数据和所述单个高阶图形模型所提供的信息。
8.如权利要求1所述的方法,其中所述图形模型是Petri网模型、隐藏马尔可夫模型以及所述Petri网模型和所述隐藏马尔可夫模型的组合之一。
9.如权利要求1所述的方法,其中所述目标节目是电视和视频节目之一。
10.如权利要求1所述的方法,其中产生所述目标节目的文本检测数据的动作还包括动作i)检测在所述目标节目中文本的存在;ii)识别并提取所检测文本的文本特征;并且iii)根据所识别并提取的特征来形成文本特征向量。
11.如权利要求10所述的方法,其中依照MPEG-7标准来执行检测在所述目标节目中文本存在的动作。
12.如权利要求10所述的方法,其中所识别并提取的文本特征包括文本位置、文本高度、文本字体和文本颜色。
13.如权利要求10所述的方法,其中检测在所述目标节目中文本存在的动作还包括检测在所述目标节目的特定视频帧中文本存在的动作。
14.如权利要求10所述的方法,其中产生所述目标节目的所述种类/子种类特征向量的动作还包括动作把在动作(iii)所产生的目标节目的文本特征向量与各个种类/子种类类型的多个预定种类/子种类特征向量相比较;并且把所述目标节目的文本特征向量与具有最高相似度的种类/子种类特征向量相关联;把在相关联步骤所识别的种类/子种类特征向量的集合定义为所述目标节目的种类/子种类特征向量。
15.如权利要求1所述的方法,其中所述多个高阶图形模型在节目级对特定节目的种类/子种类类型进行图形建模。
16.如权利要求12所述的方法,其中所述高阶图形模型的变迁元素可以由低阶图形模型组成,所述低阶模型包括节目文本和定时信息。
17.如权利要求16所述的方法,其中所述低阶图形模型被建模为Petri网。
18.如权利要求17所述的方法,其中可以向所述变迁元素分配相对于所述高阶模型的其它变迁元素的优先级次序。
19.如权利要求1所述的方法,其中依照无监督的聚类算法来执行产生所述目标节目的种类特征向量聚类数据的动作。
20.如权利要求19所述的方法,其中所述无监督的聚类算法基于比较相应的文本特征的距离量度。
21.如权利要求20所述的方法,其中所述距离量度被计算为Dist(FV1,FV2)=w1*(|FV1row-FV2row|+|FV1col-FV2col|)+w2*(|FV1h-FV2h|)+w3*(|FV1f-FV2f|+|FV1g-FV2g|+|FV1b-FV2b|)+w4*(FontDist(f1,f2))其中FV1row,FV2row=第一和第二特征向量行位置;FV1col,FV2col=第一和第二特征向量列位置;FV1h,FV2h=第一和第二特征向量高度;FV1r,FV1g,FV1b=第一特征向量颜色(r,g,b);FV2r,FV2g,FV2b=第二特征向量颜色(r,g,b);f1=第一特征向量的字体;f2=第二特征向量的字体;并且FontDist(a,b)=在多个字体之间预先算出的距离;
22.一种用于恢复目标节目的高层结构的系统,所述系统包括用于存储计算机可读代码的存储器,用于存储多个高阶Petri网的数据库以及可操作来耦合到所述存储器的处理器,所述处理器被配置为产生所述目标节目的文本检测数据;使用所述文本检测数据来产生所述目标节目的种类/子种类特征向量;创建多个高阶图形模型;使用所述目标节目的聚类分布数据来识别所述高阶图形模型的子集;并且使用所述目标节目的文本检测数据来从所述模型的子集中识别单个高阶图形模型,其中所述单个高阶图形模型对应于所述目标节目的高层结构。
全文摘要
提供了一种用于使用与人类分析员合作的无监督聚类算法来恢复节目(诸如电视或视频节目)的高层结构的设备和方法。所述方法由三个阶段组成,这里第一阶段指的是文本类型聚类阶段,第二阶段是种类/子种类识别阶段,其中检测目标节目的种类/子种类类型,以及第三且最后阶段,这里指的是结构恢复阶段。结构恢复阶段依靠图形模型来表示节目结构。节目的高层结构一旦被恢复,可以被有益地用于恢复进一步的信息,包括但不限于时间事件、文本事件、节目事件等。
文档编号G06K9/34GK1860480SQ200480028300
公开日2006年11月8日 申请日期2004年9月28日 优先权日2003年9月30日
发明者L·阿尼霍特里, N·迪米特罗瓦 申请人:皇家飞利浦电子股份有限公司
再多了解一些
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1