利用脚本信息识别和查明节目的广告部分的方法

文档序号:7747739阅读:305来源:国知局
专利名称:利用脚本信息识别和查明节目的广告部分的方法
背景技术
发明领域本发明涉及一种用于识别和查明的在诸如广播电视节目的节目期间广告的方法和电视观看系统,更具体来说涉及利用脚本信息识别和查明广播电视节目期间的广告的方法。
相关技术说明存在这样的电视观看系统,它能自动地检测电视信号的被选择的片段,诸如商业广告或节目中不希望要的部分。这些广告检测系统通常被用来在节目中出现不希望要的部分时将电视广播的声频部分消音,或者用于控制视频播放器在录制或回放期间跳过节目的不希望要的部分。尽管已经开发了各种各样的技术用于检测电视节目的被选择的部分,现有技术的系统都不监测电视节目的脚本信息(例如闭路字幕(closed captioned)信息),以识别和查明在节目期间出现的广告部分。此外,现有技术的系统都不识别、划分(segment)和存储在节目的广告片段期间出现的单独广告供以后使用,例如用于建立一个广告库,以便识别随后的电视广播的相应的广告部分。
发明目的和概要因此,本发明的一个目的是提供一种识别和查明广播节目的广告部分的方法。
本发明的另一个目的是提供一种监测与广播节目对应的脚本信息以识别和查明该广播节目的广告部分的方法。
本发明的另一个目的是提供一种通过分析与广播节目相关联的脚本信息以识别、划分和查明在广播节目的广告片段期间所广播的单独广告的方法。
本发明的另一个目的是提供一种能克服已知的广告检测方法的固有缺点的识别和查明广播节目的广告部分的方法。
本发明的另一个目的是提供一种识别和查明在节目期间出现的广告片段的电视观看系统。
按照本发明的一种形式,一种识别节目期间的广告片段的方法包括以下步骤使用与节目相关联的脚本信息,检测在第一时段期间脚本信息中出现次数超过预定数目的“非停顿”(non-stop)词语,检测在第二时段期间脚本信息中出现次数超过预定数目的“非停顿”词语,以及比较在第一时段期间检测到的非停顿词语与在第二时段期间检测到的“非停顿”词语。
按照本发明的另一种形式,一种查明和存储在节目期间出现的广告片段的方法包括以下步骤识别在节目期间出现的一个可能的(possible)广告片段,把该可能的广告片段的“非停顿”词语与以前识别过的很可能的(probable)广告片段的列表中每一个片段的“非停顿”词语作比较,以确定至少一个匹配的很可能的广告片段,比较该可能的广告片段的脚本文本与该至少一个匹配的很可能的广告片段的脚本文本,存储该可能的广告片段与该至少一个匹配的很可能的广告片段二者共同的脚本文本,将该至少一个匹配的存储的很可能的广告片段从该很可能的广告片段的列表中删除,以及将该至少一个匹配的很可能的广告片段添加到一个候选广告片段的列表中。
按照本发明的另一种形式,一种查明和存储在节目期间出现的广告片段的方法包括以下步骤识别在节目期间出现的一个可能的广告片段,比较该可能的广告片段的“非停顿”词语与以前识别的候选广告片段的列表中的每个片段的“非停顿”词语,以确定至少一个匹配的候选广告片段,比较该可能的广告片段的脚本文本与该至少一个匹配的候选广告片段的脚本文本,存储该可能的广告片段与该至少一个匹配的候选广告片段二者共同的脚本文本,将该至少一个匹配的候选广告片段从该候选广告片段的列表中删除,以及将该至少一个匹配的候选广告片段添加到一个已找到的广告片段的列表中。
按照本发明的另一种形式,一种查明和存储在节目期间出现的广告片段的方法包括以下步骤识别在节目期间出现的一个可能的广告片段,比较该可能的广告片段的“非停顿”词语与一个以前识别的已找到的广告片段的列表中的每个片段的“非停顿”词语,以确定至少一个匹配的已找到的广告片段,比较该可能的广告片段的脚本文本与该至少一个匹配的已找到的广告片段的脚本文本,存储该可能的广告片段与该至少一个匹配的已找到的广告片段二者共同的脚本文本,以及使指示该至少一个匹配的已找到的广告片段的出现频率的计数器递增。该方法也进一步包括将该已找到的广告片段添加到一个已找到的广告的列表中。
按照本发明的另一种形式,一种检索一个存储的广告片段的方法包括以下步骤识别至少一个表示所希望要的广告片段的非停顿词语,识别与所识别的非停顿词语对应的已存储的广告片段,以及输出与所识别的非停顿词语相对应的已识别的存储的广告片段。该方法进一步包括将所识别的存储的广告片段标记为广告区。
按照本发明的另一种形式,一种识别节目期间的广告片段的电视观看系统包含用于接收与节目相关联的脚本信息的装置;用于检测在第一时段期间脚本信息中出现次数超过预定数目的“非停顿”词语的装置;用于检测在第二时段期间脚本信息中出现次数超过预定数目的“非停顿”词语;以及用于比较在第一时段期间检测到的非停顿词语与在第二时段期间检测到的“非停顿”词语的装置。
按照本发明的另一种形式,一种查明和存储在节目期间出现的广告片段的电视观看系统包含用于识别在节目期间出现的一个可能的广告片段的装置;用于比较该可能的广告片段的“非停顿”词语与一个以前识别的很可能的广告片段的列表中的每个片段的“非停顿”词语以确定至少一个匹配的很可能的广告片段的装置;用于比较该可能的广告片段的脚本文本与该至少一个匹配的很可能的广告片段的脚本文本的装置;用于存储该可能的广告片段与该至少一个匹配的很可能的广告片段二者共同的脚本文本的装置;用于将该至少一个匹配的存储的很可能的广告片段从该很可能的广告片段的列表中删除的装置;以及用于将该至少一个匹配的很可能的广告片段添加到候选广告片段的列表和已找到的广告片段的列表的至少之一中的装置。
本发明的上述和其它目的、特点和优点,将在以下要参照附图而阅读的对本发明的详细说明中变得非常明显。


图1是按照本发明的利用脚本信息识别节目的广告部分的方法的流程图;图2是按照本发明的利用脚本信息识别节目的广告部分的方法的流程图,图2是图1的继续;图3是按照本发明的查明节目的广告部分的方法的流程图。
具体实施例方式
现在参看各附图,图中示出了按照本发明的利用脚本信息识别和查明节目中的广告部分的方法。术语“脚本信息”用来表示通常与视频节目的传输(声频/数据/视频)信号一起提供的、对应于视频节目的口述的(spoken)或非口述的(non-spoken)事件的文本-例如闭路字幕文本,或者像EPG(电子节目指南)数据那样的其它文本源。脚本信息能从视频文本或屏幕文本中(例如通过检测视频的字幕(subtitle))获得,或者通过对提取的文本应用光学字符识别(OCR)而获得,例如在美国专利文件“Video Stream Classification System IsolationMethod and System”(视频流分类系统的分离方法和系统)(美国专利申请号09/441,943,申请日1999-11-17)和美国专利文件“Symbol Classification With Features Applied to a NeuralNetwork”(用于神经网络的带特征符号分类)(美国专利申请号09/441,949,申请日1999-11-17)公开了上述技术,在此全文引用这两个专利申请作为参考。
如果声频/数据/视频信号不包括一个文本部分(即,不包括脚本信息),则可以用现有技术中已知的诸如语音-文本转换等技术来生成脚本信息(如果存在字幕,则采用利用OCR的字幕识别来生成脚本信息)。脚本信息也可以从第三方来源—例如通过因特网的电视指南—获得。
本发明所根据的知识是节目的脚本信息能够用诸如关键词检索和统计文本标引和检索等已知的检索技术进行检索和分析。总的来说,该用于广告片段识别的方法包括分析对应于某节目(声频、视频、数字之类)的脚本信息,确定该节目的一个广告部分的开始(或者如下文详细说明的那样通过识别脚本信息中的“进入广告”的提示而确定该节目的一个非广告部分的结尾)。一旦该节目的一个广告部分的开始被识别,该方法分析该脚本信息,以单独地识别在所识别的节目的广告部分内含有的个别广告。然后将个别地识别的广告的特征(signa ture)与在数据库中作为单独的实体存储的、以前识别的(以前存储的)广告片段的特征进行比较,以识别该广告片段的特定广告部分。一旦广告片段已经被存储在数据库中,用户就能访问数据库,以搜索某个特定的广告。作为前述方法的替代,可以用任何基于声频/视频特征的标准广告检测技术来尝试性地确定广告区,这些技术例如在以下专利申请中公开美国专利文件“Automatic Signature-BaseSpotting,Learning and Extracting of Commercials and OtherVideo Content”(广告和其它视频内容的基于信号的自动认定、查明和抽取)(美国专利申请号09/417,288,申请日1999-10-13,发明人Dimitrova、McGee和Agnihotri)和美国专利文件“Apparatus andMethod for Locating a Commercial Disposed Within a Video DataStream”(找出分布在视频数据流中的广告的设备和方法)(美国专利申请号09/123,444,申请日1998-7-28,发明人Dimitrova、McGee、Elenbaas、Leyvi、Ramsey和Berkowitz)公开了上述技术,在此全文引用这两项专利申请作为参考。
首先参看图1,图中显示本发明的一个优选实施例。该方法包括确定对于所接收的(声频/数据/视频)节目信号是否有EPG(电子节目指南)数据可用(步骤8)。如果没有EPG数据可用(步骤8中的否),该方法继续执行步骤62(见图2)。如果有EPG数据可用(步骤8中的是),该方法确定所接收的节目(声频/数据/视频)信号是否包括该节目的娱乐(非广告)部分和广告部分的脚本信息(步骤10)。如果所接收的节目信号不包括用于娱乐和广告部分的脚本信息,且该脚本信息不能从第三方来源获得,则本发明方法采用已知的语音-文本转换技术来提供必需的脚本信息。如果节目信号包括用于节目的娱乐部分的脚本信息但是不包括用于节目的广告部分的脚本信息(步骤10中的否),并且如果不能从第三方来源获得用于节目的广告部分的脚本信息,则将节目的不包括脚本信息的各部分标记为非节目区(即广告区)(步骤12)。然后运用语音-文本转换(步骤14)为非节目区生成必需的脚本信息。
如果节目信号包括用于节目的娱乐和广告部分的脚本信息(步骤10中的是),则从节目信号中抽取脚本信息(步骤16)。然后对EPG数据信号进行分析,以确定节目的类型(例如脱口秀、新闻节目等等)。可以采用其它的节目类型确定方法,诸如在下述专利申请中公开的那些分析脚本信息而获得节目类型提示的方法美国专利文件“Apparatus and Method of Program Classification UsingObserved Cues in the Transcript Information”(使用在脚本信息中观察到的提示对节目分类的设备和方法)(美国专利申请号09/739,476,申请日2000-12-18,发明人Kavitha Devara)和美国专利文件“ Apparatus and Method for the Summarization andIndexing of Video Programs Using Transcript Information”(利用脚本信息概括和标引视频节目的设备和方法)(美国专利申请号09/721,681,申请日2000-11-14,发明人Lalitha Agnihotri,Kavitha Devara,和Nevenka Dimitrova),在此全文引用这两项专利申请作为参考。
如果EPG数据指示该节目是那种在口述文本中对广告出现会提供提示的类型(诸如新闻节目或脱口秀),则将这个事实记录下来(步骤22)。新闻节目或脱口秀用诸如“当我们回来时”(when we come back)、“后面的内容是”(still ahead)、“这些消息之后”(after thesemessages)、“插播广告之后”(after the commercial break)和“下面紧接着”(up next)等短语来对广告的出现提供提示。如果这些短语在脚本信息中被识别,则接着马上要播广告就有高度的确定性。如果节目是脱口秀或新闻节目(步骤22中的22),则监测脚本信息中的对广告的出现的提示(步骤24)。如果监测到一个广告提示,则将该区标记为节目的广告片段的开始(步骤26)。然后,就监测脚本信息在第一时段中其出现次数超过预定阈值的“非停顿”词语(步骤30)。应当注意的是,当新闻节目或脱口秀的主持人说“欢迎回来”(welcomeback)之类的话时,新闻节目和脱口秀也就在文本中提供了关于从广告插播返回到正常节目的提示。如果这些短语在脚本信息中被识别,则很可能广告片段要结束。
非停顿词语是“an”、“the”、“of”等以外的词语。发明人发现广告主希望在很短的时段内传递他们的消息。在加标记的(labeling)广告中我们能认识到品牌名称/数据库辅助手段(database aids)。这导致产品名称、公司名称和其它识别特征在一个广告片段中被频繁重复。如果非停顿词语(对于被广告的产品来说是共同的)在节目期间中的较短时段内出现大量的次数,这就是广告的表征。在一个实施例中,该时段是15秒钟,该方法确定非停顿词语在这个时段内被提及的次数是否多于一次。
如果在步骤30中识别到超过预定阈值的非停顿词语(步骤30中的X>1),则该脚本文本在第二个时段再作检测(该时段最好与在前的时段重叠),并将在第二个时段内出现次数超过预定数目的非停顿词语记录下来(步骤32)。如果至少一个非停顿词语出现的次数超过预定的数目(步骤32中的X>1),则判断当前时段的非停顿词语是否与在前时段的非停顿词语相符(步骤36)。
如果在当前时段中识别的非停顿词语与在在前时段中识别的非停顿词语不相符(就是说,它们没有至少一个共同的非停顿词语)(步骤36的否),则当前的和在前的时段不是同一广告片段的一部分(步骤38),于是将当前时段的开始标记为一个新的广告片段的开始(步骤40)。之后,该脚本文本在下一个时段被检测(该时段至少与在前的时段重叠),并将出现次数超过预定数目的非停顿词语记录下来(步骤42)。
如果在步骤42中识别到超过预定阈值的非停顿词语(步骤42中的X>1),则判断当前时段的非停顿词语是否与在前时段的非停顿词语相符(步骤46)。如果当前时段的非停顿词语与在前时段的非停顿词语相符(步骤46的是),则将当前时段是与在前时段的相同的广告片段的一部分这个事实记录下来(步骤48)。之后,判断当前脚本信息是否对应于向节目的非广告部分的返回(步骤50)。如果确定当前脚本信息对应于向节目的非广告部分的返回(步骤50中的是)(例如节目主持人说“欢迎回来”),该方法返回到步骤24。然而,如果判定当前脚本信息不表示向节目的非广告部分的返回(步骤50中的否),则该方法返回到步骤32,以监测脚本信息一个新的时段。
如果在步骤36确定当前时段的非停顿词语与一个在前时段的非停顿词语相符(步骤36中的是),则就确定了该在前时段和当前时段是相同广告片段的一部分(步骤52)。然后,检测下一个时段的该脚本文本,该时段最好至少与该在前时段重叠。将出现次数超过预定数目的非停顿词语记录下来(步骤54)。
如果在当前时段中非停顿词语出现的次数超过预定数目(步骤54中X>1),则判断当前时段的非停顿词语是否与在前时段的非停顿词语相符(步骤58)。如果当前时段的非停顿词语不与任何一个在前时段的非停顿词语相符(步骤58的否),则将当前时段的开始标记为一个新的广告片段的开始(步骤60)。之后,该方法返回到步骤32。
如果在当前时段所确定的非停顿词语与在前时段中之一个时段的非停顿词语相符(步骤58中的是),则将该当前时段是与具有相同非停顿词语的对应在前时段的同一广告的一部分这一事实记录下来(步骤62)。然后判断当前脚本信息是否是要返回到节目的非广告部分的表征(步骤50)。如果判定当前脚本信息是向节目的非广告部分返回的表征(步骤50中的是),该方法返回到步骤24。然而,如果判定当前脚本信息不是向节目的非广告部分返回的表征(步骤50中的否),该方法返回到步骤32。
现在返回到步骤8,如果判定没有EPG数据可用(步骤8中的否),则该方法继续执行图2中所示的步骤63。类似地,如果在步骤22判定当前的节目不是脱口秀、新闻节目或其他提供指示节目的广告片段的开始的广告提示的节目(步骤22中的否),则该方法继续执行图2中所示的步骤63。
现在转看图2,如果广告片段的开始既不能通过广告提示也不能通过EPG数据得到识别,则在特定的时段对节目的脚本信息继续监测,以识别出现的非停顿词语。然后记录在预定的时段内出现各非停顿词语每一个的出现次数(步骤63)。之后,判断所检测的非停顿词语在该时段内出现的次数是否超过预定的数目(步骤64)。如果非停顿词语在该时段内出现的次数没有超过预定的数目(步骤64中的否),则方法回到步骤63,在其中对脚本信息检测其非停顿词语。但是,如果非停顿词语在该时段内出现的次数超过预定的数目(步骤64中的是),则将对应于该时段的节目部分确定为一个广告片段的开始(步骤66)。之后,对脚本信息监测与在前时段重叠的下一个时段,并记录出现次数超过预定数目的非停顿词语(步骤68)。如果个别非停顿词语在该时段出现的次数超过预定的数目(步骤68中的X>1),则判断当前时段的非停顿词语是否与一个在前时段的非停顿词语相符(步骤72)。
如果当前时段的非停顿词语与该在前时段的非停顿词语不相符(步骤72中的否),则当前和在前时段不是同一广告片段的一部分(步骤74),于是将当前时段的开始标记为一个新的广告片段的开始(步骤76)。之后,在至少与在前时段相重叠的下一个时段内监测脚本信息,并且记录其出现次数超过预定阈值的非停顿词语(步骤78)。
如果在步骤78中识别到出现次数超过预定数目的非停顿词语(步骤78中的X>1),则判断当前时段的非停顿词语是否与在前时段的非停顿词语相符(步骤82)。如果当前时段的非停顿词语与在前时段的非停顿词语相符(步骤82中的是),则将当前时段是与在前时段的同一广告片段的一部分这个事实记录下来(步骤84)。之后,判断当前脚本信息是否对应于要返回到节目的非广告部分(步骤86)。如果确定当前脚本信息对应于要返回到节目的非广告部分(步骤86中的是)则该方法返回到步骤62。然而,如果判定当前脚本信息不表示返回到节目的非广告部分(步骤86中的否),则该方法返回到步骤68,监测脚本信息一个新的时段。
如果在步骤72中判定当前时段的非停顿词语与在前时段的非停顿词语相符(步骤72中的是),则确定该在前时段和当前时段是同一广告片段的一部分(步骤88)。然后,最好在至少与前时段相重叠的下一个时段上对脚本信息进行监测,并将出现次数超过预定数目的非停顿词语记录下来(步骤90)。如果在当前时段中非停顿词语出现的次数超过预定数目(步骤90中X>1),则对当前时段的非停顿词语是否与在前时段的非停顿词语相符作出判断(步骤94)。如果当前时段的非停顿词语与任何一个在前时段的非停顿词语不相符(步骤94的否)则将当前时段的开始标记为一个新的广告的开始(步骤98)。之后,该方法返回到步骤68。如果在当前时段所确定的非停顿词语与在前时段中的非停顿词语相符(步骤94中的是),则将该当前时段是与具有相同非停顿词语的在前时段的同一广告的一部分这一事实记录下来(步骤96)。然后判断当前脚本信息是否是要返回到节目的非广告部分的表征(步骤86)。如果判定当前脚本信息对应于要返回到节目的非广告部分的表征(步骤86中的是),该方法返回到步骤62。然而,如果判定当前脚本信息不是向节目的非广告部分的返回的表征(步骤86中的否),则该方法返回到步骤68。
根据以上分析,如果非停顿词语在给定时段出现多次,并且相同的词语出现在例如下两个重叠的时段,该方法就把从第一时段的开始到第三时段的结尾的脚本文本作为一个可能的广告存储起来。此外,如果某些词语在第三时段出现多次,并且还继续出现一直到第六时间段,则本方法就把从第三时段的开始到第六时段的结尾的脚本文本作为下一个广告存储起来。下一次观察到类似的关键词语时,则可以用(下文解释的)一个子段匹配方法将当前可能的广告与被存储的这两个广告匹配。这将使一个文本与其它可能的广告文本的重叠部分相匹配。假设当前广告是被与在前出现的该同一广告的不同广告所包围,则下一次该广告出现时,只有这两段的中心部分匹配当前广告。这就能够从所存储的广告中去除广告片段的无关部分,所剩下的只有主题广告。这可能仅包括第一时段的一部分、整个第二时段和第三时段的一部分,作为实际的广告。
作为本发明的结果,一个广播节目的多广告部分的各个广告可以用脚本信息被识别,并能被互相分开,单独地存储在存储器中,以用于各种用途,例如用于在节目期间识别各个广告,以及用于搜索特定类型的广告(汽车)或特定产品的广告(本田雅确(Honda Accord))。
根据对实际广播广告的分析,本发明人已经确定如果非停顿词语在预定时段(15秒)内出现至少三次,这就是广告出现的表征。发明人已经发现,在任何15秒的间隔期间内,非停顿词语在节目的非广告部分出现的次数不大可能超过3次。
以下文本是从David Letterman主持的包含两个广告的Late-Night Show节目中抽取的闭路字幕文本。
1367275I’ll tell you what,ladies and1368707gentlemen,when we come back1369638we’ll be playing here.
1373075(cheers and applause)1374847(band playing)of using a dandruff shampoo1426340Note how isolated it makes people feel.
1430736Note its unpleasant smell,the absence of richlather.
1433842Note its name.Nizora a-d.
1437276The world’s #1 prescribed ingredient fordandruff...
1440019In non-prescription strength.
1442523People can stay dandruff free by doing this withnizoral a-d1444426only twice a week.
1447560Only twice a week.What a pity.
1449023Nizora a-d1451597I see skies of blues1507456and clouds of white1509419the bright,blessed day1512724the dogs say good night1515728and I think to myself...
1518432Discover estee lauder pleasures1520105and lauder pleasures for men.
1521937Pleasure to go.For her.
1524842For him.
1526674Each set free with a purchase1527806of estee lauder pleasures1528947of lauder pleasures for men.
1530450...Oh,yeah.
153205215341551566922(Band playing)l586770>>daveIt’s flue shot Friday.
1587572You know,I’d like to take a1588473minute here to mention the...
闭路字幕文本展示了本发明的有效性,其中词语“Nizoral”、“A-D”、“dandruff”、和“shampoo”在时间戳1374847与1449032之间的第一个广告(15秒)片段中出现至少三次。此外,词语“lauder”和“pleasures”在时间戳1451597与1528947之间第二个广告中出现三次以上。这所根据的事实是,广告主想要在短时间内传达他们的消息,因此必须频繁地向听众重复产品名称、公司和产品的其它标识特征,以便在短时间内传达所希望的消息和信息。通过检测脚本信息中的这些非停顿词语在预定时段内的出现,各个广告就能被检测到并被互相分开。
在节目的广告部分已经被识别后,最好将广播的广告部分内的各个广告相互分开,并存储在存储器/数据库中,供以后在存储这各个广告的存储器/数据库内检索(例如,这样用户就能通过搜索广告存储器/数据库来检索汽车广告),以向用户提供符合用户要求的广告。
现在转至图3,图中显示了用于查明广告的方法,其中存储所识别的广告的存储器/数据库包括被存储在找到的广告列表中的、候选广告列表中的和很可能的广告的列表中的广告片段。
首先,进行对一个新广告区的搜索(步骤120)。对广告区的搜索,可以对应于上述的图1和2中所示的方法,或者如下列专利所公开的其它已知的广告检测方法美国专利文件“Apparatus and Method forLocating a Commercial Disposed Within a Video Data Stream”(找到分布在视频数据流中的广告的设备和方法)(美国专利申请号09/123,444,申请日1998-7-28,发明人Nevenka Dimitrova、ThomasMcGee、Herman Elenbaas、Eugene Leyvi、Carolyn Ramsey和DavidBerkowitz)公开了上述技术,在此全文引用该专利申请作为参考。然后对是否检测到一个新的广告区作出判断(步骤122)。如果检测不到新的广告区(步骤122中的否),则该方法返回到步骤120,继续搜索新的广告区。然而,如果找到新的广告区(步骤122中的是),则将对应于该广告区中其出现次数超过预定数目的非停顿词语与“已找到的”广告列表的一部分的广告中非停顿词语进行比较。已找到的广告列表对应于已经被识别两次以上的广告,因此该“非停顿”词语和被存储的脚本文本的正确性就存在着高度的确定性。如果在新广告区的非停顿词语与找到的广告列表中的所列的广告之一的非停顿词语之间识别到一个匹配(步骤126中的YES),则递增对应于所识别的广告的计数器,以指示有一个仍然在广播节目期间出现的活动广告(步骤128)。如果该计数器有一段时间(例如1个月)没有被递增,则将该广告和对应的非停顿词语和脚本文本从存储器中清除,因为该广告是不活动的。或者,可以将该广告无限期地保留在数据库中。
如果新广告区的非停顿词语与已找到的广告列表中含有的广告的非停顿词语不对应(步骤126中的否),则在新广告区的非停顿词语与候选广告列表中的广告的非停顿词语之间进行比较(步骤130)。如果新广告区的非停顿词语与候选广告列表中的至少一个广告的非停顿词语匹配(步骤132中的是),则把在候选列表中已识别的广告从候选列表中删除,并与对应的非停顿词语和脚本文本一起转移到已找到的广告列表中(步骤134)。然而,如果新广告区的非停顿词语与候选广告列表中含有的广告的非停顿词语不匹配(步骤132中的否),则在新广告区的非停顿词语与很可能的广告列表中含有的非停顿词语之间进行比较(步骤136)。如果发现在新广告区的非停顿词语与很可能的广告列表中含有的广告之一的非停顿词语之间有一个匹配(步骤138中的是),则将在很可能的列表中所识别的广告从很可能的列表中删除,并转移到候选广告列表中(步骤140)。然而,如果在新广告区的非停顿词语与很可能的广告列表中所含有的各广告之一的非停顿词语之间得不到匹配,则将包括所识别的非停顿词语的新广告区和脚本文本存储在很可能的广告列表中。
从图3中所示的方法看来,每当检测到一个新的潜在的广告区,就将在脚本信息中所识别的非停顿词语与以前所识别的已找到的广告列表中的、候选广告列表中的、和很可能的广告列表中的非停顿词语进行比较。如果该新的潜在广告的非停顿词语与在已找到的广告列表中、候选广告列表中、或很可能的广告列表中所识别的非停顿词语不匹配,则将该新的潜在广告添加到很可能的广告列表中。就是说,将该新的潜在广告的非停顿词语以及一个新的潜在广告的实际脚本添加到很可能的广告列表中。然而,如果该新的潜在广告的有些非停顿词语与在已找到的广告列表、候选广告列表、或很可能的广告列表中至少一种表中所识别的非停顿词语匹配,则将该新的潜在广告和广告列表中匹配的广告的脚本文本用一种近似匹配技术进行比较,该近似匹配技术例如是近似串匹配“Shift-Or Algorithm”(移位-或算法),它发表在Computer Science and Engineering Handbook,(计算机科学和工程手册),186-192页,作者Allen C.Tucker,其公开内容在此引用作为参考。“Shift-Or Algorithm”说明了脚本文本因是从多个来源获得或生成的而可能引入到文本中的虚假特征(词语、短语、句子)。通过使用“Shift-Or Algorithm”,对新的潜在广告和由广告的列表所识别的广告来说是共同的脚本文本被保留,而不一致的文本则被忽略。一般来说,被忽略的文本在实际广告的开始或结尾处出现,这是由于没有非停顿词语或者由于这些部分属于一个与新识别的广告片段相邻的(邻接的)的广告片段。
重要的是要注意上述查明过程对于不含有“进入广告的提示”的节目是连续运行的。
本发明设计成要将脚本以及任选地将信号与广告一起存储在数据库中。也可以将系统连接到服务提供者(service provider),它下载当前广播的广告或提供对当前广播的广告的访问,或者将当前广告的存储器/数据库与系统相连以在系统的初始启动时提供广告知识。当用户需要检索特定类型的广告(例如汽车广告)时,用户可提供搜索参数,通过按顺序搜索已找到的列表、候选列表和很可能的列表,一个简单的串匹配操作就将检索出所需要的广告。此外,被存储的广告的脚本能被用作在以后的广播节目期间识别该广告的特征(signature)。特征也可以被广告主用来保证他们的广告已经被播出。
应当提及的是,监测非停顿词语的时段可以是任何希望的长度。由于广告一般只有15-30秒长,一经发现这样的时段最好应是15秒的延续时间。尽管预见到各时段不必重叠,但是已经确定重叠的时段是优选的。在一个例子中,第一时段覆盖从0秒到15秒的时间,第二时段覆盖从5秒到20秒的时间段,第三时段覆盖从10秒到25秒的时段,第四时段覆盖15秒到30秒的时段。用这种时段结构,就能提供对广告片段的开始和结尾的更确定的指示。如果确定第一、第二和第三时段有相同的非停顿词语,则将第一、第二和第三时段的脚本信息一起存储在数据库中。
应当注意到,应当将能够被连接在一起的时段的总数设定一个限度(大约等于1或2分钟),以便不会因某些词语或名称的重复而将整个节目存储起来。例如,由于广告很少会超过1分钟长,不会将如上所述的12个重叠的15秒时间窗口组合在一起作为一个可能的广告。
应当注意到,预期本发明能提供用户以用户可能有兴趣访问的、与被观看的广告有关的链接。例如,如果某用户正在观看某个汽车广告,可以向用户呈现贷款广告、汽车保险广告和/或其广告被存储在数据库中的汽车代理业务。
预期本发明装置也能包括一个广告和品牌名称的数据库。如果被数据库识别的某个品牌名称在预定的时段被多次提及,这就是广告出现的表征。广告和广告名数据库也能有助于将某个广告标记为用于某一特定产品的,并且有助于确定在一个给定的广告片段中有多少广告。
可以预见,节目的广告片段也能通过观察闭路字幕文本的每行长度(例如字数)而确定。系统能确定词语/行的连续平均(runningaverage)。如果在一个特定数目的行中字数超过连续平均,或者如果闭路字幕格式改变,这就是广告片段的表征。
至此结合

了本发明的具体实施例,应当知道,本发明并不限于这些具体的实施例,本领域的熟练人员在不偏离由后附的权利要求书定义本发明的精神和范围的情况可以实现对这些实施例的各种改变和修改。
权利要求
1.一种识别节目期间的广告片段的方法,包括以下步骤a.使用与节目相关联的脚本信息;b.检测在第一时段期间脚本信息中出现次数超过预定数目的“非停顿”词语;c.检测在第二时段期间脚本信息中出现次数超过预定数目的“非停顿”词语;以及d.比较在第一时段期间检测到的非停顿词语与在第二时段期间检测到的“非停顿”词语。
2.按照权利要求1的识别节目期间的广告片段的方法,进一步包含下列步骤检测在第三时段期间脚本信息中出现次数超过预定数目的“非停顿”词语;其中,如果在第一时段期间检测到的出现次数超过预定数目的“非停顿”词语与在第二时段期间检测到的出现次数超过预定数目的“非停顿”词语不同,则第一时段是第一广告片段的表征,第二时段是第二广告片段的表征;其中,如果在第一时段期间检测到的出现次数超过预定数目的“非停顿”词语中的至少一个与在第二时段期间检测到的出现次数超过预定数目的“非停顿”词语中的至少一个相同,则第一时段和第二时段是一个共同的广告片段的表征;其中,如果在第三时段期间检测到的出现次数超过预定数目的“非停顿”词语与在第二时段期间和在第一时段期间检测到的出现次数超过预定数目的“非停顿”词语不同,则第三时段是一个与第一时段或第二时段的广告片段都不关联的广告片段的表征,和其中,如果在第三时段期间检测到的出现次数超过预定数目的“非停顿”词语与在第二时段期间和第一时段期间中的至少一个期间检测到的出现次数超过预定数目的“非停顿”词语相同,则第三时段是一个与对应的第一或第二时段的广告片段相关联的广告片段的表征。
3.按照权利要求2的识别节目期间的广告片段的方法,其中,第二时段在时间上与第一时段重叠,第三时段在时间上至少与第二时段重叠。
4.按照权利要求1的识别节目期间的广告片段的方法,其中,如果在预定时段期间“非停顿”词语的出现次数至少等于一个预定值,则检测到一个广告片段的开始。
5.按照权利要求1的识别节目期间的广告片段的方法,进一步包含以下步骤接收包括脚本信息和电子节目指南(EPG)数据中至少一个的声频/数据/视频信号;和分析脚本信息和电子节目指南(EPG)数据,以确定正在广播的节目的类型以及该正在广播的节目的类型是否包括“进入广告”和“退出广告”的提示。
6.按照权利要求1的识别节目期间的广告片段的方法,进一步包含以下步骤接收包括脚本信息和电子节目指南(EPG)数据中至少一个的声频/数据/视频信号;和连续地在脚本信息中搜索一个广告片段的结尾,其中,当已经识别到一个广告片段的开始或结尾时,存储插在该广告片段的开始与结尾之间的“非停顿”词语和脚本信息中至少一种。
7.一种查明和存储在节目期间出现的广告片段的方法,包括以下步骤a.识别在节目期间出现的一个可能的广告片段;b.比较该可能的广告片段的“非停顿”词语与一个以前识别的很可能的广告片段的列表中的每一个的“非停顿”词语,以确定至少一个匹配的很可能的广告片段;c.比较该可能的广告片段的脚本文本与该至少一个匹配的很可能的广告片段的脚本文本;d.存储该可能的广告片段与该至少一个匹配的很可能的广告片段二者共同的脚本文本;e.将该至少一个匹配的很可能的广告片段从该很可能的广告片段的列表中删除;以及f.将该至少一个匹配的很可能的广告片段添加到候选广告片段的列表和已找到的广告片段的列表之一中。
8.按照权利要求7的查明和存储广告片段的方法,其中,如果不能识别很可能的广告片段的至少之一的“非停顿”词语与可能的广告片段的“非停顿”词语匹配,则该方法进一步包含将可能的广告片段添加到很可能的广告片段的列表中和将可能的广告片段与很可能的广告片段的列表进行比较这二这两个步骤中至少之一。
9.按照权利要求7的查明和存储广告片段的方法,其中步骤a包含以下步骤1.使用与节目相关联的脚本信息;2.检测在第一时段期间脚本信息中出现次数超过预定数目的“非停顿”词语;3.检测在第二时段期间脚本信息中出现次数超过预定数目的“非停顿”词语;以及4.比较在第一时段期间检测到的非停顿词语与第二时段期间检测到的“非停顿”词语。
10.按照权利要求9的查明和存储广告片段的方法,其中,如果在第一时段期间检测到的出现次数超过预定数目的“非停顿”词语与在第二时段期间检测到的出现次数超过预定数目的“非停顿”词语不同,则第一时段是第一广告片段的表征,第二时段是第二广告片段的表征;其中,如果在第一时段期间检测到的出现次数超过预定数目的“非停顿”词语的至少一个与在第二时段期间检测到的出现次数超过预定数目的“非停顿”词语的至少一个是相同的,则第一时段和第二时段是一个共同广告片段的表征。
11.按照权利要求10的查明和存储广告片段的方法,进一步包含以下步骤检测在第三时段期间脚本信息中出现次数超过预定数目的“非停顿”词语,其中,如果在第三时段期间检测到的出现次数超过预定数目的“非停顿”词语与在第二时段期间和在第一时段期间检测到的“非停顿”词语不同,则第三时段是一个与第一时段和第二时段的广告片段都不关联的广告片段的表征,和其中,如果在第三时段期间检测到的出现次数超过预定数目的“非停顿”词语与在第二时段期间和第一时段期间中至少之一检测到的“非停顿”词语相同,则第三时段是一个与对应的第一或第二时段的广告片段相关联的广告片段的表征。
12.一种查明和存储在节目期间出现的广告片段的方法,包括以下步骤a.识别在节目期间出现的一个可能的广告片段;b.把该可能的广告片段的“非停顿”词语与以前识别的已找到的广告片段列表中的每一个的“非停顿”词语作比较,以确定至少一个匹配的已找到的广告片段;c.比较该可能的广告片段的脚本文本与该至少一个匹配的已找到的广告片段的脚本文本;d.存储该可能的广告片段与该至少一个匹配的已找到的广告片段这二者共同的脚本文本;以及e.使一个计数器递增,该计数器指示该至少一个匹配的已找到的广告片段的出现频率。
13.按照权利要求12的查明和存储广告片段的方法,其中,如果已找到的广告片段的至少一个的“非停顿”词语没有被识别为匹配该可能的广告片段的“非停顿”词语,则将该可能的广告片段的“非停顿”词语与一个候选广告片段列表的“非停顿”词语作比较;和其中如果所存储的广告片段的至少一个的“非停顿”词语没有被识别为匹配该可能的广告片段的“非停顿”词语,则将该可能的广告片段添加到该很可能的广告片段列表。
14.一种检索一个存储的广告片段的方法,包括以下步骤a.识别至少一个表征需要的广告片段的非停顿词语;b.识别与所识别的非停顿词语对应的存储的广告片段;以及c.输出所识别的与至少一个所识别的非停顿词语相对应的存储的广告片段。
15.按照权利要求14的检索一个存储的广告片段的方法,进一步包括将所识别的存储的广告片段标记为广告区。
16.一种识别节目期间的广告片段的电视观看系统,包含用于接收与节目相关联的脚本信息的装置;用于检测在第一时段期间脚本信息中出现次数超过预定数目的“非停顿”词语的装置;用于检测在第二时段期间脚本信息中出现次数超过预定数目的“非停顿”词语;以及用于比较在第一时段期间检测到的“非停顿”词语与在第二时段期间检测到的“非停顿”词语的装置。
17.按照权利要求16的电视观看系统,进一步包含用于检测在第三时段期间脚本信息中出现次数超过预定数目的“非停顿”词语的装置;其中,如果在第一时段期间检测到的出现次数超过预定数目的“非停顿”词语与在第二时段期间检测到的出现次数超过预定数目的“非停顿”词语不同,则第一时段是第一广告片段的表征,第二时段是第二广告片段的表征;其中,如果在第一时段期间检测到的出现次数超过预定数目的“非停顿”词语的至少一个与在第二时段期间检测到的出现次数超过预定数目的“非停顿”词语的至少一个相同,则第一时段和第二时段是一个共同广告片段的表征;其中,如果在第三时段期间检测到的出现次数超过预定数目的“非停顿”词语与在第二时段期间和在第一时段期间检测到的出现次数超过预定数目的“非停顿”词语不同,则第三时段是一个与第一时段和第二时段的广告片段都不关联的广告片段的表征,和其中,如果在第三时段期间检测到的出现次数超过预定数目的“非停顿”词语与在第二时段期间和第一时段期间中至少之一检测的出现次数超过预定数目的“非停顿”词语相同,则第三时段是一个与对应的第一或第二时段的广告片段相关联的广告片段的表征。
18.一种查明和存储在节目期间出现的广告片段的电视观看系统,包含用于识别在节目期间出现的一个可能的广告片段的装置;用于比较该可能的广告片段的“非停顿”词语与一个以前识别的很可能的广告片段列表中的每一个的“非停顿”词语、以确定至少一个匹配的很可能的广告片段的装置;用于比较该可能的广告片段的脚本文本与该至少一个匹配的很可能的广告片段的脚本文本的装置;用于存储该可能的广告片段与该至少一个匹配的很可能的广告片段这二者共同的脚本文本的装置;用于将该至少一个匹配的存储的很可能的广告片段从该很可能的广告片段列表中删除的装置;以及用于将该至少一个匹配的很可能的广告片段添加到一个候选广告片段列表和一个已找到的广告片段列表中至少之一的装置。
19.一种查明和存储在节目期间出现的广告片段的电视观看系统,包含用于识别在节目期间出现的一个可能的广告片段的装置;用于将该可能的广告片段的“非停顿”词语与一个以前识别的已找到的广告片段列表中的每一个的“非停顿”词语进行比较以确定至少一个匹配的已找到的广告片段的装置;用于将该可能的广告片段的脚本文本与该至少一个匹配的已找到的广告片段的脚本文本进行比较的装置;用于存储该可能的广告片段与该至少一个匹配的已找到的广告片段这二者共同的脚本文本的装置;以及用于递增一个计数器的装置,该计数器指示该至少一个匹配的已找到的广告片段的出现频率。
20.一种检索一个存储的广告片段的电视观看系统,包含用于识别至少一个表征所需要的广告片段的“非停顿”词语的装置;用于识别与所识别的“非停顿”词语相对应的存储的广告片段的装置;以及用于输出所识别的与该至少一个所识别的“非停顿”词语相对应的存储的广告片段的装置。
全文摘要
广告需要在较短的时间段中传递他们的消息。这就导致在商业广播中频繁重复产品名称、公司名称和其它标识特征。脚本信息能通过检测在广告中频繁出现的词语而用于检测广告。这也能用来将个别广告与其它广告区分开。一旦各个广告已经被识别,就可以将对应于每个广告的脚本信息存储在数据库中,以识别随后广播中的广告,或者提供用于在数据库中搜索特定广告的搜索机制。
文档编号H04H60/56GK1582545SQ02822029
公开日2005年2月16日 申请日期2002年9月3日 优先权日2001年9月4日
发明者L·A·阿格尼霍特里, N·蒂米特罗瓦, T·F·M·麦格 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1