用于提供视频节目的多媒体概要的系统和方法

文档序号：7655392阅读：181来源：国知局

专利名称：用于提供视频节目的多媒体概要的系统和方法
技术领域：
本发明针对概要视频节目的系统和方法，具体讲，涉及用转录本信息和视频段提供视频节目的多媒体概要的系统和方法。
背景技术：
在电视的较早的年代里，只有几个电视广播频道可提供观看。随着电视技术进步，包括甚高频(UHF)频道、超高频(VHF)频道、有线电视、卫星电视接收、和基于互联网的技术，可提供的电视频道数目大大地增加。
可提供观看的电视节目的数目也大大地增加。在高清晰度电视方面，这个量共达到每天每个频道超过二百千兆比特(200GB)的信息量。使观众具有快速浏览电视节目的内容说明的能力，以使得观众能够找到他们感兴趣观看的节目或节目段，正变得越来越重要。主要的问题在于，许多视频节目的内容说明是不容易接入的。
希望观看记录的视频节目的观众的当前的任选项包括(1)观看整个视频节目，(2)快速前进通过整个视频节目的记录，以便找到感兴趣的节目部分。以及(3)使用来自电子节目指南的数据，它只提供总的节目说明。
当前还没有可提供的系统或方法，借此能使观众可以容易地找出视频节目的内容。具体地，还没有可提供的系统或方法，通过它们观众可以得到足够详细的视频节目的内容概要。
在技术上有需要提供一种改进的视频节目概要的系统和方法。在技术上也有需要提供一种利用视频节目的转录本信息和视频段来提供多媒体概要的系统和方法。在技术上还需要一种改进的提供视频节目多媒体概要的系统和方法，它可由观众在视频节目的任何主题或副题的开始处接入。
发明概要为了克服上面讨论的现有技术的这个缺陷，本发明的主要目的是提供一种在能够显示视频节目的视频显示系统中使用的、用于接入视频节目的多媒体概要的系统和方法。
本发明包括一种能够创建视频节目的多媒体概要的多媒体概要产生器。该多媒体概要产生器能够获得视频节目的转录本并能获得所述视频节目的视频段。该多媒体概要产生器识别在视频节目转录本中的主题线索和副题线索。该多媒体概要产生器还识别与该主题线索和副题线索有关的视频段。通过组合主题线索和副题线索以及其相关的视频段，该多媒体概要产生器就创建多媒体概要。在每个主题和副题的多媒体概要中提供进入点，这样，多媒体概要的观众就可直接访问各主题和副题。
根据本发明的一个优选实施例，多媒体概要产生器能够将视频节目的转录本部分与视频节目的视频段部分，以创建一个视频节目的多媒体概要。
根据本发明的再一个优选实施例，多媒体概要产生器能选择与视频节目转录本中的主题相关的视频段，并将该主题和视频段加到该多媒体概要中去。
根据本发明的另一个优选实施例，多媒体概要产生器能够选择与视频节目的转录本中的主题的副题有关的视频段，并将该副题和视频段加到该多媒体概要中。
根据本发明的再另一个优选实施例，该多媒体概要产生器能够创建在多媒体概要中的进入点，以使观众能访问该多媒体概要中的每个主题和副题。
以上相当广泛地列出本发明的特征和技术优点，以使得本领域技术人员可以更好地了解下面的本发明的详细说明。下面将描述本发明的附加特征和优点，它们构成本发明的权利要求的主题。本领域技术人员应当看到，他们可以容易地使用所公开的概念和具体的实施例作为修正或设计用于实现本发明的同样目的的其他结构的基础。本领域技术人员还应当看到，这种等同结构在广义上并不背离本发明的精神和范围。
在进行发明详细说明之前，阐述在本专利文件中使用的某些单字和词组的定义可能是有利的术语“include(包括)”和“comprise(包含)”及其派生词是指包括而并不加以限制；术语“or(或)”是包括，意思是和/或；词组“associated with(与有关)”和“associated therewith(与其有关)”及其派生词可以是指包括，被包括在内，与其关联，被包含在内，与其有联系，与其相耦合，可与其通信，与其合作，交织，并列，接近于，束缚于，具有，具有性质，等等；以及术语“controller(控制器)”是指控制至少一个运行的任意装置，系统，和系统的部件，这样的装置可以以硬件，固件或软件，或他们的至少两个的组合来实施。应当指出，无论是本地地或远程地与任何特定的控制器有关的功能可以被集中或分散。具体讲，控制器可以包括一个或多个数据处理器，和相关的输入/输出识别与存储器，它们执行一个或多个应用程序和/或操作系统程序。对于某些单字和词组的定义被提供在本专利文件全文中，本领域技术人员应当理解，在许多情形下(如果不是大多数情形)，这样的定义将应用到对这样定义的单字和词组的先前的以及将来的使用中。
附图简述为了更全面地了解本发明及其优点，现在结合附图参考以下的说明，其中相同的数字标号表示相同的物体，其中

图1示出示例性视频显示系统；图2示出在图1所示的示例性视频显示系统中实施的一种用于创建视频节目的观众互动多媒体概要的系统有利的实施例；图3示出可被使用于观众互动的多媒体概要系统的有利实施例的本发明的计算机软件；图4示出在示例性视频显示系统中的本发明的观众互动的多媒体概要系统的有利实施例的运行流程图；以及图5示出用于接入视频节目的观众互动的多媒体概要的本发明有利实施例的示例性显示页。
发明详细说明图1到5，下面讨论的，以及在本专利文件中为了描述本发明的原理而阐述的各种实施例仅仅是用作说明，而无论如何不应当被看作对本发明范围的限制。在下面的有利的实施例的说明中，本发明被集成在电视接收机中，或与电视接收机一起使用。然而，本实施例仅仅是作为例子，而不应当看作为把本发明的范围仅限制于电视接收机。事实上，本领域技术人员将认识到，本发明的示例性实施例可以容易地被修改成可使用于任何类型的视频显示系统。
图1显示按照本发明实施例的示例性录像机150和电视机105。录像机150从外部源接收进入的电视信号，诸如有线电视业务提供商(有线公司)，本地天线，卫星，互联网，或数字多用途软盘(DVD)或家庭视频系统(VHS)录像带放像机。录像机150把来自选择频道的电视信号发送到电视机105。频道可以由观众人工地选择，或可以由观众事先编程的记录设备自动地选择。换种方式，频道和视频节目可被记录设备根据来自在观众的个人观看历史中的节目资料的信息自动地选择。
在记录模式中，录像机150可以解调进入的射频(RF)电视信号，产生基带视频信号，被记录和被存储在录像机150内的存贮媒体上，或被连接到录像机150上。在放像模式下，录像机150从存贮媒体读出由观众选择的存储的基带视频信号(即，节目)，并把它发送到电视机105。录像机150还可包括能够接收、记录、互动和显示数字信号的那种类型的录像机。
录像机150可包括利用录像带，或利用硬盘，或利用固态存储器，或利用任何其他类型的记录设备的那种类型的录像机。如果录像机150是盒式录像机(VCR)，则录像机150将进入的电视信号存储到盒式磁带并从盒式磁带上检索进入的电视信号。如果录像机150基于软盘驱动的设备，诸如ReplayTVTM录像机或TiVOTM录像机，则录像机150在计算机硬盘，而不是盒式磁带上对进入的电视信号进行存储和检索。在再一个实施例中，录像机150可以对本地读/写(R/W)数字多用途软盘(DVD)或读/写(R/W)紧凑软盘(CD-RW)存储和检索。本地存贮媒体可以是固定的(例如，硬盘驱动)，或可以是可卸下的(例如，DVD，CD-RW)。
录像机150包括红外(IR)传感器160，它从由观众操纵的遥控装置125接收命令(诸如频道向上，频道向下，音量向上，音量向下，记录，重放，快速前进(FF)，倒带等等)。电视机105是传统的电视机，包括屏幕110，红外(IR)传感器115，以及一个或多个人工控制器120(由虚线表示)。IR传感器115还接收来自由观众操纵的遥控装置125的命令(音量向上，音量向下，接通电源，关断电源等等)。
应当指出，录像机150不限于从特定类型的源接收特定类型的进入电视信号。如上所述，外部源可以是有线业务提供商，传统的RF广播天线，卫星碟形天线，互联网连接，或诸如DVD放像机或VHS磁带放像机的其他本地贮存装置。进入的信号可以是数字信号，模拟信号，互联网协议(IP)分组，或具有其他类型的格式的信号。
为了在说明本发明的原理时简化和简明的目的，下面的说明总的针对实施例，其中录像机150(从有线业务提供商)接收进入的模拟电视信号，包含封闭字幕文本信息。无论如何，本领域技术人员将会看到，本发明的原理可以容易地适用于数字电视信号、无线广播电视信号、本地贮存系统、进入的包含MPEG数据的IP分组数据流等等。
另外，本领域技术人员将会看到，本发明的原理可以容易地适用于其他文本源，包括但并不限于，来自语言到文本变换器的文本，来自第三方源的文本，来自提取的视频文本的文本，来自嵌入的屏幕文本的文本等等。所以，术语“transcript(转录本)”将被定义为是指，起源于任何文本源的文本文件，包括但并不限于，封闭字幕文本，来自语言-文本变换器的文本，来自第三方源的文本，来自提取的视频文本的文本，来自嵌入的屏幕文本的文本等等。
图2更详细地显示按照本发明的一个实施例的示例性录像机150。录像机150包括IR传感器160，视频处理器210，MPEG2编码器220，硬盘驱动230，MPEG2编码器/译码器240，和控制器250。录像机150还包括视频单元260，文本概要产生器270和存储器280。控制器250操纵录像机150的总的运行，包括观看模式，记录模式，重放模式，快速前进(FF)模式，反转模式，和其他类似的功能。控制器250还按照本发明的原理操纵多媒体概要的创建，显示和互动。
在观看模式下，控制器250使得来自有线业务提供商的进入的电视信号由视频处理器210进行解调和处理并发送到电视机105，把视频信号存储或不存储在硬盘驱动230(或从硬盘驱动230检索信号)。视频处理器210包含射频前端电路，用于接收来自有线业务提供商的进入电视信号、调谐到用户选择的频道和把选择的RF信号变换成适合于在电视机105上显示的基带电视信号(例如，超级视频信号)。视频处理器210还能够接收来自MPEG2编码器/译码器240的传统的信号和来自存储器280的视频帧，以及把基带信号(例如，超级视频信号)发送到电视机105。
在记录模式下，控制器250使得进入电视信号被记录在硬盘驱动230上。在控制器250的控制下，MPEG2编码器220接收来自有线业务提供商的进入的模拟电视信号以及把接收的RF信号变换成MPEG格式用于存贮在硬盘驱动230上。应当指出，在数字电视信号的情形下，信号可被直接存储在硬盘驱动230上，而不用在MPEG2编码器220中进行编码。
在重放模式下，控制器250引导硬盘驱动230，把存储的电视信号(即，节目)流到MPEG2编码器/译码器240，它把来自硬盘驱动230的MPEG2数据变换成超级视频(S-视频)信号，视频处理器210再把它发送到电视机105。
应当指出，用于MPEG2编码器220和MPEG2编码器/译码器240的MPEG2标准的选择是仅仅用作说明的。在本发明的替换的实施例中，MPEG编码器和译码器可以遵从MPEG-1，MPEG-2，和MPEG-4标准中的一个或多个标准，或遵从一个或多个其他类型的标准。
为了申请和要求权利，硬盘驱动230被规定为包括任何可读出和可写入的贮存装置，包括但并不限于，用于读写数字多用途光盘(DVD-RW)，可读写CD-ROM，VCR磁带等的传统的磁盘驱动和光盘驱动。事实上，硬盘驱动230不需要是在永久地被嵌入录像机150的传统的意义上固定的。而是，硬盘驱动230包括对于录像机150专用的任何大容量贮存装置，用于存储记录的视频节目的目的。因此，硬盘驱动230可以包括附着的外围设备或可拆卸的软盘驱动(无论是嵌入的或附着的)，诸如投币式自动唱机(未示出)，保持几个读写DVD或可读写CD-ROM。如图2上示意地显示的，这种类型的可拆卸软盘驱动能够接收和读出可读写CD-ROM盘235。
而且，在本发明的有利的实施例中，硬盘驱动230可包括外部大容量存贮装置，录像机150可以通过网络连接(例如，互联网协议(IP)连接)接入和控制，包括，例如，在观众家中的个人计算机(PC)或在观众的互联网业务提供商(ISP)处的服务器上的软盘驱动。
控制器250从视频处理器210得到有关由视频处理器210接收的视频信号的信息。当控制器250确定录像机150正在接收视频节目时，控制器250确定视频节目是否已选择为要被记录的视频节目。如果视频节目是要被记录的，则控制器250使得视频节目以先前描述的方式被记录在硬盘驱动230。如果视频节目不是要被记录的，则控制器250使得视频节目被视频处理器210处理以及先前描述的方式被发送到电视机105。
存储器280可以包括随机存取存储器(RAM)或随机存取存储器(RAM)与只读存储器(ROM)的组合。存储器280可以包括非易失性随机存取存储器(RAM)，诸如闪存器。在电视接收机105的另一个有利的实施例中，存储器280可包括大容量贮存数据装置，诸如硬盘驱动(未示出)。存储器280还可包括用来读出读写DVD或可读写CD-ROM的附着的外围设备或可拆卸的软盘驱动(无论是嵌入的或附着的)。如图2上示意地显示的，这种类型的可拆卸软盘驱动能够接收和读出可读写CD-ROM盘285。
当视频节目被记录在硬盘驱动230时(或在视频节目被记录在硬盘驱动230后)，控制器250通过使用文本概要产生器270得到记录的视频节目的文本概要。文本概要产生器270使用在[提交日期]提交的、题目为“Method and Apparatus for the Summarization andIndexing of Video Programs Using Transcript Information(通过使用转录本信息对视频节目进行概述和加索引的方法和设备)”的美国专利申请序列号[代理卷号No.PHA 701137]中阐述和描述的、用于概述视频节目的方法和系统。文本概要产生器270接收视频节目作为视频/音频/数据信号。从该视频/音频/数据信号，文本概要产生器270产生视频节目的节目概要，内容表，和节目索引。文本概要产生器270使用与文本每行有关的时间印记来识别对应于文本的选定关键帧。
多媒体概要是视频/音频/文本概要。控制器250创建多媒体概要，它显示概述视频节目的内容的信息。控制器250使用由文本概要产生器270产生的节目概要，通过加上适当的视频图象创建视频节目的多媒体概要。多媒体概要能够显示(1)文本和(2)静止视频图象，包括单个视频帧，和(3)活动视频图象(称为视频“片段部分”即视频“段”)，包括一系列视频帧，和(4)音频，和(5)它们的任何组合。
控制器250通过使用视频单元260从要被概述的视频节目得到视频图象。视频单元260使用在[1999年7月9日]提交的、题目为“Methodand Apparatus for Linking Video Segment to Another Segment orInformation Source(用于链接视频段到另一个视频段或信息源的方法和设备)”美国专利申请序列号09/351,086中阐述和描述的、用于链接视频段的方法和设备。
控制器250必须识别要被使用来创建多媒体概要的适当的视频图象。本发明的有利的实施例包括计算机软件300，能够识别要被使用来创建多媒体概要的适当的视频图象。图3显示包含本发明的计算机软件300的存储器280的选定部分。存储器280包含操作系统接口程序310，域识别应用程序320，主题线索识别应用程序330，副题线索识别应用程序340，可听见-看见的样板识别应用程序350，多媒体概要贮存单元360。
控制器250和计算机软件300一起包括能够实现本发明的多媒体概要产生器。在被存储在存储器280内的计算机软件300中的指令的引导下，控制器250创建视频节目多媒体概要，把多媒体概要存储在多媒体概要贮存单元360，以及在观众的请求下重放存储的多媒体概要。操作系统接口程序310协调计算机软件300与控制器250的操作系统的运行。
为了创建多媒体概要，控制器250首先接入文本概要产生器270得到记录的视频节目的文本概要。控制器250然后识别被包括在文本概要中的、要被选择的适当的视频图象，以便创建多媒体概要。为了做到这一点，控制器250首先识别视频节目的类型(被称为“domain(域)”或“category(类别)”或“genre(种类)”)。例如，视频节目的域(“类别”或“种类”)可以是“脱口秀(talk show)”或“新闻节目”。在下面的说明中，将使用术语“域”。
在软件300中的域识别应用程序320，包括域的类型的数据库(“域数据库”)。域数据库包含被存储在域数据库中的每种类型的域的识别特性。控制器250接入域识别应用程序320来识别被概述的视频节目的类型。域识别应用程序320把每种类型的域的识别特性与被概述的视频节目的类型进行比较。使用比较的结果，域识别应用程序320识别视频节目的域。
控制器250然后识别与视频节目的主题有关的单字或词组(称为“主题线索”)。例如，对于“脱口秀”视频节目的主题线索可以是单字“第一嘉宾”或单字“下一个嘉宾”。同样地，对于“新闻节目”视频节目的标题线索可以是单字“live from(来自实况)”或单字“我们现在切到”。被选择为主题线索的特定的单字或词组被选择来表示视频节目中的过渡点(即，主题改变)。这允许视频节目被划分成涉及不同的主题的部分。
在软件300中的主题线索识别应用程序330包括主题线索的数据库(“主题线索数据库”)。主题线索数据库包含被存储在域数据库中的每种类型的域的主题线索。控制器250接入主题线索识别应用程序330来识别被概述的视频节目中的主题线索。主题线索识别应用程序330把主题线索数据库中每个主题线索与被概述的视频节目中的文本概要进行比较。
当找到主题线索时，控制器250接入可听见-看见的样板识别应用程序350中，来识别与主题线索有关的音频-视频段(称为可听见-看见的样板)。在脱口秀视频节目中“第一嘉宾”主题线索的适当的可听见-看见的样板是显示嘉宾的音频-视频段。“第一嘉宾”的识别号可以从在文本中提到的嘉宾的名字得出。例如，当脱口秀的主持人说，“我们的第一嘉宾唯一的嘉宾Dolly Parton”时，则主题线索识别应用程序330识别单字“第一嘉宾”为主题线索。第一嘉宾Dolly Parton的识别号从文本概要中得出。
可听见-看见的样板识别应用程序350然后必须识别和得到DollyParton的音频-视频段作为要被选择的可听见-看见的样板，以便加到多媒体概要中。在她的介绍后的几秒内，Dolly Parton走上舞台。她的面孔将是可看见的，并占据一部分视频图象。正如下面更充分地描述的，可听见-看见的样板识别应用程序350识别Dolly Parton的面孔图象，提取带有Dolly Parton的面孔的图象的可听见-看见的样板，以及把它加到多媒体概要中。
可听见-看见的样板识别应用程序350以以下的方式识别DollyParton的面孔图象。从介绍Dolly Parton后立即显示的视频图象，可听见-看见的样板识别应用程序350选择一个人的面孔图象，该图象不是脱口秀的主持人(或脱口秀的任何“已有人员”，诸如音乐师等等)的面孔图象。然后，可听见-看见的样板识别应用程序350就假设那个人的图象是Dolly Parton的图象。
如果可听见-看见的样板识别应用程序350得到一个观众成员的图象(其图象在介绍Dolly Parton后立即出现在视频图象上)。所以必须通过在几分钟过去后检验在一开始选择的图象中的人的身份，来确认这种假设。这可以通过检验识别特性，诸如嘉宾的脸、说话声音，名字板的图象，或某些其他类似的识别特性而完成。
因为Dolly Parton将出现在脱口秀接下来的十或二十分钟期间，有时间分析嘉宾的图象，确认选择的初始的图象实际上是DollyParton的图象。如果以后的检验表明该假设是错误的且最初选定的图象不是Dolly Parton的图象，则通过用Dolly Parton的图象来代替，从而作出校正。
在本发明的另一个有利的实施例中，著名人物的脸的图象数据库(未示出)可以结合可听见-看见的样板识别应用程序350来使用。来自视频的人脸图象(例如，脱口秀的嘉宾)与数据库中每个著名人物的面孔的图象进行比较。脸的匹配可以通过使用主要成分分析(PCA)技术或其他类似的等同技术来完成的。如果发现匹配，则该人就被识别出来。如果发现不匹配，则该人的面孔的图象就不在著名人物数据库中。在这种情形下，就要用上述被用来识别Dolly Parton的程序来识别此人。
在不处在著名人物数据库中的著名人物被识别出来以后，该著名人物就被加到数据库中。著名人物数据库的内容可以通过把个人加到数据库或从数据库中删除某个人而被不断地改变。在这种情形下，在著名人物数据库中著名人物表总是保持最新的。
用于检测和识别视频段中的面孔的其他方法在V.vilaplana，F.Marques，P.Salembier L.Garrido的题目为“Region-BasedSegmentation and Tracking of Human Faces(基于区域的分段和跟踪人的面孔)”的文章，在第九次欧洲信号处理会议EUSIPCO-98，Rhodes(1998)提交的文章和在S.Satoh，Y.Nakamura和T.Kanade的题目为“Name-ItNaming and Detecting Faces in News Videos(命名它命名和检测在新闻视频中的面孔)”的文章中描述。
在另一个应用中，用于体育节目的音频-视频样板可包括(1)在一定的时间间隔内预先规定的总的运动或(2)一系列类型的运动。例如，在“足球比赛”视频节目中的标题线索可以是单字“进球”或“第一进球”。在标题线索被识别后，可听见-看见的样板识别应用程序350然后必须识别和得到被得分的第一进球的音频视频的片段，作为要被选择的音频视频样板，加到多媒体概要中。
为了标识进球得分的时间，可听见-看见的样板识别应用程序350首先以快速运动检测进球，然后，以慢速运动检测进球。当进球的时间位置被找到时，音频视频片段就可被提取出来，它包括的正是其间进球得分的那段时间间隔。例如，音频视频片段可以从进球得分以前5秒的时间点到进球得分以后5秒的时间点，在这种情形下，体育节目的多媒体概要可包含其中进球被得分的一系列节目段的重放。
在另一个例子中，在“新闻演播”视频节目中的标题线索可以是单字“来自实况”。对于“来自实况”标题线索的适当的可听见-看见的样板可以是其中进行“来自实况”报告的位置的音频视频段。换种方式，可听见-看见的样板可以是正在进行“来自实况”报告的报告员的音频-视频段。
当新闻节目的新闻主持人说，“现在是来自Las Vegas的实况”时，则主题线索识别应用程序330识别单字“来自实况”作为标题线索，以及可听见-看见的样板识别应用程序350识别Las Vegas的音频-视频段作为要被选择的可听见-看见的样板，加到多媒体概要中。
可听见-看见的样板识别应用程序350把一组可听见-看见的样板与被包含在特定的类型的域的标题线索数据库内的每组标题线索相联系。控制器250和可听见-看见的样板识别应用程序350接入到视频单元260，以便得到要被包括在该主题的多媒体概要中的适当的可听见-看见的样板。
可听见-看见的样板包括视频信号和音频信号。然而，有可能在某些应用中可听见-看见的样板可能只包含一种类型的信号(即，或者是音频信号或者是视频信号，但不是二者)。对于只具有一种类型的信号的可听见-看见的样板的运行的原理是和对于具有视频信号与音频信号二者的可听见-看见的样板的运行的原理相同的。
在控制器250和可听见-看见的样板识别应用程序350识别并得到适当的可听见-看见的样板以后，控制器250随后把标题线索和相应的可听见-看见的样板加到多媒体概要中。多媒体概要中标题线索的位置被规定为多媒体概要中的一个“进入点”。进入点是可直接被以后观看多媒体概要的观众接入的多媒体概要中的一个位置。观众被给予一个用户接口，它提供接入到多媒体概要中所有的进入点的清单。如果观众对多媒体概要中特定的标题感兴趣，则观众可以通过接入该标题的进入点而使得多媒体概要中的标题得以显示。
在控制器250识别一个标题后，控制器250然后识别与主题的副题有关的单字或词组(被称为“副题线索”)。例如，在脱口秀视频节目中主题线索“第一嘉宾”的副题线索可以是单字“新电影”或单字“新书”。副题可以是指“第一嘉宾”的工作课题或他的生活中的感兴趣的片断情景。被选择为副题线索的特定的单字或词组被选择来表示主题中的过渡点(即，副题的改变)。这允许主题被划分成涉及不同的副题的部分。
软件300中副题线索识别应用程序340包括副题线索的数据库(“副题线索数据库”)。副题线索数据库包含对于被存储在主题线索数据库中的每种类型的主题线索的副题线索。控制器250接入副题线索识别应用程序340，以便识别在所概述的主题中的副题线索。副题线索识别应用程序340把在副题线索数据库中的每个副题线索与所概述的主题的文本概要进行比较。
当找到副题线索时，控制器250然后接入可听见-看见的样板识别应用程序350，以便识别与副题线索有关的可听见-看见的样板。例如，在脱口秀视频节目中对于“新电影”副题线索的可听见-看见的样板可以是静止视频图象，显示新电影的名称。替换地，在脱口秀视频节目中对于“新电影”副题线索的可听见-看见的样板可以是来自新电影的音频-视频段(或“片段”)。
当脱口秀的主持人说“现在我们可以看到来自Tom Hank的新的电影的片段”时，则副题线索识别应用程序340就把单字“新电影”标识为副题线索，且可听见-看见的样板识别应用程序350，把新电影的音频视频段标识为要被选择为加到多媒体概要中的可听见-看见的样板。
可听见-看见的样板识别应用程序350把一组可听见-看见的样板与被包含在特定的类型的域的副题线索数据库内的每组副题线索相联系。控制器250和可听见-看见的样板识别应用程序350接入到视频单元260，以便得到要被包括在该副题的多媒体概要中的适当的可听见-看见的样板。
在控制器250和可听见-看见的样板识别应用程序350识别与得到适当的可听见-看见的样板以后，控制器250然后把副题线索和相应的可听见-看见的样板加到多媒体概要中。正如在主题线索的情形下，多媒体概要中副题线索的位置被规定为多媒体概要中的一个“进入点”。如果观众对多媒体概要中特定的副题感兴趣，则观众可以通过接入该副题的进入点而使得多媒体概要中的副题得以显示。
控制器250继续上述的处理过程，用于识别与视频节目的域有关的主题线索和副题线索。随着处理过程的继续，控制器250创建视频节目的多媒体概要。控制器250把多媒体概要存储在存储器280中多媒体概要贮存单元360中。控制器250也可以把一个或多个多媒体概要传送到硬盘驱动230，用于长期贮存。
参照图4可以更清楚的了解创建多媒体概要的处理过程。图4是显示本发明的有利的实施例的方法的运行的流程图400。流程图400中的处理步骤在控制器250中执行。控制器250使得文本概要产生器270以前面描述的方式概述视频节目的文本(处理步骤405)。控制器250然后识别视频节目的域(处理步骤410)。控制器250把视频节目的文本与主题线索的数据库进行比较，以便找出与视频节目的识别的域相关的主题线索(处理步骤415)。
当找到主题线索时，控制器250得到对于主题线索的相关的可听见-看见的样板以及把可听见-看见的样板与主题线索相链接。控制器250然后把主题线索与它的相关的可听见-看见的样板保存在多媒体概要中(处理步骤420)。
控制器250然后把视频节目的文本与副题线索的数据库进行比较，以便找出与视频节目的识别的主题线索相关的副题线索(处理步骤425)。当找到副题线索时，控制器250得到对于副题线索的相关的可听见-看见的样板并把可听见-看见的样板与副题线索相链接。控制器250然后把副题线索和与它的相关的可听见-看见的样板保存在多媒体概要中(处理步骤430)。
控制器250继续进行搜索下一个副题线索或下一个主题线索(判决步骤435)。如果控制器250确定不再有副题线索或主题线索，或如果已达到视频节目的末尾，则概述处理过程结束。
如果控制器250找到下一个线索，则控制器250确定下一个线索是否为副题线索(判决步骤440)。如果下一个线索是副题线索，控制则进到处理步骤430，且副题线索和与它的相关的可听见-看见的样板被加到多媒体概要中。如果下一线索不是副题线索，则它就是一个主题线索。控制则进到步骤420，将主题线索和与它相关的可听见-看见的样板加到多媒体概要中。以这种方式，使多媒体概要与主题和副题相组合。
图5示出本发明的观众互动的多媒体概要的有利实施例的示例性显示页。图5显示对于整个多媒体概要的进入点可以如何被显示在单页上。例如，假设图5所示的页描述脱口秀视频节目的多媒体概要。图象A 520显示第一嘉宾的脸部，图象B 540显示第二嘉宾的脸部，以及图象C 560显示第三嘉宾的脸部。文本部分510包含由第一嘉宾520讨论的副题的列表。在图5所示的例子中，这些副题是电影，新的CD，和新的家庭。同样地，文本部分530包含由第二嘉宾540讨论的副题的列表，以及文本部分550包含由第三嘉宾560讨论的副题的列表。
观众可选择在三个文本列表510，530，550的任一个列表中的任何副题，以用多媒体概要进行显示。当每个副题顺序地加亮显示作为菜单项目时，观众可以通过使用遥控器125发送信号来选择一个副题，来表示要被显示的、想要的副题。换种方式，观众可以用指点装置(诸如计算机鼠标)(未示出)在这样装备的视频显示系统中表示想要的副题。
当观众选择特定的副题时，对于该副题的概要被显示在屏幕的部分，被标识为工作的概要580。与副题有关的音频-视频片段同时被显示在屏幕的部分，被标识为视频重放590。例如，如果副题是“电影”，则音频-视频片段可以是来自该电影的片段。如果副题是“足球比赛”，则音频-视频片段可以是在比赛中得分的进球的片段。工作的概要580被产生来显示与观众选择的主题有关的主题和副题的概要。如果观众选择新的主题或新的副题，则在工作的概要580中显示的概要反映与新选择的主题或副题有关的主题和副题的概要。
文本部分570包含视频节目的所有的主题的清单。例如，对于脱口秀视频节目，文本部分570包含脱口秀视频节目的所有的主题的清单。在本例中，在文本部分570的清单中的三个项目是三个嘉宾的名字。在文本部分570中列出的其他项目涉及到脱口秀视频节目中的其他主题。观众可以选择在文本部分570中列出的任何主题进行显示。当主题被选定时，与该主题有关的音频-视频片段就被重放在标识为“视频重放”(部分590)的屏幕部分。
多媒体概要的这种显示模式牵涉到与观众互动来选择多媒体概要的各个部分进行显示。多媒体概要的另一种显示模式是“重放全部”模式。在“重放全部”模式，多媒体概要在视频节目的开始点开始，以及重放全部内容，而不与观众进行任何互动。观众可以在任何时间进行干预，通过选择用于显示的主题或副题而停止“重放全部”模式。
本发明的多媒体概要也可以结合用于预订在视频节目期间讨论的产品和业务的方法和设备一起使用。例如，观众可能希望购买已在脱口秀视频节目期间讨论的一本书。产品和业务可以直接通过在[提交日期]提交的、题目为“System and Method for Ordering OnlineUtilizing a Digital Television Receiver(利用数字电视接收机进行在线预定的系统和方法)”的美国专利申请序列号[代理卷号No.PHA 701071]中阐述的和描述的方法和设备进行预订。
本发明的多媒体概要也可以结合用于得到有关观众的兴趣的附加信息的方法和设备来加以利用。例如，如果观众选择一个描述不久将发行的新的电影的副题，则这个观众询问可被记录供将来参考。当电影被推出时，多媒体概要可随后通知该观众，以及提供附近电影院的演出时间和电影票价格。替换地，可以通过电子邮件或类似的通信链路把通知发送给观众。该通知也可以在个人计算机、个人数字助理、或其他相似的类型的通信设备上产生可听见的报警(例如，“嘟嘟”声)。
事件匹配机可被使用来找出在本地地理区域内发生的事件。例如，在脱口秀节目表演期间，演员Kevin Spacey说，他当前正出现在名为“American Beauty(美国丽人)”的电影中。如果观众选择副题“American Beauty”，则多媒体概要可以使用观众感兴趣的指示搜索在一个时间间隔(例如，几个月)内在其他节目(例如，新闻节目)上或在本地网页上关于电影“American Beauty(美国丽人)”的信息。
当找出有关电影“American Beauty”的演出时间和价格的附加信息时，多媒体概要可以叠加显示电话号码1-800-FILM-777，和/或可通知观众电影被安排在每次观看付费节目上，和/或能自动地发送电子邮件或显示有关电影在本地电影院的演出时间和价格的信息。演出票可以通过使用上述的方法直接预订。
本发明的多媒体概要使得观众能够使用来自多媒体概要的主题和副题，找出在扩展的时间间隔内感兴趣的附加信息。多媒体概要保持积极工作和搜索观众感兴趣的信息。如果第二节目具有与第一节目相似的主题、副题或关键字，则根据第一节目的多媒体概要找出的任何新的附加信息也可被附加到第二节目的多媒体概要上。
虽然已详细地描述了本发明，但本领域技术人员应当理解，他们可在这里可作出各种改变、替换和更改，而在广义上并不背离本发明的精神和范围。
权利要求
1.一种在能够显示视频节目的视频显示系统(105)中使用的用于创建视频节目的多媒体概要的系统(250，300)，所述系统(250，300)包括多媒体概要产生器(250，300)，能够获得所述视频节目的转录本并能获得所述视频节目的音频-视频段，其中所述多媒体概要产生器(250，300)，能够将所述转录本的部分和所述音频-视频段相组合以创建一个所述视频节目的多媒体概要(500)。
2.如权利要求1中要求的系统(250，300)，其中所述多媒体概要产生器(250，300)能够通过选择与所述视频节目的主题有关的音频-视频段并将所述主题和所述音频-视频段加到所述多媒体概要(500)上而创建所述多媒体概要(500)。
3.如权利要求2的系统(250，300)，其中所述多媒体概要发生器(250，300)包括控制器(250)，该控制器能执行包含在与之相连接的存储器(280)上的计算机软件指令，通过识别在所述视频节目的所述转录本中的至少一个主题线索；选择与所述至少一个主题线索有关的音频-可视模板并将所述主题线索和所述音频-可视模板加到所述多媒体概要(500)上面创建所述视频节目的所述多媒体概要(500)。
4.如权利要求3的系统(250，300)，其中所述控制器(250)能执行包含在与之相连接的存储器(280)上的计算机软件指令，通过识别所述视频节目的所述至少一个主题的至少一个副题线索，选择与至少一个副题线索有关的至少一个音频-可视模板并将所述副题线索与所述音频-可视模板加到所述多媒体概要(500)上而创造所述视频节目的所述多媒体概要(500)。
5.如权利要求3的系统(250，300)，其中所述控制器(250)能执行可以识别所述视频节目类型的域识别应用程序(320)；可以识别在所述视频节目的所述转录本中的至少一个主题线索的主题线索识别应用程序(330)；可以识别在所述视频节目的至少一个主题中的至少一个副题线索的副题线索识别应用程序(340)；以及可以识别与所述至少一个主题线索有关的至少一个音频-可视模板，并可以识别与所述至少一个副题线索有关的至少一个音频-可视模板的音频-可视模板识别应用程序(350)。
6.如权利要求4的系统(250，300)，其中所述控制器(250)能够执行与之相连接的存储器(280)中所含的计算机软件指令，以创建允许观众接入所述多媒体概要(500)的每个主题的每个主题的进入点，还创建允许观众接入所述多媒体概要(500)中的每个副题的每个副题的进入点。
7.一种视频显示系统(105)，包括用于创建如权利要求1-6之一的视频节目的多媒体概要(500)的系统。
8.一种在能够显示视频节目的视频显示系统(105)中使用的用于创建所述视频节目的多媒体概要(500)的方法，所述方法包括步骤获得在多媒体概要发生器(250，300)中的所述视频节目的转录本；获得在所述多媒体概要发生器(250，300)中的所述视频节目的音频-视频片段；以及将所述转录本的部分与所述多媒体概要发生器(250，300)中的所述音频-视频片段的部分组合，以创建所述视频节目的所述多媒体概要(500)。
9.如权利要求8的方法，其中将所述转录本的部分与在所述多媒体概要发生器(250，300)中的音频-视频片段部分组合以创建所述视频节目的所述多媒体概要(500)的步骤包括选择一个与所述视频节目的主题有关的音频-视频片段；将所述主题和所述音频-视频片段加到所述多媒体概要(500)中。
10.如权利要求9的方法，还包括步骤在多媒体概要发生器(250，300)中接收来自与所述多媒体概要发生器(250，300)相连接的存储器(280)中所存储的计算机软件(300)的指令；在所述多媒体概要发生器(250，300)中执行所达指令，以识别在所述视频节目的所述转录本中的至少一个主题线索；在所述多媒体概要发生器(250，300)中执行所述指令，以选择与所述至少一个主题线索有关的至少一个音频-可视模板；以及在所述多媒体概要发生器(250，300)中执行所述指令，以将所述主题线索和所述音频-可视模板加到所述多媒体概要(500)中。
11.如权利要求10的方法，还包括步骤在多媒体概要发生器(250，300)中接收来自与所述多媒体概要发生器(250，300)相连接的存储器(280)中所存储的计算机软件(300)的指令；在所述多媒体概要发生器(250，300)中执行所述指令，以识别在所述视频节目的至少一个主题的至少一个副题线索；在所述多媒体概要发生器(250，300)中执行所述指令，以选择与所述至少一个副题线索有关的至少一个音频-可视模板；以及在所述多媒体概要发生器(250，300)中执行所述指令，以将所述副题线索和所述音频-可视模板加到所述多媒体概要(500)中。
12.如权利要求11的方法，还包括步骤用域识别应用程序(320)去识别所述视频节目的类型；用主题线索识别应用程序(330)识别在所述视频节目的所述转录本中的至少一个主题线索；用副题线索识别应用程序(340)识别在所述视频节目的至少一个主题中的至少一个副题线索；用音频-可视模板识别应用程序(350)识别与所述至少一个主题线索有关的至少一个音频-可视模板；以及用所述音频-可视模板识别应用程序(350)识别与所述至少一个副题线索有关的至少一个音频-可视模板。
13.如权利要求12的方法，还包括步骤在所述多媒体概要发生器(250，300)中接收与所述多媒体概要发生器(250，300)相连接的存储器(280)中存储的计算机软件(300)的指令；在所述多媒体概要发生器(250，300)中执行所述指令，以创建允许观众接入在所述多媒体概要(500)的每个主题的每个主题的进入点；以及在所述多媒体概要发生器(250，300)中执行指令，以创建允许观众接入在所述多媒体概要(500)中的每个副题中的每个副题的进入点。
14.如权利要求8的方法，所述方法还包括步骤在所述视频节目中人首次出现之后，用音频-可视模板识别应用程序(350)获得在所述视频节目中该人的脸部图象；通过检查该人的至少一个区别特征确认对该人的识别；以及在确认之后，将该人的图象加到所述多媒体概要(500)中。
15.一种可以使能可编程装置的计算机程序产品，在执行所述计算机产品时能起到如权利要求1-6之一的系统的作用的功能。
16.一种包括所述视频节目的转录本的至少一部分的视频节目的多媒体概要(500)。
17.如权利要求16的视频节目的多媒体概要(500)，包括与在所述视频节目的至少一个主题中的至少一个副题有关的所述视频节目的至少一个音频-可视片段。
18.如权利要求17的多媒体概要(500)，还包括一个与主题有关的所述音频-可视片段相关的主题进入点，其中每个主题进入点允许观众接入与所述主题有关的音频-可视片段。
全文摘要
公开了一种在能够显示视频节目的视频显示系统中使用的、用于使用视频节目的转录本数据和音频－视频段创建视频节目的多媒体概要的系统和方法。该系统包括多媒体概要产生器，能够获得视频节目的转录本和音频－视频段。该多媒体概要产生器识别在视频节目的转录本中的主题线索和副题线索。该多媒体概要产生器还识别与该主题线索和副题线索有关的音频－视频段。多媒体概要产生器通过组合主题线索和副题线索以及其相关的音频－视频段而创建多媒体概要。在多媒体概要中对各主题和副题提供进入点，这样，多媒体概要的观众就可以直接访问各主题和副题。
文档编号H04N5/445GK1425180SQ01808287
公开日2003年6月18日申请日期2001年12月10日优先权日2000年12月21日
发明者L·阿格尼霍特里, N·迪米特罗瓦申请人:皇家菲利浦电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：L.阿格尼霍特里;N.迪米特罗瓦
技术所有人：皇家菲利浦电子有限公司
我是此专利的发明人

上一篇：运用Turbo码中的质量标记标准的迭代停止准则的制作方法
上一篇：用于接入视频节目的多媒体概要的系统和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。