用于基于搜索查询生成视频节目摘录的系统和方法与流程

文档序号：12290332阅读：210来源：国知局

本公开总体上涉及创建视频节目摘录，并且尤其涉及基于用户所提交的搜索查询而生成视频摘录。

背景技术：

由于视频节目很长而观众的时间有限，所以具有示出一些高潮部分的节目片段是有用的。为了有作用，节目片段必须比实际节目更短，并且优选地包含来自视频节目的一些最令人感兴趣的场景。然而，识别令人感兴趣的场景可能是耗时的并且结果会根据对视频节目进行评估的人的不同而变化。

技术实现要素：

所公开的实施方式解决了以上缺陷以及与生成视频节目摘录相联系的其它问题。建立摘录的第一步是将用户搜索查询与广播视频节目进行关联。这能够通过将搜索术语、短语、关键词或概念与视频节目中相对应的术语、短语、关键词或概念进行关联。如以下所描述的，一种对这些进行关联的方式使用视频节目字幕。一些实施方式使用语音辨识软件来识别视频中的单词，并且将这些与搜索术语、短语、关键词或概念进行关联。该关联还识别视频节目中所述搜索术语、短语、关键词或概念出现的位置。

通常，在电视节目期间所提出的搜索查询表示所述电视节目中令人感兴趣的方面。包含与流行查询相对应的搜索术语、短语、关键词或概念实体的视频场景通常表示整个节目，并且因此将这些场景拼接在一起就创建了有用的视频片段。

在一些实施方式中，视频摘录是通过找出视频内容中与搜索查询术语相匹配的时间(例如，通过匹配字幕)，并且将所述视频场景延伸至边界(向后和向前)而形成的。在一些实施方式中，长的场景是有限的(例如，不超出视频中每个匹配位置之前和之后的30秒)。在一些实施方式中，视频场景边界由音频或视频信号中的突然变化进行识别。在一些实施方式中，在具有所识别的匹配的术语、关键词、短语或概念实体的情况下，针对相同的术语、关键词、短语或概念的其它实例的附加匹配也得以被识别并包括在摘录中。例如，如果匹配是使用字幕来完成的，则可以识别出贯穿内容的包括相同的术语、关键词、短语或概念的其它位置。

在一些实施方式中，所有匹配场景按照时间先后被拼接在一起，但是一些实施方式以其它方式对所摘录的片段进行排序(例如，将特别生动或令人感兴趣的场景放在摘录的开头或结尾)。在一些实施方式中，匹配是基于所聚合的用户查询(例如，使用来自多个用户的大约在给定视频场景的相同时间附近所提出的查询)，这形成了高于正常查询水平的尖峰。所生成的片段因此反映了所匹配场景中的一般兴趣。

在一些实施方式中，相同的匹配过程被应用于来自单个用户的独立查询(或者少数用户，诸如来自小型社交网络的用户)。这生成了个性化的视频片段。在一些实施方式中，个性化匹配是利用不同技术来获得的(例如，已知提出给定查询的给定用户也在给定时间戳处观看给定内容)。

一些实施方式更为宽泛地应用相同的过程以针对多于单个节目生成视频摘录。例如，一些实施方式生成来自给定的某天的视频摘录从而创建“一天的总结”。这样的摘录可以包括来自所有频道或频道子集(例如，仅新闻频道或者仅娱乐频道)的视频节目。在一些实施方式中，这创建了更为宽泛的摘录，独立场景部分可能更为有限(例如，每个匹配位置之前和之后的10或15秒)，或者某些匹配部分可能被省略(例如，通过要求更高的用户查询阈值频率)。

一些实施方式使用搜索查询尖峰来识别用于匹配的术语、短语或概念。其中一种能够将提交至搜索引擎的查询与在相同时帧向多个观众进行广播的电视内容进行匹配。一些实施方式通过对查询被提交的频率进行分析来选择查询候选。当针对给定查询的查询频率突然增加时(查询“尖峰”)，则存在与具体的事件相对应(例如，来自刚刚广播的电影的场景)的极佳的似然率。

一些实施方式通过将搜索查询中的关键词、短语或概念与在一些时间窗内同时出现的电视字幕中的适当对照进行匹配的方式而将查询与广播内容进行匹配。例如，如果术语“gobble stopper”在一些电视频道上被提到并且出现在字幕中，则观众可能对“gobble stopper”的定义感兴趣或者想了解更多细节。在短时间(例如，一分钟)内，一些观众开始在搜索引擎中录入查询。这就形成了“gobble stopper”查询频率中能够观察到的尖峰。一些实施方式通过将查询的平均请求频率(例如，以每分钟的查询提交进行测量)与相同查询的当前频率(例如，在过去的一小时、过去的15分钟或过去的5分钟期间)进行比较来识别这样的尖峰。一些实施方式通过将最近移动的时间窗(例如，除去最近几分钟以外最近一小时或半小时的查询频率数据)内针对所述查询的最大请求频率与相同查询的当前频率进行比较来识别这样的尖峰。一些实施方式通过将最大请求频率与平均请求频率的组合与相同查询的当前频率进行比较来识别这样的尖峰。

除了通过关键词或短语来匹配查询之外，一些实施方式还对概念进行匹配，这有时被称作知识图实体。这是考虑到不同的人使用不同单词或短语来描述相同的概念实体的情形。

针对每个所检测的候选尖峰(查询或实体)，一些实施方式检查单词、关键词、短语或概念性实体是否在最近几分钟内与任何所监视的电视频道(例如，在最近五分钟内或最近10分钟内)的字幕中的数据相关联。在一些实施方式中，所述检查包括确定大多数查询单词、关键词、短语或实体是否在单个电视节目的字幕的移动窗内出现。在一些实施方式中，来自每个查询的术语的顺序也考虑到为了匹配以相同顺序出现的字幕的偏好而得到评估。替选地，一些实施方式在相反的方向来执行匹配：检查字幕的部分是否出现在搜索查询中。

当在给定移动时间窗内查询元素和电视节目的字幕元素之间存在非空交集时，则存在潜在匹配。在一些实施方式中，对重叠进行评估来计算分数，并且在所述分数超出阈值时就被认为是匹配。一些实施方式针对匹配施加了附加的约束，诸如术语的预期顺序。

一些实施方式直接对电视内容应用语音辨识算法来生成要进行匹配的单词流而并不依赖于字幕。在一些实施方式中，字幕和语音辨识两者都被使用。

除了用户搜索查询之外或者作为其替代，一些实施方式使用tweets^TM来识别广播视频节目的具体部分中的用户兴趣。

依据一些实施方式，一种方法在具有一个或多个处理器和存储器的服务器系统处执行。所述存储器存储被配置为由所述一个或多个处理器执行的一个或多个程序。所述过程从多个用户所提交的搜索查询中识别多个搜索查询尖峰。在一些实施方式中，每个搜索查询尖峰与被识别为等效者的一个或多个搜索查询的相应集合相对应，并且在对应的尖峰时段期间从所述相应集合提交查询的频率超出了平均时间跨度期间从所述相应集合提交查询的频率预定义的阈值量。

所述过程将所述搜索查询尖峰的子集与广播视频节目进行关联。每个所关联的搜索查询尖峰与所述视频节目中的相应位置相对应。在一些实施方式中，将搜索查询尖峰与广播视频节目进行关联包括将来自相对应的搜索查询的搜索术语与视频节目中相对应的相应位置处的视频节目的字幕进行匹配。所述过程通过将所述视频节目中包含与所关联的搜索查询尖峰相对应的位置的部分拼接在一起而构造所述视频节目的片段。在一些实施方式中，视频节目中包含与所关联搜索查询尖峰相对应的位置的部分延伸至每个位置之前和之后的视频场景界限。在一些实施方式中，所述过程将所构造的片段提供给针对与所述视频节目有关的信息提交搜索查询的用户。

依据一些实施方式，所述过程进一步包括针对多个相应广播视频节目构造相应片段。每个相应片段基于将相应的多个搜索查询尖峰与相应的视频节目进行关联，并且所述多个广播视频节目全部在预定义时间跨度期间进行广播。所述过程将多个广播节目的片段拼接在一起从而针对预定义时间跨度形成单个视频概要。在一些实施方式中，所述预定义时间跨度是一天。所述多个广播节目可以被限制为单个频道(或频道子集)，被限制为具体流派(例如，新闻)，或者可以由用户进行指定。

因此，提供了生成视频节目摘录的方法和系统，所述视频摘录比原始节目更短但是提供了代表所述视频节目的令人感兴趣的场景。

附图说明

为了更好地理解本发明的以上实施方式及其附加的实施方式，应当对以下结合附图的具体实施方式的描述加以参考，其中相同的附图标记贯穿附图而指代相对应的部分。

图1图示了一些实施方式在其中操作的场境。

图2是根据一些实施方式的客户端设备的框图。

图3是根据一些实施方式的服务器的框图。

图4至图9图示了一些实施方式所使用的各种框架式(skeletal)数据结构或表格。

图10图示了根据一些实施方式的尖峰是如何被识别并且与视频节目相关的。

图11和图12图示了根据一些实施方式的一些查询可以如何被分组在一起。

图13图示了依据一些实施方式的由视频摘录模块128所执行的用于基于用户搜索查询创建视频节目摘录的过程。

图14A至图14C提供了根据一些实施方式的在服务器系统处所执行的用于生成视频节目摘录的过程的流程图。

现在将对实施方式做出详细参考，它们的示例在附图中进行图示。在以下详细描述中，给出了很多具体细节以便提供对本发明透彻的理解。然而，对于本领域技术人员将会显而易见的是，本发明可以在没有这些具体细节的情况下进行实践。

具体实施方式

图1是图示一些实施方式的主要组件的框图。各种客户端设备102和服务器系统114中的服务器300通过一个或多个网络112(诸如互联网)进行通信。客户端环境100包括电视108，其通常连接至机顶盒106(或接收器/转换器)。机顶盒106从内容提供方110(诸如有线电视网络、碟形卫星天线网络或者通过无线电波的广播)接收媒体内容。如图1中所图示的，在一些情况下，媒体内容通过通信网络112进行传送。

在一些实例中，客户端环境100还包括一个或多个客户端设备102，诸如智能电话、平板计算机、膝上型计算机或台式计算机。在这里的场境中，客户端设备通常接近于电视108。在一些实例中，客户端应用104在客户端设备上运行，在一些实施方式中，所述客户端应用104是与在电视108上所显示的节目相关联的“第二屏幕应用”。在一些实施方式中，客户端应用在web浏览器222内运行。虽然图1中仅图示出了单个客户端环境100，但是在任何时间通常都存在数百万个客户端环境。不同的客户端环境100可以使用不同的媒体内容提供方110，并且可以使用客户端设备102以及充当接收器、转换器或机顶盒的盒子106的有所变化的组合形式。虽然图1图示了单个机顶盒106，但是本领域技术人员将会认识到，其它环境能够由多个不同的电子组件所组成，诸如单独的接收器、单独的转换器和单独的机顶盒。而且，机顶盒106(或者转换器或接收器)的一些或全部功能可以与电视108进行集成。

服务器系统114包括多个服务器300，并且服务器300可以通过总线130的内部通信网络进行连接。服务器系统114包括查询处理模块116，其接收来自用户(例如，来自客户端设备102)的请求并且返回作为响应的查询结果。所述查询在数据库118中的搜索查询日志120中被跟踪。

在一些实施方式中，服务器系统114还包括电视节目确定模块126，其确定电视节目观众正在观看什么。在一些实施方式中，电视节目确定模块126接收来自在客户端设备102上运行的客户端应用104的通知，并且所述通知指定在相联系的电视108上所呈现的电视节目。在一些实施方式中，电视节目确定模块126接收来自机顶盒106的通知(例如，当用户在客户端环境处进行注册从而使得其收视得以被跟踪时)。在一些实施方式中，电视节目确定模块接收音频流(从客户端应用104或机顶盒)并且通过对所述流进行分析而确定电视节目。在一些实施方式中，电视节目确定模块126是客户端应用104的一部分，并且所确定的节目被通信至媒体补充模块124。

在一些实施方式中，所述服务器系统包括媒体补充模块124，其向客户端应用104提供与电视节目有关的附加信息，诸如与所查看电视节目的方面相对应的搜索结果。媒体补充模块124的操作贯穿本公开(包括关于图10)进行更为详细的描述。

所述服务器系统包括一个或多个数据库118。在数据库118中所存储的数据包括搜索查询日志120，其对用户所提交的每个搜索查询进行跟踪。在一些实施方式中，所述搜索查询日志以聚合格式进行存储以减小存储的大小。所述数据库可以包括电视节目信息122。电视节目信息122可以包括与每个节目有关的详细信息，包括字幕以及广播日期和时间。一些信息在下文中关于图4至6进行描述。

所述服务器系统还包括视频摘录模块128，其使用所提交的查询来识别视频节目的感兴趣部分并且使用所识别的感兴趣部分针对所述视频节目生成摘录。这在下文中关于图13进行更为详细地描述。

图2是图示用户在客户端环境100中使用的客户端设备102的框图。客户端设备102通常包括一个或多个处理单元(CPU的)202以便执行存储或在存储器214中的模块、程序或指令，并且因此执行处理操作；一个或多个网络或其它通信接口204；存储器214；以及用于将这些组件进行互连的一个或多个通信总线212。通信总线212可以包括对系统组件进行互连并且控制它们之间的通信的电路(有时称作芯片集)。客户端设备102包括用户接口206，所述用户接口206包括显示设备208以及一个或多个输入设备或机构210。在一些实施方式中，所述输入设备/机构包括键盘和鼠标；在一些实施方式中，所述输入设备/机构包括按照需要被显示在显示设备208上的“软”键盘，使得用户能够“按压”出现在显示器208上的“按键”(或其它指示设备)414。

在一些实施方式中，存储器214包括高速随机访问存储器，诸如DRAM、SRAM、DDR RAM或者其它随机访问固态存储器设备。在一些实施方式中，存储器214包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪速存储器设备或者其它非易失性固态存储设备。在一些实施方式中，存储器214包括位于CPU 202远程的一个或多个存储设备。存储器214或者替选地存储器214内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施方式中，存储器214或者存储器214的计算机可读存储介质存储以下程序、模块和数据结构或者其子集：

·操作系统216，其包括用于处理各种基本系统服务并且用于执行依赖于硬件的任务的过程；

·通信模块218，其被用于经由一个或多个通信网络接口204(有线或无线)和一个或多个通信网络112将客户端设备106连接至其它计算机和设备，上述通信网络112诸如互联网、其它广域网、局域网、城域网等；

·显示模块220，其接收来自一个或多个输入设备210的输入，并且生成用于在显示设备208上显示的用户界面元素；

·web浏览器222，其使得用户能够通过网络112(诸如互联网)与远程计算机或设备通信；

·客户端应用104，其可以结合电视108和机顶盒106而被用来提供更为交互式的媒体体验。在一些实施方式中，客户端应用104是“第二屏幕应用”，其提供与广播电视节目有关的附加信息，或者使得用户能够与电视节目交互(例如，提供即时反馈，针对主题投票，等等)。在一些实施方式中，客户端应用104在web浏览器222内运行。在一些实施方式中，客户端应用104作为独立于web浏览器的应用运行；并且

·在一些实施方式中，客户端设备存储各种客户端数据224，所述客户端数据224可以被存储在数据库、一个或多个cookie、计算机注册表或者存储器214中的其它文件中。在一些实施方式中，所述客户端数据包括客户端位置数据226。客户端位置数据可以指定客户端环境100的地理位置，诸如城市、地区或国家。在一些实施方式中，所述位置由经度或纬度所指定。在一些实施方式中，所述位置根据客户端环境100能够获得什么样的广播媒体来指定。在一些实施方式中，客户端数据包括客户端IP地址228，其是从外部通信网络112所看到的客户端环境100的IP地址。IP地址228通常是家庭路由器或调制解调器的外部IP地址(而不是内部家庭网络的IP地址)。在一些实施方式中，客户端数据224包括客户端简档230，其可以包括与客户端设备102有关的各种信息，包括用户偏好在内的与客户端设备的用户有关的信息，或者与客户端环境100有关的信息(例如，与所注册家庭有关的人口统计信息)。

以上所识别的可执行模块、应用或者过程的集合中的每个都可以被存储在一个或多个之前所提到的存储器设备中，并且与用于执行以上所描述的功能的指令集相对应。以上所识别的模块或程序(即，指令集)无需作为单独的软件程序、过程或模块来执行，并且因此这些模块的各种子集可以在各种实施方式中被组合或者以其它方式重新布置。在一些实施方式中，存储器214可以存储以上所识别的模块和数据结构的子集。此外，存储器214可以存储以上并未描述的附加的模块和数据结构。

虽然图2示出了客户端设备102，但是图2更多地是旨在作为可能出现的各种特征的功能性描述而不是本文中所描述的实施方式的结构性示意。实际上以及如本领域技术人员所认识到的，单独示出的项可以被组合并且一些项可以被分离。

图3是图示可以在服务器系统114中使用的服务器300的框图。典型的服务器系统包括许多独立服务器，其可能是数百个或数千个。服务器300通常包括一个或多个处理单元(CPU的)302用于执行存储或在存储器314中的模块、程序或指令，并且因此执行处理操作；一个或多个网络或其它通信接口304；存储器314；以及用于将这些组件互连的一个或多个通信总线312。通信总线312可以包括对系统组件进行互连并且控制它们之间的通信的电路(有时称作芯片集)。在一些实施方式中，服务器300包括用户接口306，其可以包括显示设备308以及一个或多个输入设备310，诸如键盘和鼠标。

在一些实施方式中，存储器314包括高速随机访问存储器，诸如DRAM、SRAM、DDR RAM或者其它随机访问固态存储器设备。在一些实施方式中，存储器314包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪速存储器设备或者其它非易失性固态存储设备。在一些实施方式中，存储器314包括位于CPU 302远程的一个或多个存储设备。存储器314或者替选地存储器314内的非易失性存储器设备包括非暂时性计算机可读存储介质。在一些实施方式中，存储器314或者存储器314的计算机可读存储介质存储以下程序、模块和数据结构或者其子集：

·操作系统316，其包括用于处理各种基本系统服务并且用于执行依赖于硬件的任务的过程；

·通信模块318，其被用于经由一个或多个通信网络接口304(有线或无线)、内部网络或总线130、或其他通信网络112将服务器300连接至其它计算机，上述通信网络112诸如互联网、其它广域网、局域网、城域网等；

·显示模块320，其接收来自一个或多个输入设备310的输入，并且生成应用在显示设备308上显示的用户界面元素；

·查询处理模块116，其从客户端设备102接收搜索查询并且返回作为响应的搜索结果。在一些实施方式中，每个查询被记录在搜索查询日志120中；

·程序查看确定模块126，如以上关于图1所描述的；

·媒体补充模块124，其向用户提供与当前在计算设备102附近的电视108上查看的电视节目有关的补充信息。除了与电视节目有关的一般信息之外，所述补充信息包括与当前所查看的视频节目的部分(具有小幅延迟)直接相关的具体信息或搜索结果。所述媒体补充模块在下文中关于图10至12被更为详细地描述。

·尖峰识别模块324，其针对短时间段内的具体查询识别尖峰。尖峰识别模块324在下文中关于图10进行更为详细地描述。在一些实施方式中，尖峰识别模块324是媒体补充模块的子模块。

·搜索术语匹配模块326，其将各种类似查询匹配在一起以形成查询群组340，并且还将搜索查询匹配至视频节目的字幕(或者使用音频辨识软件所摘录的文本)。搜索术语匹配模块在下文中关于图10至图12和图14A至图14C进行更为详细地描述。通常，搜索术语匹配模块326在使用尖峰识别模块324识别尖峰之前形成查询群组340。

·视频摘录模块128，其将查询尖峰与视频节目内的位置进行关联以生成简短的视频片段，后者包括视频节目中的一些高潮和令人感兴趣的部分。所述摘录生成模块的操作在下文中关于图13进行更为详细地描述；和

·一个或多个数据库118，其存储本文中所描述的模块所使用的各种数据。

以上所识别的图3中的每个元素可以被存储在一个或多个先前所提到的存储器设备中。每个可执行程序、模块或过程与用于执行以上所描述的功能的指令集相对应。以上所识别的模块或程序(即，指令集)无需作为单独的软件程序、过程或模块来执行，并且因此这些模块的各种子集可以在各种实施方式中被组合或者以其它方式重新布置。在一些实施方式中，存储器314可以存储以上所提到的模块和数据结构的子集。此外，存储器314可以存储以上并未描述的附加的模块和数据结构。

虽然图3图示出了服务器300，但是图3更多地是旨在作为可能出现的各种特征的功能性描述而不是本文中所描述的实施方式的结构性示意。实际上以及如本领域技术人员所认识到的，单独示出的项可以被组合并且一些项可以被划分。用来实现这些特征的服务器的实际数目以及特征如何在它们之间进行分配将随着实施方式的不同而有所变化，并且可以部分取决于所述系统在尖峰使用期间以及平均使用期间所必须处理的数据业务量。

在一些实施方式中，数据库118存储视频节目数据122。每个视频节目包括节目ID 328以及各种其它信息，它们可以被细分为单独的数据结构。

在一些实施方式中，每个节目的视频节目数据包括节目简档330，其关于图4更为详细地进行描述。所述简档包括节目ID 328，其是每个视频节目的唯一标识符。在一些实施方式中，简档330包括节目描述402，其可以包括对所述节目进行描述的一个或多个段落。简档330可以包括演员阵容信息404，其包括独立演职人员有关的细节或者指向与所述演职人员有关的进一步信息的链接(例如，指向演职人员网页的链接)。对于作为一个系列的一部分的视频节目，一些实施方式在简档330中包括系列信息。在一些实施方式中，简档330包括流派信息408，其可以包括与视频节目流派有关的一般信息，并且可以提供指向附加信息的链接。在一些实施方式中，简档330包括相关术语410，其可以包括描述视频节目的关键术语或者可以识别使得用户能够识别出相关内容的术语。

在一些实施方式中，如图5所示，视频节目数据包括字幕数据332。在一些实例中，字幕信息能够提前以公开方式获取，但是在其它实例中，字幕信息在视频节目广播时被动态摘录并存储。

在一些实施方式中，字幕数据包括节目ID 328和字幕列表502，后者是出现在视频节目中的字幕的顺序列表。对于滚动字幕的视频节目而言，字幕文本的部分可以在时间窗期间滚动进入视图并滚动离开视图(例如，在第一时间段期间示出第1行和第2行，在第二时间段期间示出第2行和第3行，在第三时间段期间示出第3行和第4行，等等)。为了解决这种类型的字幕，一些实施方式允许连续字幕之间的重叠文本。一些实施方式存储文本的每个不同部分，并且允许时间段重叠。

字幕列表包括字幕文本部分的序列。每个部分由字幕ID 504进行识别。在一些实施方式中，字幕ID是全局唯一的，但是在其它实施方式中，所述字幕ID仅在给定节目ID 328内是唯一的。字幕ID 504可以是每个视频节目内的序列号。每个字幕部分包括指定节目内的位置506的数据。在一些实施方式中，这被指定为距视频节目开始处的偏移量(例如，以秒为单位)。在一些实施方式中，位置信息506还包括显示字幕的时间长度或者字幕的结束时间(例如，距显示字幕的时间段结束的以秒为单位的偏移量)。一些实施方式以各种方式对商业广告进行定位。在一些实施方式中，位置506仅关于媒体内容自身被指定，并且基于商业广告的实际长度而针对商业广告进行动态调整。在一些实例中，如果商业广告的长度是预先定义的，则位置506可以包括商业广告，将所述商业广告有效地视为视频节目的一部分。

每个字幕部分还包括字幕中的文本508。在一些实施方式中，所述文本被解析为单词序列，并且可以除去标点符号。在一些实施方式中，还存储字幕的语言510。一些实施方式存储附加或不同的数据，或者以替选的格式(例如，标记化格式)存储数据。

除了与视频节目内容或字幕有关的信息之外，一些实施方式存储与所述视频节目何时已经或将要被广播有关的信息。一些实施方式关注于依据预定义时间表进行广播的视频节目，并且因此多个观众在相同时间查看相同的视频节目。不同技术被应用以使用点播视频(VOD)数据，并且可以不使用广播数据表334。

图6图示了用于存储广播数据334的框架数据结构。广播数据334包括节目ID 328和广播列表602，其识别视频节目何时已经或将要被广播。在一些实施方式中，每个广播实例具有开始时间604和结束时间606。在一些实施方式中，每个广播实例包括开始时间604和持续时间。在一些实施方式中，每个广播实例包括指定频道、站点或其它广播源的信息608。在一些实施方式中，每个广播实例包括指定广播发生的地理位置或地区的信息610。在一些实施方式中，信息610是广播区域。在一些实施方式中，每个广播实例存储广播的时区612。

如以上所提到的，数据库106可以存储搜索查询日志120。在一些实施方式中，每个搜索查询被指派唯一的查询ID 336(例如，全局唯一的)。此外，如图7中所图示的，所述日志存储各种搜索查询数据338。每个查询包括查询术语702的集合，其可以被解析从而除去标点符号。在一些实施方式中，排字错误得以被保留，因为它们可能与出现在视频节目字幕中的排字错误相匹配。

查询数据338通常包括指定所述查询何时被发出的时间戳704。在一些实施方式中，时间戳704是基于用户的时区710的，后者也被存储。在其它实施方式中，时间戳704表示指示何时接收到查询的服务器所生成的时间戳。一些服务器系统114包括准确管理时间戳以便保证数据准确性以及顺序一致性的一个或多个服务器300。在一些实施方式中，服务器时间戳704连同用户时区710(以及已知所述服务器的时区)一起而允许服务器系统根据用户的当地时间而准确得知每个查询何时被提交，而且并不依赖于用户的客户端设备102。在一些实施方式中，所述查询数据包括用户的IP地址706以及用户的地理位置708。用于用户的地理位置708的可能数值集合通常与用于视频广播的地理位置或地区610的相同数据集合相对应。

在一些实施方式中，数据库118存储查询群组340，后者识别被认为是等效者的查询的集合。图11和12中图示了可以将查询组合在一起的一些方式。每个查询群组具有唯一地识别所述群组的查询群组ID342。平均查询频率344与每个群组相联系，前者可以以每分钟的查询实例或每小时的查询实例来表达。均值344可以在一段时间内被计算，诸如一周或一个月。在一些实施方式中，所述均值在更短的时间段内被计算(例如，过去的24小时)以便保持相对当前的数值。由于尖峰对应于背景均值344而被识别，所以所述均值被保持为最新。例如，背景均值344可以随时间缓慢波动，这并不构造尖峰。

在一些实施方式中，针对每个查询群组340在移动的时间窗内计算并更新最大查询频率345。所述时间窗通常很短且是相对近期的(例如，最近一个小时或半个小时)。由于最大查询频率被用来检测尖峰，所以所述时间窗通常将最近几分钟排除以便避免与实际的当前尖峰发生重叠。在一些实施方式中，仅相对于的最大查询频率345来针对分组识别尖峰。在其它实施方式中，使用平均查询频率344和最大查询频率345两者来识别尖峰。在其中相对于最大查询频率345识别尖峰的实施方式中，在当前群组查询频率超出所保存的最大查询频率实质性因数(例如，两倍于最大查询频率)时针对相应群组识别尖峰。在其中基于平均查询频率344和最大查询频率345的组合识别尖峰的一些实施方式中，在当前查询活动超出所述群组的平均和最大查询频率的一些数字组合(诸如线性组合)时识别所述尖峰。在一些实施方式中，在当前查询活动超出最大查询频率和平均查询频率两者(例如，以预定义因数)时识别尖峰。在一些实施方式中，在当前查询活动超出最大查询频率或平均查询频率时识别尖峰。

如图8所示，每个查询群组340包括处于所述群组中的查询的集合346。查询集合346包括查询群组ID 342以及查询列表802。每个查询实例包括查询术语804的集合，其可以以各种格式进行存储(例如，如原始提交的完整查询，移除了标点符号的完整查询，或者独立术语的列表)。此外，一些实施方式包括查询分类806的集合，其对于人可能具有意义并且作为经训练的机器学习分类器的一部分而被生成。

数据库118还存储尖峰信息348。尖峰与由其查询群组ID 342所识别的具体查询群组相联系，并且在一些情况下与节目ID 328所识别的具体视频节目相联系。

图9图示了一些实施方式针对每个尖峰进行跟踪的其它尖峰数据350。在一些实施方式中，每个尖峰具有相联系的开始时间902和结束时间904，它们通常基于服务器时钟。在一些实施方式中，尖峰数据350包括所述尖峰达到顶峰的时间戳，其可以替代开始时间902和结束时间904被存储。在一些实施方式中，尖峰数据350包括查询实例计数906，其指示尖峰期间的不同查询实例的数目。在一些实施方式中，尖峰数据350包括所计算的查询频率908。注意到，查询频率＝查询实例计数906/(结束时间904-开始时间902)。在尖峰出现的同时，数据可以几乎始终保持更新。当尖峰已经被与视频节目的字幕匹配时，尖峰数据可以包括相对应视频节目的节目ID 328，以及所述视频节目中出现相匹配字幕的位置910。所述位置可以被指定为距节目开始的偏移量，或者指示视频节目中具有匹配字幕的部分的广播时间的时间戳。在使用时间戳来指定位置时，实施方式可以使用所述字幕部分开始时、其结束时或者其中间的时间戳。在一些实施方式中，位置信息910指定时间间隔而不是单个点(例如，开始和结束或者开始和持续时间)。

图10视觉地图示了查询尖峰的识别以及将尖峰与视频节目进行关联。在图10的上半部分中是针对具体查询群组342A示出查询频率1006相对时间1004的图形。所显示的时间段是某天8:00PM和9:00PM之间的时间。曲线1002示出了查询频率如何波动，但是在大部分时间保持在背景均值344附近。然而，我们能够在开始时间902和结束时间904之间看到查询频率的尖峰348。尖峰期间有所增大的查询频率包括了查询群组342A中的所有查询。针对基于群组的近期最大查询频率345来识别尖峰的实施方式而言，群组的近期最大查询频率在当前时间之前的查询频率数据的窗1012(在虚线之间所定义的)中被确定。

在所述图形之下是四个频道的节目表。频道1在该小时期间正在呈现节目A 328-1。频道2在前半个小时期间呈现节目B 328-2并且在后半个小时期间呈现节目C 328-3。频道3在该小时期间呈现节目D328-4，而频道4在该小时期间呈现节目E 328-5。服务器系统114在这五个频道328-1、…、328-5进行广播的同时动态地收集它们的节目术语(例如，字幕数据332或语音辨识软件所识别的术语)。

一旦检测到尖峰348，查询术语就被与尖峰348开始之前的近期时间段(例如，1分钟、5分钟或10分钟)的视频节目术语进行比较。在这种情况下，在位置910处检测到与节目D 328-4的匹配。在一些情况下，通过视频节目术语中匹配的具体单词或关键词而检测匹配。在其它情况下，基于单词序列或匹配的语言概念而检测匹配。在一些实施方式中，由在来自先前所存储的视频节目术语和查询群组的数据上所训练的分类器来执行匹配。关于图11和12对一些匹配示例进行图示。

如在所述示例中所示，在不与提交查询的具体用户相关的情况下检测尖峰。在一些实施方式中，用户可以是向查询模块116提交查询的任何人。在一些实施方式中，用户集合被限制于已经在客户端设备102上安装了客户端应用104的那些用户。在所述情况下，查询基于客户端应用而被跟踪，并且因此总体上涉及到视频节目。当针对所有用户跟踪查询时，所述查询并非必然与电视相关，因此可能出现相当的开销成本。在一些实施方式中，仅通过来自唯一用户的查询生成尖峰结果。在一些这样的实施方式中，唯一用户通过将用户查询集合存储在服务器存储器314中并且随后对来自相同用户的重复查询进行折算(即，不在尖峰检测中使用)而被确定。

图11图示了一种不要求相同术语的字面匹配的匹配方式。有时人们使用不同的术语来表达相同的基本概念。在所述示例中，短语“火星上的生命(life on Mars)”1104基本上表达与“火星生命(Martian life)”1106相同的概念，但是这两个短语使用了不同的单词和单词顺序。如果这两个短语作为查询被提交至搜索查询模块116，则一些实施方式将在单个查询群组1102中将它们分组在一起。相同的概念匹配过程能够在将查询术语与来自视频节目的视频节目术语进行匹配时得以被应用。例如，如果存在“火星上的生命”1104的查询的提交中的尖峰，并且“火星生命”1106出现在所广播视频节目的视频节目术语中，则一些实施方式会将它们进行关联。

图12图示了匹配查询术语的另一种方式。在这种情况下，在两个术语集合具有基本上相同的术语序列时识别出匹配。在一些情况下，所述序列是完全相同的，但是在其它情况下则存在一些细微的变化，如这些示例所图示的。例如，序列1112和1114的不同之处仅在于序列1114在结尾处增加了术语“河(river)”。它们基本上是相同的。序列1116也基本上与序列1112相同，因为仅有的差异是省略了不明显的术语“在…上(on)”。虽然序列1118增加了两个术语“Mary Poppins”，但是一些实施方式会将其归类为与第一序列1112基本上相同，这是因为其包括与序列1112相同的明显序列。最后的示例1120图示出一些实施方式还会考虑到拼写错误或排字错误。一些人(例如，美国人)可能并不知道如何拼写“Thames”，但是在序列1120中有充分的上下文来认为其是匹配的。一些实施方式将会把所有这五个序列一起分组至单个群组1110之中，并且基于针对它们中的全部所提交的总体聚合的查询来测量查询频率。

除了通过如图11和图12中所图示的各种匹配技术分组在一起之外，一些实施方式还使用聚类算法将查询分组在一起。

图11和图12中的示例还被应用于所提交查询和视频节目术语(例如，字幕术语)之间的匹配。

图13图示了视频摘录模块128所执行的过程。视频摘录模块128基于所提交的用户查询来生成视频节目摘录。虽然以上的图10图示了将单个搜索查询尖峰348匹配至视频节目328-4中的位置910，但是图13将多个尖峰针对单个节目328进行关联。在图13的上方部分中是针对三个不同查询群组342A、342B和342C的查询频率1006相对时间1004的绘图。图形1342C与查询群组342C相对应，图形1342A与查询群组342A相对应，并且图形1342B与查询群组342B相对应。

注意到，每个查询群组的背景或平均查询频率有所不同(图形1342A、1342B和1342C具有x轴上方不同的平均高度)。在所述所图示的示例中，每个被绘图的查询群组都在8:30PM和9:00PM之间具有尖峰(348A、348B和348C)。尖峰识别模块324如以上关于图10所解释的识别(1302)尖峰348A、348B和348C。虽然本文中针对搜索查询进行了图示，但是一些方法在一些实施方式中被应用于tweets^TM。

如以上关于图10所描述的，每个尖峰348可以所关联(1304)至视频节目328中的位置910。这里，尖峰348A与位置910A相关联，尖峰348B与位置910B相关联，并且尖峰348C与位置910C相关联。

一旦识别出视频节目328中的位置910，所述过程就选择(1306)包括那些位置的视频场景。特别地，一个片段在每个位置处包括多于一个的单个视频帧。通常，实施方式选择每个位置周围的一部分来创建包括每个位置的连续视频部分。在一些实施方式中，所述部分向前和向后延伸至最近的视频场景边界。在一些实例中，始终延伸至边界会过长，从而所述部分可以受到限制。例如，一些实施方式将所述部分限制为每个位置之前和之后的30秒。(并且一个部分在视频场景边界少于距相对应位置的三十秒种时可以更小。)如图13所示，与位置910A相对应的部分的范围从下方位置1312至上方位置1314。位置910A和910B大致处于所图示部分的中间，但是位置910C则偏离中心。

最后，视频场景部分被拼接在一起(1308)从而形成视频摘录1320。摘录1320小于完整的视频节目328，但是包括了已经被识别为用户感兴趣的一些内容。摘录1320一旦被生成就可以被提供给用户。例如，如果视频节目是电影或电视情节，则用户可以查看摘录1320来决定是否观看整个节目。如果所述视频节目是新闻节目，则单独的摘录就足以使得用户了解关键内容。在一些实施方式中，在视频摘录被创建时，与位置910有关的信息被存储，其使得能够快速链接至原始视频节目中的视频分段。例如，如果用户对视频摘录中的新闻剪辑之一感兴趣，则所述用户能够链接至所述原始内容并且看整个相关分段。

图14A至14C提供了服务器系统114所执行的用于建立(1402)视频节目摘录的过程1400的流程图。所述摘录有时被称作片段。所述方法在具有一个或多个处理器和存储器的服务器系统处被执行(1404)。所述存储器存储(1404)被配置用于由一个或多个处理器执行的程序。

所述过程从多个用户所提交的搜索查询识别(1406)多个搜索查询尖峰。所述尖峰通常处于所指定的时间跨度期间(例如，在图13中的8:00PM和9:00PM之间)。在一些实施方式中，搜索查询是来自于运行客户端应用104的用户。在一些实施方式中，所述用户并非必然使用客户端应用104。

尖峰表示查询频率的短期增长，并且因此每个尖峰具有有限的持续时间(例如，少于诸如五分钟的预定义持续时间)。在一些实施方式中，每个搜索查询尖峰348与被识别为等效者的一个或多个搜索查询的相应集合相对应(1408)。不同的人以不同方式表达相同的基础查询，所以实施方式通常将它们分组在一起以便更为准确地进行报告。

在一些实施方式中，在来自第一搜索查询的搜索术语的有序序列基本上与来自第二搜索查询的搜索术语的有序序列相同时，第一搜索查询和第二搜索查询被识别(1410)为等效者。这在以上关于图12进行了说明。在一些实施方式中，在使用来自第一搜索查询的搜索术语所表达的语言概念基本上是使用来自第二搜索查询的搜索术语所表达的相同语言概念时，第一搜索查询和第二搜索查询被识别(1412)为等效者。这在以上关于图11进行了说明。

“尖峰”大于查询频率中的小幅升高。这里，在尖峰时段期间从相应集合提交查询的频率相比于平均时间跨度期间从所述集合提交查询的频率超出(1408)预定义的阈值量或者百分比时，尖峰被识别。例如，一些实施方式将阈值百分比指定为25％或50％。一些实施方式使用甚至更高的百分比以便关注于明显尖峰。一些实施方式具有基于查询群组或其它因素的自适应百分比。例如，如果过去半小时中的相关尖峰的数目很小，在所要求的阈值百分比可以有所减小以便识别更多尖峰。在一些实施方式中，潜在尖峰的查询频率被与近期时间跨度期间的最大查询频率345进行比较。这在以上关于图10进行了说明。

搜索术语匹配模块326随后将搜索查询尖峰的子集与广播视频节目进行关联(1414)。一些实施方式将来自搜索查询集合的一个或多个术语与视频节目中在特定位置处出现的一个或多个字幕术语进行匹配(1420)。所述匹配可以涉及到匹配具体单词或关键词、短语或者概念性实体。一些示例在图11和12中进行了图示。每个所关联的搜索查询尖峰与视频节目中的相应位置相对应(1416)。

在一些实例中，视频节目是(1418)用电视播放的电视节目。在一些实例中，所述视频节目从互联网进行流式传输，并且可以由电视节目以外的媒体内容组成。

在一些实施方式中，针对每个相应的相关搜索查询尖峰，所述搜索查询尖峰的时间和视频节目中的相应位置被广播时之间的时间差小于(1422)预定义延迟。这与识别出由具体媒体内容所触发的尖峰的目标相符。在一些实例中，搜索术语匹配模块326将来自两个或更多连续分段的字幕拼接在一起以便匹配搜索查询。

在一些实施方式中，将来自搜索查询集合的一个或多个术语与视频节目中出现的一个或多个字幕术语进行匹配包括将来自集合中的搜索查询的术语的有序序列与字幕术语基本上相同的有序序列进行匹配。这在以上关于图12进行了说明。在一些实施方式中，将来自搜索查询集合的一个或多个术语与视频节目中出现的一个或多个字幕术语进行匹配包括将使用来自所述集合的搜索查询的术语所表达的语言概念与使用字幕术语所表达的基本上相同的语言概念进行匹配。这在以上关于图11进行了说明。

过程1400通过将视频节目中包含与相关联的搜索查询尖峰相对应的位置的部分拼接在一起而构造(1424)所述视频节目的片段。这在以上关于图13进行了说明。在一些实例中，视频节目的部分根据这些部分在所述视频节目内的顺序而在所构造的片段中按顺序布置(1426)。这提供了“时间正确”的摘录。在一些实施方式中，部分并非必然按顺序被拼接在一起，这允许将相关场景分组在一起的一些灵活性，将重要部分置于摘录的开始或结尾，或者出于其它的目的。

在一些实施方式中，视频节目中包含与相关联的搜索查询尖峰相对应的位置的部分被延伸(1428)至每个位置之前和之后的视频场景边界。这在以上关于图13进行了说明，选择(1306)包含位置910A的从下方位置1312至上方位置1314的部分。通常，所述部分被选择为足够长而使得观众能够理解每个场景，但是并不过于长而使得摘录无法进行观看。

在一些实例中，当用户针对与视频节目有关的信息提交搜索查询时，服务器系统114向用户提供(1430)所构造的片段。

在一些实施方式中，来自多个视频节目的片段被拼接在一起以形成视频概要。所述视频概要通常表示具体的时间跨度，诸如一天、一个早晨或者一个晚上，并且可以以其它方式加以限制，诸如具体频道、频道群组或流派。在一些实施方式中，用户可以指定选择标准并且基于那些选择标准来接收个性化的视频概要。

在一些实施方式中，视频概要通过针对多个相应的广播视频节目构造(1432)相应片段而形成。每个相应片段基于(1432)如以上关于图13所说明的将相应的多个搜索查询尖峰与相应视频节目进行关联。所述多个广播视频节目全部在预定义时间跨度期间进行广播(1432)。所述过程1400随后将多个广播节目的片段拼接在一起(1434)从而针对所述预定义时间跨度形成单个视频概要(如以上所提到的，所述概要也可以通过其它标准进行限制)。

本发明的描述中所使用的术语仅是出于对特定实施方式进行描述的目的而并非旨在对本发明进行限制。如本发明的描述和所附权利要求中所使用的，除非上下文另外明确有所指示，否则单数形式“一个”(“a”、“an”和“the”)旨在也包括复数形式。还将要理解的是，本文中所使用的术语“和/或”是指包含一个或多个相联系的列举项的任意且所有的可能组合。将要进一步理解的是，当在所述说明书中使用时，术语“包括(comprises)”和/或“包括了(comprising)”指定了存在所提到的特征、步骤、操作、元素和/或组件，但是并不排除存在或增加一个或多个其它的特征、步骤、操作、元素、组件和/或它们的群组。

出于解释的目的，以上描述已经参考具体实施方式进行了描述。然而，以上的说明性讨论并非旨在是排他的或者将本发明限制为所公开的具体形式。可能鉴于以上教导进行许多修改和变化。例如，一些实施方式使用针对社交媒体站点(例如，)的发布而不是搜索查询，或者利用社交媒体站点的发布对搜索查询进行补充。在一些实施方式中，所述技术被扩展为包含点播视频(VOD)，其中针对独立用户的呈现并不遵循预定安排。当用户具有客户端应用104并且查看点播视频节目时，匹配能够在不进行聚合的情况下执行。随后，来自多个用户的结果能够被聚合并关联以识别尖峰。本文中所描述的实施方式被选择并描述以便以最佳方式对本发明的原理及其实际应用加以解释，从而使得本领域技术人员能够以最佳方式利用本发明以及具有如适应所预期的特定用途的各种修改的各种实施方式。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：兹比格纽·斯科利茨基;
技术所有人：谷歌公司;
我是此专利的发明人

上一篇：终端设备、信号的发送方法及装置与流程
上一篇：一种媒体流传输方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。