显示与设备上播放的内容有关的信息的制作方法

文档序号：12287984阅读：196来源：国知局

本申请描述用于呈现与视频内容有关的信息的系统和方法。

背景技术：

用户经常想要内容，诸如与他们正在观看的视频有关的或者与他们可以另外有兴趣的视频内容有关的信息，诸如与视频内容中的说出的对话有关的信息或者关于在视频内容中出现的人的信息。通常，为了获得与视频内容有关的信息，用户需要使用启用网络的设备访问网站。用于给用户提供与视频内容有关的信息的现有的方法是效率低的，因为他们要求用户采取在视觉体验外的一些行动。而且，在这些现有的方法中，可能以不利于简单理解或者跟进的方式呈现找到的信息。

技术实现要素：

通过被公开的方法和系统减少或者消除上述缺陷和其它问题。在此公开的方法和系统公开用于显示与在不同的或者相同的客户端设备上正在播放或者已经播放的内容有关的关于客户端设备的信息的系统和方法。这样的方法和系统为用户提供有效的方式以呈现与内容有关的信息，诸如在设备上正在播放或者已经播放的视频。当在第一客户端设备上正在播放视频时，第一客户端设备将来源于视频的内容信息发送到服务器系统。服务器系统通过使内容信息与内容指纹相匹配识别在第一客户端设备上播放的视频。然后服务器系统识别与视频有关的实体，诸如视频中的引文或者人，以及与这些实体有关的信息。为了显示，例如作为视频的概要，信息被发送到第二客户端设备。

根据一些实施例，方法、系统以及计算机可读存储媒介被提供以生成媒体内容项目的概要。检测媒体内容项目的呈现。媒体内容项目和与媒体内容项目有关的一个或者多个实体被识别。基于一个或者多个信号，在识别的实体中的相应的兴趣水平被确定。基于被确定的兴趣水平，实体的子集被选择。为了在客户端设备处呈现，所选择的实体的子集被发送到用户的客户端设备。

根据一些实现，方法、系统以及计算机可读存储介质被提供以生成媒体内容项目的概要。多个媒体内容项目的呈现被检测。媒体内容项目，以及，针对每个相应媒体内容项目，与相应媒体内容项目有关的一个或者多个实体被识别。基于一个或多个信号，确定在识别的实体中的相对于定义的时间段的相应的兴趣水平。基于被确定的相对于定义的时间段的兴趣水平，选择实体的子集。所选择的实体的子集被发送到用户的客户端设备用于在客户端设备处呈现。

附图说明

图1A-1B是图示出根据某些实施方式的分布式客户端-服务器系统的框图。

图2是图示出根据某些实施方式的示例性服务器系统的结构的框图。

图3A是图示出根据某些实施方式的示例性客户端设备的结构的框图。

图3B是图示出根据某些实施方式的示例性客户端设备的结构的框图。

图4图示出根据某些实施方式的示例性数据结构。

图5是图示出根据某些实施方式的在第二设备上显示与在第一设备上播放的内容有关的引文内容的过程的概览的流程图。

图6是图示出根据某些实施方式的在第二设备上显示与在第一设备上播放的内容有关的视频内容概要的过程的概览的流程图。

图7A、7B和7C是根据某些实施方式的示例性截屏。

图8A和8B是根据某些实施方式的示例性截屏。

图9图示出根据某些实施方式的用于识别和存储引文的方法的流程图。

图10A-10B图示出根据某些实施方式的用于识别引文以用于呈现的流程图。

图11图示出根据某些实施方式的用于呈现引文的方法的流程图。

图12图示出根据某些实施方式的用于生成媒体内容项目的概要的方法的流程图。

图13图示出根据某些实施方式的用于相对于时间段生成媒体内容项目的概要的方法的流程图。

图14A-14F是根据某些实施方式的示例性截屏。

图15A-15B图示出根据某些实施方式的用于在实体上呈现关于媒体内容项目的信息的流程图。

相同的参考标号遍及各图指代对应的部分。

具体实施方式

在此公开的方法和系统公开用于在客户端设备上显示与在客户端设备上正在播放或者已播放的内容有关的内容(例如，与播放的内容中的引文、已播放的内容的概要有关的信息)的系统和方法。这样的方法和系统提供对于视频内容的观众获得关于他们正在浏览、已经浏览、或者另外感兴趣的有关信息的有效方式。

现在将详细地考察各种实施方式，在附图中示出其示例。在以下详细描述中，阐述了许多特定细节以便提供本发明和所述实施方式的透彻理解。然而，可以在没有这些特定细节的情况下实施本发明。在其它情况下，并未详细地描述众所周知的方法、程序、组件以及电路以免不必要地使实施方式的各方面含糊难懂。

图1A图示出分布式系统100的框图，该分布式系统100包括：客户端设备102、客户端设备140、通信网络104、服务器系统106、视频内容系统112、一个或多个内容主机170、一个或多个社交网络172以及一个或多个搜索引擎174。服务器系统106通过通信网络104被耦合到客户端设备102、客户端设备140、视频内容系统112、内容主机170、社交网络172以及搜索引擎174。

可以将视频内容系统112和服务器系统106的功能组合成单个服务器系统。在某些实施方式中，将服务器系统106实现为单个服务器系统，而在其它实施方式中，将其实现为多个服务器的分布式系统。仅仅为了方便说明，下面将服务器系统106描述为在单个服务器系统上实现。在某些实施方式中，将视频内容系统112实现为单个服务器系统，而在其它实施方式中，将其实现为多个服务器的分布式系统。仅仅为了方便说明，下面将视频内容系统112描述为在单个服务器系统上实现。

通信网络104可以是任何有线或无线局域网(LAN)和/或广域网(WAN)，诸如内部网、外部网或因特网。通信网络104提供客户端设备102和140、服务器系统106、视频内容系统112、内容主机170和社交网络172之间的通信能力就够了。在某些实施方式中，通信网络104使用超文本传输协议(HTTP)以使用传输控制协议/网际协议(TCP/IP)来传送信息。HTTP允许客户端设备102和140经由通信网络104访问可用的各种资源。然而，本文中所述的各种实施方式不限于任何特定协议的使用。

在某些实施方式中，系统106包括前端服务器114，其有助于服务器系统106与网络104之间的通信。前端服务器114从客户端102和/或客户端140接收内容信息142。在某些实施方式中，内容信息142是视频流或其一部分。在某些实施方式中，内容信息142是从在客户端102上播放的视频流导出的(诸如在客户端102上播放的视频流的一部分和该部分的一个或多个指纹)。在某些实施方式中，前端服务器114被配置成向客户端设备140发送内容。在某些实施方式中，前端服务器114被配置成发送到内容的内容链接。在某些实施方式中，前端服务器114被配置成发送或接收一个或多个视频流。

根据某些实施方式，视频或视频流是表示运行中的场景的图像或帧的序列。应将视频与图像区别开。视频每秒显示许多图像或帧。例如，视频每秒钟显示30个连续帧。相比之下，图像与任何其它图像不相关联。

在某些实施方式中，服务器系统106包括存储用户数据的用户数据库130。在某些实施方式中，用户数据库130是分布式数据库。

在某些实施方式中，服务器系统106包括内容识别模块118，其包括用以从客户端102和/或客户端140接收内容信息142，将该内容信息与指纹数据库120中的内容指纹匹配并基于内容信息与内容指纹的匹配来识别在客户端设备102呈现的视频内容(例如“视频内容项目”，诸如电影、电视连续剧剧集、视频剪辑或任何其它区别性(distinct)的视频内容片)的模块。在某些实施方式中，内容识别模块还识别内容视频中的当前位置(例如，视频内容正在客户端设备102上呈现的位置或在其中有多远)。视频内容的标识和视频内容中的当前位置被传递到实体模块144，其识别实体数据库122中的与识别的视频内容有关的一个或多个实体。

在某些实施方式中，服务器系统106包括存储内容指纹的指纹数据库120。如本文中使用的内容指纹是视频流和/或音频流和/或与视频流和/或音频流相对应的一般字幕/隐藏字幕(subtitle/caption)数据的任何类型的压缩或紧凑式表示或签名。在某些实施方式中，指纹可表示视频流或音频流或相应一般字幕/隐藏字幕数据的剪辑(诸如几秒、几分钟或几小时)或一部分。或者，指纹可表示视频流或音频流或一般字幕/隐藏字幕数据的单个时刻(例如，视频的单个帧的的指纹、或者与该视频帧相关联的音频的的指纹、或者对应于该视频帧的一般字幕/隐藏字幕的指纹)。此外，由于视频内容随时间而改变，该视频内容的相应指纹也将随时间而改变。在某些实施方式中，指纹数据库120是分布式数据库。

在某些实施方式中，客户端设备102包括视频模块110，其从视频内容系统112接收视频内容126、从正在客户端102上播放的视频内容126(例如，视频流)提取内容信息142并将内容信息142发送到服务器106。

客户端设备102是在某些实施方式中能够连接到通信网络104、接收视频内容(例如，视频流)、从该视频内容提取信息并在显示设备108上呈现视频内容的任何适当计算机设备。在某些实施方式中，客户端设备102是包括用以接收和呈现视频流的组件的机顶盒。例如，客户端设备102可以是用于接收有线TV和/或卫星TV的机顶盒、数字视频记录器(DVR)、数字媒体接收机、TV调谐器、计算机和/或输出TV信号的任何其它设备。在某些其它实施方式中，客户端设备102是计算机、膝上型计算机、平板设备、上网本、移动电话、智能电话、平板设备、游戏设备、多媒体播放器设备或者能够接收视频内容(例如，作为通过网络104的视频流)的任何其它设备。在某些实施方式中，客户端设备102在显示设备108上显示视频流。在某些实施方式中，客户端设备102是常规TV显示器，其被连接到因特网并经由空中广播或卫星或线缆连接而显示数字和/或模拟TV内容。

在某些实施方式中，显示设备108可以是用于向用户呈现视频内容的任何显示器。在某些实施方式中，显示设备108是电视或计算机监视器的显示器，其被配置成从客户端102接收并显示音频和视频信号或其它数字内容。在某些实施方式中，显示设备108是具有中央处理单元、存储器和被配置成从客户端102接收并显示音频和视频信号或其它数字内容的显示器的电子设备。例如，显示设备可以是LCD屏幕、平板设备、移动电话、投影仪或其它类型的视频显示系统。显示器108可以经由无线或有线连接而耦合到客户端102。

在某些实施方式中，客户端设备102经由TV信号138来接收视频内容126。如本文所使用的TV信号是包括对应于TV频道的视频和/或视频组件的电、光或其它类型的数据发送介质。在某些实施方式中，TV信号138是陆地空中TV广播信号或者在有线系统或卫星系统上分发和/或广播的信号。在某些实施方式中，TV信号138被作为数据通过网络连接而发送。例如，客户端设备102可以从因特网连接接收视频流。在本文中有时将TV信号的音频和视频组件称为音频信号和视频信号。在某些实施方式中，TV信号对应于正在显示设备108上显示的TV频道。

在某些实施方式中，TV信号承载用于与TV频道上的音轨相对应的可听声音的信息。在某些实施方式中，可听声音由与显示设备108或客户端设备102相关联的扬声器(例如，扬声器109)产生。

在某些实施方式中，TV信号承载用于与音轨中的说出的对话相对应的一般字幕或隐藏字幕(例如，闭合字幕)的信息或数据。一般字幕或隐藏字幕是视频内容中的说出的对话的文本转录。一般字幕或隐藏字幕可以连同相应视频内容一起被同时地呈现。为了方便起见，在下文中将一般字幕和隐藏字幕共同地称为“字幕(subtitle)”并将一般字幕/隐藏字幕数据称为“字幕数据”。

客户端设备140可以是能够连接到通信网络104的任何适当的计算机设备，诸如计算机、膝上型计算机、平板设备、上网本、因特网亭、个人数字助理、移动电话、游戏设备或能够与服务器系统106通信的任何其它设备。客户端设备140通常包括一个或多个处理器、诸如硬盘驱动器之类的非易失性存储器和显示器。客户端设备140还可以具有输入设备，诸如键盘和鼠标(如图3中所示)。在某些实施方式中，客户端设备140包括触摸屏显示器。

在某些实施方式中，客户端设备140被连接到显示设备128。显示设备128可以是用于向用户呈现视频内容的任何显示器。在某些实施方式中，显示设备128是电视或计算机监视器的显示器，其被配置成从客户端128接收并显示音频和视频信号或其它数字内容。在某些实施方式中，显示设备128是具有中央处理单元、存储器和被配置成从客户端140接收并显示音频和视频信号或其它数字内容的显示器的电子设备。在某些实施方式中，显示设备128是LCD屏幕、平板设备、移动电话、投影仪或任何其它类型的视频显示系统。在某些实施方式中，客户端设备140被连接到显示设备128。在某些实施方式中，显示设备128包括或者另外连接到能够产生与TV信号或视频流的音频组件相对应的可听流的扬声器。

在某些实施方式中，客户端设备140经由无线或有线连接而连接到客户端设备102。在其中存在此类连接的某些实施方式中，客户端设备140可选地根据由客户端设备102提供的指令、信息和/或数字内容(统称为第二屏幕信息)而操作。在某些实施方式中，客户端设备102向客户端设备140发布指令，该指令使客户端设备140在显示器128和/或扬声器129上呈现补充或关于由客户端102在显示器108上呈现的数字内容的数字内容。在某些其它实施方式中，服务器106向客户端设备140发布指令，该指令使客户端设备140在显示器128和/或扬声器129上呈现补充或关于由客户端102在显示器108上呈现的数字内容的数字内容。

在某些实施方式中，客户端设备140包括麦克风，其使得客户端设备能够在客户端102播放视频内容126时从客户端102接收声音(音频内容)。麦克风使得客户端设备102能够随着视频内容126被播放/观看而存储与该视频内容126相关联的音频内容/音轨。以与在本文中针对客户端102描述的相同方式，客户端设备140可以在本地存储此信息且然后向服务器106发送内容信息142，其是以下各项中的任何一个或多个：存储音频内容的指纹、音频内容本身、音频内容的部分/片断或音频内容的部分的指纹。这样，服务器106可以识别正在客户端102上播放的视频内容126，即使正在其上面播放/观看内容的电子设备并不是启用因特网的设备，诸如较旧的电视机；未被连接到因特网(暂时或永久地)，因此不能发送内容信息142；或者不具有对与视频内容126有关的媒体信息进行记录或指纹识别的能力。此类布置(即，其中第二屏幕设备140存储内容信息142并将其发送到服务器106)允许用户从服务器106接收响应于内容信息而被触发的第二屏幕内容(无论观看者正在什么位置观看TV)和与视频内容126有关的信息，诸如与视频内容126中实体有关的信息。

在某些实施方式中，从客户端102或140发送到服务器106的内容信息142包括以下各项中的任何一个或多个：所存储字幕数据的指纹、字幕数据本身、字幕数据的部分/片断或字幕数据的部分的指纹。这样，服务器106可以识别正在客户端102上播放的视频内容126，即使例如客户端102上的音量水平过低而使得音频内容不能被客户端设备140可听地检测到、由客户端102输出的音频内容失真(例如，由于来自视频内容系统112的差的传输质量、由于客户端102处的处理能力的滞后)或者另外如果扬声器109不可运行。

在某些实施方式中，客户端设备140包括一个或多个应用程序127。如在本文中更详细地讨论的，一个或多个应用程序127接收并呈现从服务器106接收到的信息，诸如视频内容中的实体和关于视频内容中的实体的信息(统称为“实体信息”132)。在某些实施方式中，应用程序127包括辅助应用程序。辅助应用程序基于多种信号而获得并呈现关于用户的信息，包括但不限于用户的人口统计信息、设备和/或用户的当前位置、用户的日历、用户的联系人列表、用户的社交网络、用户的搜索历史、用户的网络浏览历史、设备和/或用户的位置历史、用户的固定偏好、用户的内容观看历史以及当前正在呈现给用户的内容。

服务器106包括实体数据库或储存库122。实体数据库122是与视频内容相关联的实体的数据库。如本文所使用的实体是与视频内容相关联的任何区别性的存在或事物。在某些实施方式中，在没有限制的情况下，实体包括标题、人、地点、音乐、事物、产品、引文以及奖项。例如，标题包括电影标题、连续剧标题(例如，电视连续剧标题)以及剧集标题(例如，电视剧集标题)。人包括演员表成员(例如，演员)、剧组成员(例如，导演、制作人、音乐作曲等)、故事中的角色、竞赛选手、竞赛裁判、主持人、嘉宾以及提及的人。地点包括故事中的位置、拍摄地以及提及的位置。音乐包括在视频内容中使用的歌曲和音乐。事物包括故事中的对象(例如，“星球大战”中的光剑)。产品包括任何在视频内容中提及或显示的任何货物、服务或项目(例如，提及的书、由于植入式广告而包括在视频内容中的产品)。引文包括来自视频内容的言语对话，诸如由视频内容中的角色或非虚构的人说出的台词和名言(例如，“愿原力与你同在”)。奖项包括与视频内容片及其实体相关联的任何奖项(例如，最佳演员、最佳导演、最佳歌曲等)。应认识到的是这些示例是非穷举的，并且其它种类的实体是可能的。

在某些实施方式中，实体数据库122还包括指示实体之间的关联的图表网络。例如，电影实体(例如，作为表示电影的实体的电影标题实体)被链接到其演员表成员实体、剧组成员实体、故事中位置实体、引文实体等。图表网络是使用任何适当数据结构实现的。

在某些实施方式中，实体数据库122还包括关于实体在视频内容项目中何时出现、被提及或被说出(例如，在引文的情况下)的信息。例如，对于电影实体而言，实体数据库122存储关于例如在电影中特定角色或演员表成员何时出现(例如，实际在屏幕上)是在活动场景中(即使不是活动场景的整个持续时间内在屏幕上)的信息。此类信息可被存储为视频内容项目内的时间范围(例如，22:30-24:47的时间范围意味着角色或演员表成员从22分钟30秒标记至24分钟47秒标记出现在视频内容项目中)。同样地，实体数据库122存储关于在视频内容项目中地点何时出现或者被提及、歌曲或音乐何时被播放、引文何时被说出、事物何时出现或被提及、产品何时出现或被提及等的信息。

在某些实施方式中，实体数据库122中的实体还与实体数据库外面的非实体相关联。例如，实体数据库122中的人实体可以包括到与那个人相关联的新闻故事的网页的链接。

服务器106包括实体模块144、概要模块146、引文模块、以及流行度模块150。实体模块144识别并提取与视频内容有关的实体并将提取的实体存储在实体数据库122中。在某些实施方式中，实体模块144从视频内容(例如，从内容信息142)以及从其它源(例如，由内容主机170托管的网页)提取与视频内容有关的实体。在某些实施方式中，实体模块144还从实体数据库122中选择一个或或多个实体并将其呈现给前端服务器114以便发送到客户端设备(例如，客户端设备140)用于呈现。

概要模块146生成视频内容的概要。如本文所使用的概要是与视频内容相关联的实体(例如，在视频内容中出现或提及的实体)的列表。在某些实施方式中，包括在概要中的实体是与基于一个或多个流行度准则而被确定为总体上流行的视频内容项目相关联的实体，下面描述其细节；概要是相对于视频内容项目生成的而未针对特定用户进行个性化。在某些实施方式中，包括在概要中的实体是与被确定为总体上以及对于特定用户是流行的视频内容项目相关联的实体；概要是相对于视频内容项目生成的且针对特定用户而个性化。在某些实施方式中，包括在概要中的实体是与被确定为在定义的时间段内(例如，某个月、某一天、某一周、某一天内的特定小时(例如，“黄金时段”小时)等)总体上流行的视频内容相关联(但不必全部与同一视频内容项目相关联)的实体；概要不是相对于特定视频内容项目而生成的。

引文模块148识别视频内容中的引文。视频内容具有许多说出的对话。然而，并非说出的对话的所有台词或短语都是有趣的或流行的或众所周知的或特定标题或人所祈求的。在某些实施方式中，引文模块148结合流行度模块150确定说出的对话(即，引文)中的哪些台词或短语是流行的或众所周知的等(例如，基于例如在线提及和共享等)，并且因此作为区别性的实体存储在实体数据库122中。引文模块148分析由内容主机170和社交网络172托管的非视频内容，诸如文档(例如，网页)和社交网络，以确定视频内容中的说出的对话的哪些台词和短语正在被共享、提及或评论，并且因值得作为区别性的引文实体来区分。

流行度模块150基于一个或多个准则来确定实体的流行度。在某些实施方式中，流行度模块150实时确定流行度(例如，在最近一个小时内的流行度)以及历史流行度或在较长时间范围内的流行度(例如，年初至今的流行度、一直以来的流行度等)。

分布式系统100还包括一个或多个内容主机170、一个或多个社交网络172以及一个或多个搜索引擎174。内容主机170托管可以用来确定实体的流行度的内容，诸如其中可以提及并评论实体的网页。同样地，社交网络172还包括其中可以提及并评论实体的内容(例如，在用户评论和帖子中)。此外，在社交网络172中，可以共享内容，其提供针对实体的流行度的另一度量。搜索引擎174可从客户端设备102或140接收对应于实体的查询，并且返回相关信息。

图1B描绘了与图1A中描绘的分布式系统100类似的分布式系统180。在图1B中，客户端设备102和104(图1A)的特征被包含到客户端设备182中。在分布式系统180中，客户端设备182接收并呈现视频内容126。客户端设备182将内容信息142发送到服务器106。服务器106识别视频内容并向客户端设备182发送实体信息132用于呈现。在其它方面，分布式系统180与分布式系统100相同或类似。因此，在这里不重复细节。

图2是根据某些实施方式图示出服务器系统106的框图。服务器系统106通常包括一个或多个处理单元(CPU)202、一个或多个网络或其它通信接口208、存储器206以及用于将这些组件互连的一个或多个通信总线204。通信总线204可选地包括将系统组件互连并控制系统组件之间的通信的电路(有时称为芯片组)。存储器206包括高速随机存取储器，诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器设备；并且可包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其它非易失性固态存储设备。存储器206可以可选地包括位于远离CPU 202处的一个或多个存储设备。存储器206，包括存储器206内的非易失性和易失性存储器设备，包括非临时计算机可读存储介质。在某些实施方式中，存储器206或存储器206的非临时计算机可读存储介质存储以下程序、模块或数据结构或其子集，包括操作系统216、网络通信模块218、内容识别模块118、指纹数据库120、实体数据库122、用户数据库130、实体模块144、概要模块146、引文模块148以及流行度模块150。

操作系统216包括用于处理各种基本系统服务且用于执行硬件相关服务的程序。

网络通信模块218经由一个或多个通信网络接口208(有线或无线)和一个或多个通信网络(诸如因特网、其它广域网、局域网、城域网等)来有助于与其它设备的通信。

指纹数据库120存储一个或多个内容指纹232。指纹232包括名称234、指纹音频信息236和/或指纹视频信息238以及关联文件列表239。名称234识别相应内容指纹232。例如，名称234可以包括关联的电视节目、电影或广告的名称。在某些实施方式中，指纹音频信息236包括视频流或音频流的音频内容的剪辑(诸如几秒、几分钟或几小时)的指纹或其它压缩表示。在某些实施方式中，指纹视频信息238包括视频流的剪辑(诸如几秒、几分钟或几小时)的指纹。在某些实施方式中，指纹232包括视频流的字幕数据的一部分的指纹或其它表示。指纹数据库120中的指纹232被周期性地更新。

用户数据库124包括用于一个或多个用户的用户数据240。在某些实施方式中，用于相应用户240-1的用户数据包括用户标识符242和人口统计信息244。用户标识符242识别用户。例如，用户标识符242可以是与客户端设备102相关联的IP地址，或者由用户选择或由服务器分配的唯一地识别用户的字母数字值。人口统计信息244包括相应用户的特性。人口统计信息可包括由以下各项组成的组中的一个或多个：年龄、性别、收入、地理位置、教育、财富、宗教、种族、民族、婚姻状况、家庭规模、就业状况以及政治党派。在某些实施方式中，用于相应用户的用户数据还包括以下各项中的一个或多个：搜索历史(例如，用户已提交给搜索引擎的搜索查询)、内容浏览历史(例如，由用户观看的网页)以及内容消费历史(例如，用户已观看的视频)。

内容识别模块118从客户端102或140接收内容信息142，并且识别在客户端102或140处呈现的视频内容。内容识别模块118包括指纹匹配模块222。在某些实施方式中，内容识别模块118还包括指纹生成模块221，其从内容信息142或由服务器保存的其它媒体内容生成指纹。

指纹匹配模块222将内容信息142的至少一部分(或由指纹生成模块生成的内容信息142的指纹)与指纹数据库120中的指纹232匹配。匹配的指纹242被发送到实体模块144，其检索与匹配的指纹242相关联的实体。指纹匹配模块222包括从客户端102接收到的内容信息142。内容信息142包括音频信息224、视频信息226、用户标识符229以及可选地字幕数据(未示出)。用户标识符229识别与客户端102或140相关联的用户。例如，用户标识符229可以是与客户端设备102相关联的IP地址，或者由用户选择或由服务器分配的唯一识别用户的字母数字值。在某些实施方式中，内容音频信息224包括在客户端设备102上播放的视频流或音频流的剪辑(诸如几秒、几分钟或几小时)。在某些实施方式中，内容视频信息226包括在客户端设备102上播放的视频流或音频流的剪辑(诸如几秒、几分钟或几小时)。

实体数据库122包括与视频内容相关联的实体。下面参考图4来进一步描述实体数据库122。

实体模块144基于匹配指纹242或其它准则从与视频内容项目相关联的实体数据库中选择实体。所选实体可以是在匹配指纹242中引用的实体的子集(例如，实体模块144选择在匹配指纹242中引用的实体中的最流行的)。

概要模块146生成视频内容的概要。概要包括相对于视频内容项目或相对于定义的时间段而言流行的视频内容项目中的实体。

引文模块148从视频内容本身(例如，使用字幕数据)并从非视频内容(例如，在网页和社交网络中的提及、共享以及评论)识别视频内容中的引文。

流行度模块150确定并更新实体数据库122中的实体的流行度。

在某些实施方式中，概要信息146、引文模块148以及流行度模块150是实体模块144的子模块。

上述元件中的每一个可被存储在先前提及的存储器设备中的一个或多个中，并且模块或程序中的每一个对应于用于执行上述功能的指令集。该指令集可以被一个或多个处理器(例如，CPU 202)执行。上文识别的模块或程序(即，内容识别模块118)不需要被实现为单独的软件程序、程序或模块，并且因此在各种实施方式中可将这些模块的各种子集组合或者另外重新布置。在某些实施方式中，存储器206可存储上文识别的模块和数据结构的子集。此外，存储器206可存储上文未描述的附加模块和数据结构。

虽然图2示出了服务器系统，但图2更多地意图作为可存在于一组服务器中的各种特征的功能描述而不是作为本文中所述的实施方式的结构示意图。在实践中，并且如本领域的技术人员认识到的，单独示出的项目可以被组合，并且某些项目可以被分离。例如，在图2中单独示出的某些项目(例如，操作系统216和网络通信模块218)可以在单个服务器上实现，并且单个项目可以由一个或多个服务器实现。用来实现服务器系统106的服务器的实际数目和特征在其之间如何分配将根据不同的实施方式而不同，并且可部分地取决于系统在峰值使用时段期间以及在平均使用时段期间必须处理的数据业务的量。

图3A是根据某些实施方式的图示出客户端设备102的框图。客户端设备102通常包括一个或多个处理单元(CPU)302、一个或多个网络或其它通信接口308、存储器306以及用于将这些组件互连的一个或多个通信总线304。通信总线304可选地包括将系统组件互连并控制系统组件之间的通信的电路(有时称为芯片组)。客户端设备102还可以包括用户接口，其包括显示设备313和键盘和/或鼠标(或其它指示设备)314。存储器306包括高速随机存取储器，诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器设备；并且可包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其它非易失性固态存储设备。存储器306可以可选地包括位于远离CPU 302处的一个或多个存储设备。存储器306或者替换地存储器306内的非易失性存储器设备包括非临时计算机可读存储介质。在某些实施方式中，存储器306或存储器306的计算机可读存储介质存储以下程序、模块和数据结构或其子集，包括操作系统316、网络通信模块318、视频模块110和数据320。

客户端设备102包括用于接收和输出视频流的视频输入端/输出端330。在某些实施方式中，视频输入端/输出端330被配置成从无线电传输、卫星传输和线缆线路接收视频流。在某些实施方式中，视频输入端/输出端330被连接到机顶盒。在某些实施方式中，视频输入端/输出端330被连接到卫星天线。在某些实施方式中，视频输入端/输出端330被连接到天线。在某些实施方式中，客户端设备102通过网络接口308来接收视频流(例如，通过因特网来接收视频流)，与通过视频输入端相反。

在某些实施方式中，客户端设备102包括用于接收视频流或TV信号的电视调谐器332。

操作系统316包括用于处理各种基本系统服务且用于执行硬件相关服务的程序。

网络通信模块318经由一个或多个通信网络接口308(有线或无线)和一个或多个通信网络(诸如因特网、其它广域网、局域网、城域网等)来有助于与其它设备的通信。

数据320包括视频流126。

视频模块126从视频流126导出内容信息142。在某些实施方式中，内容信息142包括音频信息224、视频信息226、用户标识符229或其任何组合。用户标识符229识别客户端设备102的用户。例如，用户标识符229可以是与客户端设备102相关联的IP地址，或者由用户选择或由服务器分配的唯一识别用户的字母数字值。在某些实施方式中，音频信息224包括视频流或音频流的剪辑(诸如几秒、几分钟或几小时)。在某些实施方式中，视频信息226可以包括视频流的剪辑(诸如几秒、几分钟或几小时)。在某些实施方式中，内容信息142包括对应于视频流的字幕数据。在某些实施方式中，视频信息226和音频信息224是从在客户端102上播放或已播放的视频流126导出的。视频模块126可生成用于相应视频流346的内容信息142的多个集合。

上述元件中的每一个可被存储在先前提及的存储器设备中的一个或多个中，并且模块或程序中的每一个对应于用于执行上述功能的指令集。该指令集可以被一个或多个处理器(例如，CPU 302)执行。上文识别的模块或程序(即，指令集)不需要被实现为单独的软件程序、程序或模块，并且因此在各种实施方式中可将这些模块的各种子集组合或者另外重新布置。在某些实施方式中，存储器306可存储上文识别的模块和数据结构的子集。此外，存储器306可存储上文未描述的附加模块和数据结构。

虽然图3A示出了客户端设备，但图3A更多地意图作为可存在于客户端设备中的各种特征的功能描述而不是作为本文中所述的实施方式的结构示意图。在实践中，并且如本领域的技术人员认识到的，单独示出的项目可以被组合，并且某些项目可以被分离。

图3B是根据某些实施方式的图示出客户端设备140的框图。客户端设备140通常包括一个或多个处理单元(CPU)340、一个或多个网络或其它通信接口345、存储器346以及用于将这些组件互连的一个或多个通信总线341。通信总线341可选地包括将系统组件互连并控制系统组件之间的通信的电流(有时称为芯片组)。客户端设备140还可以包括用户接口，其包括显示设备343和键盘和/或鼠标(或其它指示设备)344。存储器346包括高速随机存取储器，诸如DRAM、SRAM、DDR RAM或其它随机存取固态存储器设备；并且可包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备或其它非易失性固态存储设备。存储器346可以可选地包括位于远离CPU 340处的一个或多个存储设备。存储器346或者替换地存储器346内的非易失性存储器设备包括非临时计算机可读存储介质。在某些实施方式中，存储器346或存储器346的计算机可读存储介质存储以下程序、模块和数据结构或其子集，包括操作系统347、网络通信模块348、图形模块349以及应用程序355。

操作系统347包括用于处理各种基本系统服务且用于执行硬件相关服务的程序。

网络通信模块348经由一个或多个通信网络接口345(有线或无线)和一个或多个通信网络(诸如因特网、其它广域网、局域网、城域网等)来有助于与其它设备的通信。

客户端设备140包括一个或多个应用程序355。在某些实施方式中，应用程序355包括浏览器应用程序355-1、媒体应用程序355-2以及辅助应用程序355-3。浏览器应用程序355-1显示网页。媒体应用程序355-2播放视频和音乐、显示图像并管理播放列表356。辅助应用程序(其也称为“智能个人助理”应用程序)355-3显示目前与用户有关的信息(例如，由服务器106提供的与用户正在观看的视频有关的实体357；即将到来的约会；要行进的路线上的交通)，并且执行与用户有关或者用户所请求的任务或服务(例如，发送警告以通知朋友去晚饭约会的迟到、日程更新、呼叫饭店)。应用程序328不限于上文所讨论的应用程序。

上述元件中的每一个可被存储在先前提及的存储器设备中的一个或多个中，并且模块或程序中的每一个对应于用于执行上述功能的指令集。该指令集可以被一个或多个处理器(例如，CPU 340)执行。上文识别的模块或程序(即，指令集)不需要被实现为单独的软件程序、程序或模块，并且因此在各种实施方式中可将这些模块的各种子集组合或者另外重新布置。在某些实施方式中，存储器306可存储上文识别的模块和数据结构的子集。此外，存储器306可存储上文未描述的附加模块和数据结构。

虽然图3B示出了客户端设备，但图3B更多地意图作为可存在于客户端设备中的各种特征的功能描述而不是作为本文中所述的实施方式的结构示意图。在实践中，并且如本领域的技术人员认识到的，单独示出的项目可以被组合，并且某些项目可以被分离。

图4图示出根据某些实施方式的存储在实体数据库122中的实体数据结构426。相应实体428包括实体标识符(实体ID)448、实体类型450、实体名称452、对其它实体的引用454、对非实体的引用458、流行度度量460以及可选地附加信息。在某些实施方式中，实体ID 448唯一地识别相应实体428。实体类型450识别实体428的类型。例如，用于实体数据库122中的相应实体428的实体类型450指示相应实体428是标题、人、地点、音乐、事物、产品、引文以及奖项。在某些实施方式中，实体类型450还指示子类型(例如，对于人而言，演员或剧组或角色或竞争者或裁判或主持人或嘉宾或提及的人)。实体名称452对实体命名。例如，根据实体，实体名称是电影或电视演出的标题、人名、地名、歌曲或音乐名称、事物的名称、产品名称、引文的实际言词或奖项名称。对其它实体的引用454指示对其它实体428的引用(例如，通过它们的实体ID 448)。例如，对应于电影标题的实体428包括对电影的演员表成员、剧组成员、角色、地点等的引用454。引文实体包括对在其中说出引文的视频内容(电影、电视演出等)以及在视频内容中说出引文的人(演员、角色等)的引用。在适当时，对其它实体的引用包括关于其它实体出现或被提及的时刻456的数据。例如，用于电影标题实体的时刻456数据包括用于演员表成员或角色何时出现或者产品何时被提及等时间范围。对非实体458的引用包括对并未作为实体存储在实体数据库122中但是与实体428有关的内容(例如，到提及实体的网页的链接)的引用。流行度度量460提供实体文件428的重要性的度量。在某些实施方式中，度量460由流行度模块150确定。在某些实施方式中，流行度度量包括历史和实时流行度两者。

显示引文

图5是图示出根据某些实施方式的在第二设备上显示与在第一设备上播放的内容有关的引文内容的过程500的流程图。图5提供了在图10A-11的讨论中更详细地讨论的方法1000和1100的总体视图。视频内容系统112向客户端102发送视频流(501)。视频流被客户端设备102接收并显示(502)。在视频流被播放的同时，来自视频流的内容信息被确定并被发送到服务器106(506)。如在本申请中的别处所述，在某些实施方式中，来自视频流的内容信息包括视频流的音频和/或视频组件的一个或多个剪辑(诸如几秒、几分钟或几小时)或相应字幕数据，或者由客户端设备102从视频流的音频和/或视频组件的一个或多个剪辑(诸如几秒、几分钟或几小时)或相应字幕数据生成的指纹或其它特征。在某些实施方式中，内容信息被格式化，因此其可以被容易地与存储在服务器上的内容指纹相比较。服务器106接收内容信息并将该内容信息与内容指纹匹配(508)。

在某些实施方式中，在视频流被播放的同时，客户端设备140从来自客户端设备102的与视频流的音频组件相对应的音频输出确定内容信息(例如，客户端140上的麦克风从客户端102拾取音频输出)。客户端140确定内容信息并将该内容信息发送到服务器106；客户端140代替客户端102执行步骤506。

在某些实施方式中，内容指纹由服务器(例如，使用指纹生成模块221)在运行时间之前从由第三方用户上传的媒体内容(例如，音频和/或视频剪辑，或者视频帧)生成。在某些实施方式中，内容指纹由服务器(例如，使用指纹生成模块221)实时地(例如，直播)或者在运行时间之前从已从视频内容系统112接收到的媒体内容(例如，音频和/或视频剪辑，或者视频帧)生成。

确定与匹配指纹相关联的一个或多个引文以及可选地一个或多个其它实体(512)；引文是在视频内容中说出的台词或短语，并且其它实体可以包括在视频内容中说出引文的演员/角色。在某些实施方式中，所确定的引文是用于视频内容项目的最流行引文或者接近于正在呈现的视频内容项目的部分。如本文所使用的接近于视频内容项目的部分意指在时间上接近于视频内容项目内的当前呈现部分。例如，如果视频内容项目正在20:00标记处播放，则接近于20:00标记的引文或者包括此类引文的部分将包括从20:00标记起在定义时间范围内(例如，加/减15分钟)说出的引文。引文、一个或多个相应可视线索(affordances)以及可选地其它实体被发送到客户端140(514)。在某些实施方式中，引文和可视线索被直接地、经由客户端到通信网络104的连接或者间接地、经由客户端140与客户端102之间的连接而被发送到客户端140。在某些实施方式中，作为向客户端140发送可视线索的替代，服务器106向被配置成呈现引文及其它实体的应用程序(例如，辅助应用程序355-3，图3B)发送指令来生成，并在客户端140处呈现相应可视线索。客户端设备140接收引文、可视线索以及可选地其它实体(516)。呈现引文和可视线索以及可选地其它实体(518)。在某些实施方式中，在时间方面与由客户端102播放的视频路126相协调地在与客户端设备140相关联的显示设备128上显示一个或多个引文和可视线索。例如，呈现的引文包括在视频中的当前呈现位置前面的预定义的时间段(例如，从当前位置起最后半小时)内已说出的引文。在某些实施方式中，引文包括在视频流中的当前呈现位置之后的引文。这些即将到来的引文可被阻止显示直至该即将到来的引文被说出的视频中的位置被呈现为止，以避免针对用户扰乱视频内容的剧情。

可视线索包括用于激活对相应引文的各种操作或动作的可视线索。在某些实施方式中，相应可视线索对应于相应动作；用户选择引文且然后激活相应可视线索以激活用于选择的引文的相应动作。在某些其它实施方式中，每个所显示引文具有一个或多个可视线索的相应集合；用户激活用于相应引文的可视线索，以激活用于相应引文的动作菜单或激活用于相应引文的动作。下面进一步描述相对于引文可以被激活的动作和操作。

显示流行实体的概要

图6是图示出根据某些实施方式的在第二设备上显示与在第一设备上播放的内容有关的概要的过程600的流程图。图6提供了在图12-13的讨论中更详细地讨论的方法1200和1300的总体视图。视频内容系统112向客户端102发送视频流(601)。视频流被客户端设备102接收并显示(602)。在视频流被播放的同时，来自视频流的内容信息被确定并被发送到服务器106(606)。如在本申请中的别处所述，在某些实施方式中，来自视频流的内容信息包括视频流的音频和/或视频组件的一个或多个剪辑(诸如几秒、几分钟或几小时)或相应字幕数据，或者由客户端设备102从视频流的音频和/或视频组件的一个或多个剪辑(诸如几秒、几分钟或几小时)或相应字幕数据生成的指纹或其它特征。在某些实施方式中，内容信息被格式化，因此其可以被容易地与存储在服务器上的内容指纹相比较。服务器106接收内容信息并将该内容信息与内容指纹匹配(608)。

在某些实施方式中，在视频流被播放的同时，客户端设备140从来自客户端设备102的与视频流的音频组件相对应的音频输出确定内容信息(客户端140上的麦克风从客户端102拾取音频输出)。客户端140确定内容信息并将该内容信息发送到服务器106；客户端140代替客户端102执行步骤606。

在某些实施方式中，内容指纹由服务器(例如，使用指纹生成模块221)在运行时间之前从由第三方用户上传的媒体内容(例如，音频和/或视频剪辑或者视频帧)生成。在某些实施方式中，内容指纹由服务器(例如，使用指纹生成模块221)实时地(例如，直播)或者在运行时间之前从已从视频内容系统112接收到的媒体内容(例如，音频和/或视频剪辑或者视频帧)生成。

确定与匹配指纹相关联的概要(612)；该概要包括用于视频内容项目的最流行实体。该概要被发送到客户端140(614)。在某些实施方式中，概要被直接地、经由客户端到通信网络104的连接或者间接地、经由客户端140与客户端102之间的连接而被发送到客户端140。客户端设备140接收该概要(616)。该概要被呈现(618)。在某些实施方式中，在由客户端102进行的视频流126的呈现已完成之后(例如，在视频内容项目结束时)在显示设备128上显示该概要。在某些其它实施方式中，在并非取决于任何特定视频内容项目的呈现或呈现结束的时间呈现该概要。

用于显示引文的示例性UI

图7A、7B和7C图示出根据某些实施方式的示例性截屏。图7A、7B和7C每个图示出第一客户端102和第二客户端140的截屏。第一客户端102播放视频内容，而第二客户端140播放与在第一客户端102上播放的视频内容有关的引文内容。图7A、7B和7C中的图示本质上应被示为示例性而非限制性的。在某些实施方式中，该示例性截屏通过响应于服务器106将客户端指纹与存储在服务器上的内容指纹匹配由服务器106通过下载到第二客户端设备140的指令/应用程序来生成。在某些实施方式中，该示例性截屏是响应于服务器106将客户端指纹与存储在服务器上的内容指纹匹配，响应于来自服务器106的用以显示特定内容的指令，由存储在第二客户端设备140上的指令/应用程序(诸如浏览器、辅助应用程序或其它预配置应用程序)生成。

图7A图示出第一客户端设备102和第二客户端设备140的截屏。第一客户端102显示电视连续剧剧集702且第二客户端140显示应用程序706(例如，辅助应用程序)、剧集702中的一个或多个引文708以及对应于相应引文708的可视线索710。在剧集702在第客户端102上播放的同时，第一客户端102将从剧集702导出的内容信息发送到服务器系统106。替换地，第二客户端140将从来自第一客户端102的对应于剧集702的音频输出导出的内容信息发送到服务器系统。服务器系统106将内容信息与内容指纹匹配以便识别剧集702。在识别到与内容信息匹配的内容指纹之后，服务器106确定与剧集702(在剧集中说出)有关的一个或多个引文，并将该引文和相应可视线索发送到第二客户端设备140用于呈现。第二客户端设备140呈现引文708和相应可视线索710。引文708还包括用于该引文何时在剧集702中被说出的相应时间戳。在某些实施方式中，连同引文和可视线索一起发送附加信息(例如，说出引文的实体)。

在某些实施方式中，用户选择引文(例如，通过点击或敲击引文708)以调出关于引文的附加信息。例如，如果选择了引文708-2，则用于引文708-2的方框扩大以显示附加信息，如图7B中所示。在用于引文708-2的扩大方框中，呈现与引文相关联的更多信息，诸如在剧集702中说出引文的实体(演员、角色)。

用户可以选择用于引文708-1的可视线索710以调出相对于引文的动作的菜单712，如图7C中所示。菜单712包括可以被激活的对引文708-1的各种动作。例如，用户可以请求看到关于引文708-1的更多实体(并使那些实体显示于显示器上)、共享引文708-1(例如，在社交网络172中、通过电子邮件、通过文本消息等)、播放包括引文708-1的视频剪辑(例如，剧集702的一部分)、在搜索引擎174中搜索引文708-1(例如，将引文708-1作为查询提交到搜索引擎174)、在搜索引擎174中搜索关于引文708-1的实体(例如，说出引文的演员或角色、在其中说出该引文的剧集和连续剧)、对引文708-1进行评论以及指示对剧集702的兴趣并将引文708-1包括在兴趣的指示中。在某些实施方式中，评论动作的激活触发在第二客户端140处的显示器上显示文本输入界面以便输入关于引文708-1的评论，其可以被存储在服务器系统106处。在某些实施方式中，兴趣动作指示的激活触发用于剧集702的兴趣指示(例如，赞、状态发布)到社交网络172的提交，并且该兴趣指示包括引文708-1。

用于显示流行实体的概要的示例性UI

图8A和8B图示出根据某些实施方式的示例性截屏。图8A图示出第一客户端102和第二客户端140的截屏，并且图8B图示出第二客户端140的截屏。在图8A中，第一客户端102播放视频内容，并且在第一客户端102处播放视频内容之后，第二客户端140显示与在第一客户端102上播放的视频内容有关的实体的概要。在图8B中，第二客户端140显示相对于定义的时间段的关于视频内容的实体的概要。图8A和8B中的图示本质上应被示为示例性而非限制性的。在某些实施方式中，该示例性截屏是由被服务器106下载到第二客户端设备140的指令/应用程序生成的。在某些实施方式中，该示例性截屏由存储在第二客户端设备140上的指令/应用程序(诸如浏览器、辅助应用程序或其它预配置应用程序)生成。

图8A图示出第一客户端设备102和第二客户端设备140的截屏。第一客户端102显示电视节目802。在节目802的回放结束之后，第二客户端140显示应用程序806(例如，辅助应用程序)、与节目802有关的一个或多个实体(例如，按流行度的节目802中的前5个人)以及对应于相应实体808的可视线索810。在节目802在第一客户端102上播放的同时，第一客户端102将从节目802导出的内容信息发送到服务器系统106。替换地，第二客户端140将从来自第一客户端102的对应于节目802的音频输出导出的内容信息发送到服务器系统。服务器系统106将内容信息与内容指纹匹配以便识别节目802。在识别到与内容信息匹配的内容指纹之后，服务器106确定与节目802相关联的一个或多个实体，并确定其流行度(例如，基于在社交网络和网页中的提及次数)。在节目802完成播放之后，服务器系统106将概要连同最流行实体808(例如，前5名)和相应的可视线索810一起发送到第二客户端设备140以用于呈现。第二客户端设备140呈现实体808和相应的可视线索810。用户可以选择可视线索810以调出相对于相应实体的动作的菜单，如同图7A-7C中的可视线索710一样。

在某些实施方式中，针对概要所选择的最流行实体是总体上最流行的，而不是针对用户的兴趣和偏好和历史的任何个性化。在某些实施方式中，针对概要所选择的最流行实体是将用户的兴趣和偏好和历史以及总体上的流行度考虑在内最流行的。

图8B图示出第二客户端设备140的截屏。服务器系统106确定与已经在定义的时间段内呈现给用户的视频内容相关联的实体的流行度。服务器系统106将概要连同用于该时间段的最流行实体812(例如，前5名)和相应的可视线索814一起发送到第二客户端设备140以用于呈现。第二客户端设备140呈现实体812和相应的可视线索814。用户可以选择可视线索814以调出相对于相应实体的动作的菜单，如同图8A中的可视线索810一样。

应认识到的是如本文所使用的实体(例如，引文等)的“流行度”不仅仅指的是对实体的肯定或赞许的兴趣，而且还可以更一般地指代对实体的兴趣，如提及、共享以及查询的次数及任何其它适当准则所指示的。因此，流行度度量460是对实体的兴趣水平的度量。

识别并存储引文

图9图示出根据某些实施方式的用于识别和存储引文的方法900。在具有一个或多个处理器和存储器的服务器系统106处执行方法900。

从多个文档识别与媒体内容相关联的多个引文(902)。服务器106(例如，引文模块148)分析由内容主机170和社交网络172托管的文档(或者更一般地，任何文本内容)，以识别与媒体内容项目以及更具体地视频内容(诸如电影和电视节目及在线视频)相关联的引文。被分析的文档或内容的示例包括网页和社交网络简档、时间线以及馈送内容。在某些实施方式中，所分析的文档包括特定类型的文档，诸如具有编辑回顾、社交评论以及引用电视演出和电影的其它在线文章和文档的网页。在某些实施方式中，这些特定种类的文档是从被作为具有这些类型的文档而列入白名单的内容主机提取的。服务器系统106分析文档以找到对视频内容引文的引用和引文本身。

识别与引文相关联的相应媒体内容项目(906)。服务器系统106识别引文来自的视频内容，即在其中说出该引文的视频内容。

在某些实施方式中，识别与引文相关联的相应媒体内容项目包括将引文与关联于相应媒体内容项目的字幕数据匹配(908)。服务器系统106针对视频内容的字幕数据而匹配从文档识别的引文。匹配指示引文与匹配字幕数据对应于的视频内容项目相关联。

根据一个或多个流行度准则来确定引文的相应的流行度度量(910)。在某些实施方式中，流行度准则包括以下各项中的一个或多个：相应引文的搜索查询量、相应引文在社交网络中的提及次数以及包括相应引文的文档的数目(912)。服务器系统106确定用于每个识别的引文的流行度度量460。流行度模块150基于许多准则来确定引文的流行度。该准则包括：多少用户已在搜索引擎174中搜索引文(引文的搜索量)、引文在社交网络172中(例如，在社交媒体帖子和推特中)被提及多少次以及包括相应引文的文档(例如网页)的数目。在某些实施方式中，分析在步骤902中被用来识别引文的相同文档等以确定用于引文的流行度度量。在某些实施方式中，在测量引文的流行度时，对引文在特定类型的内容中的提及，诸如上文参考步骤902所述的特定类型的文档(编辑回顾等)，给定附加权值。

在某些实施方式中，流行度模块150还实时地确定引文的流行度。例如，针对引文的提及和共享和用于引文的搜索查询等分析文档及其它内容可以检测哪些引文具有流行度方面的最近峰值或其它最近趋势及引文的流行度的变化。

将相应引文与相应媒体内容项目之间的关联以及引文的相应的流行度度量存储在实体储存库中(914)。引文被作为实体428存储在实体数据库122中。每个引文实体包括对其它实体454的引用，其指示引文与被引用实体之间的关联。每个引文实体还包括如在步骤910中确定的用于引文的流行度度量460，并且其可以被周期性地更新。

在某些实施方式中，针对相应媒体内容项目，将与媒体内容项目相关联的一个或多个实体和与相应媒体内容项目相关联的相应引文之间的关联存储在实体数据库中(916)。如上所述，实体数据库122针对实体存储对其它实体的引用，其指示实体之间的关联。在某些实施方式中，这映射到映射实体之间的连接的实体数据库122内的图表数据结构。实体数据库122包括对应于视频内容项目的实体，其包括对与跟视频内容项目相关联的人(例如，演员、嘉宾等)相对应的实体的引用。针对与视频内容项目相关联的在视频内容项目中说出对话的人的子集，它们相应的人实体包括对与由人的此子集说出的引文相对应的实体的引用。因此，实体数据库122针对相应视频内容项目存储与视频内容项目相关联的实体(例如，人实体)和与视频内容项目相关联的引文之间的关联。

识别引文以呈现

图10A-10B图示出根据某些实施方式的用于识别引文以用于呈现的方法1000。在具有一个或多个处理器和存储器的服务器系统106处执行方法1000。

识别当前接近于第一用户所呈现的媒体内容项目(1002)。服务器系统106从客户端102或140接收内容信息142。内容信息142对应于正在客户端102上呈现的媒体内容项目(例如，视频内容项目)。假设用户接近于客户端102以能够观看视频内容项目，即使他实际上不在观看该视频内容项目。并且，如上所述，可以从来自客户端102的对应于视频内容项目的音频组件且被客户端140上的麦克风感知的音频输出导出内容信息142。假设用户在客户端140附近(例如，将客户端140握在他的手中)，客户端140可以在正在客户端102上播放视频内容项目的同时感知来自客户端102的音频输出是正在接近于用户呈现视频内容项目的指示。

在某些实施方式中，媒体内容项目的识别使用指纹(例如，将内容信息与指纹数据库120中的指纹相比较)。此外，在2011年6月30日提交的题为“Methods for Displaying Content on a Second Device that is Related to the Content Playing on a First Device(用于在第二设备上显示与在第一设备上播放的内容有关的内容的方法)”的美国专利申请No.13/174,612中描述了关于使用指纹来识别内容的更多细节，该专利申请被整体地通过引用并入本文中。

在某些实施方式中，识别当前正在接近于第一用户呈现的媒体内容项目包括确定正在接近于第一用户呈现媒体内容项目的一部分(1004)。服务器系统106可以不仅识别正在客户端102上播放视频内容项目，而且识别正在客户端102上播放哪个部分(例如，视频内容项目中的什么位置正在呈现、与视频内容项目的开头或结尾相距多远)。确定当前正在呈现的部分作为步骤1002中的媒体内容项目识别过程的一部分；服务器系统106识别媒体内容项目是什么和当前在媒体内容项目中的什么位置进行呈现。

识别与媒体内容项目相关联的实体储存库中的一个或多个第一引文，其中，该第一引文根据一个或多个流行度准则而被确定为是流行的(1006)。服务器系统106从实体储存库122识别并选择一个或多个引文。这些引文与媒体内容项目相关联；这些引文是媒体内容项目内的说出的对话的一部分。所选引文是基于由服务器系统106确定的引文的流行度度量460而与媒体内容项目相关联的最流行引文。根据一个或多个准则来确定流行度度量。

在某些实施方式中，流行度准则包括以下各项中的一个或多个：第一用户对相应引文的搜索查询量、相应引文的总计搜索查询量、相应引文在社交网络中的提及次数以及包括相应引文的预定义种类的文档的数目(1008)。用于确定引文的流行度的准则包括以下各项中的一个或多个：用户总计执行了多少对引文的搜索(搜索量)、引文在文档(例如网页)中被提及多少次和引文在社交网络中被共享多少次。相对于在文档中的提及，在某些实施方式中，服务器系统106对引文在预定义种类的文档，诸如包含编辑回顾、社交评论的网页或引用电影和电视的其它网页，中的提及更重地加权；预定义种类文档的文档中的提及比在该预定义种类之外的文档中的提及朝着引文的流行度的更多的加权。

在某些实施方式中，流行度准则包括一个或多个实时准则(1010)。服务器系统106可以基于一个或多个实时准则而来确定引文的实时流行度。实时准则可以简单地是利用最近时间范围所考虑的任何上述准则(例如，在步骤1008中描述的准则)。例如，实时地测量的搜索量可以包括在最后15分钟内的搜索量或者每分钟的搜索量。实时准则提供引文流行度，即引文的实时流行度，的最近变化的度量，诸如趋势和峰值。

在某些实施方式中，第一引文根据流行度准则而被实时地确定为是流行的(1012)。服务器系统106实时地识别并选择流行的与媒体内容项目相关联的引文。在某些实施方式中，服务器系统106在选择引文时考虑历史和实时流行度两者，并且将一个比另一个更多地加权。请注意，用于识别流行引文的本文中所述的这种及其它方法也适用于识别其它类型的流行实体。

在某些实施方式中，第一引文在媒体内容项目内接近于正在接近第一用户呈现的媒体内容项目的部分(1014)。服务器系统106在确定正在呈现的媒体内容项目的部分(表示当前回放位置)(1004)之后识别并选择接近于该部分(并且如上文所述的是流行的)的引文。如果引文是从当前回放位置开始的预定义时间内说出的，则引文接近于该部分。例如，可以将在从当前回放位置开始最后15分钟内说出的引文视为接近于该部分。

在某些实施方式中，“接近于”正在呈现的部分的引文包括在媒体内容项目中的当前位置之后的一定时间范围内说出的引文。服务器系统106可以识别媒体内容项目中的即将到来的引文，下面描述其更多细节。

第一引文和与第一引文相关联的一个或多个可视线索被发送到与第一用户相关联的客户端设备(1016)。服务器系统106将实体信息132发送到与用户相关联的客户端140。实体信息112包括所选引文708和相应可视线索710。客户端140显示引文708和相应可视线索710。

接收可视线索中的第一可视线索的选择，其中，第一可视线索与第一引文的相应引文相关联(1018)。在客户端140处，用户选择对应于引文中的一个的可视线索710(例如，对应于引文708-1的可视线索710)，如图7B中所示。其打开用于执行与引文708-1相关联的动作的选项712的菜单(例如，可视线索)，如图7C中所示。用户选择菜单712中的选项可视线索中的一个，并且客户端140将该选择发送到服务器系统106。

根据第一可视线索的选择，执行与相应引文相关联的操作(1020)。服务器系统106根据所选可视线索执行动作。例如，如果用户已选择了“共享引文”选项，则服务器系统106发帖子，该帖子在社交网络174中共享引文708-1，用户在该社交网络174中具有账号且服务器系统106已被用户给与了代表用户对帖子的访问。

在某些实施方式中，每个相应可视线索提供用于与第一引文中的相应的一个相交互的一个或多个选项(10220)。例如，当菜单712中的选项可视线索被选择时，可显示与所选选项有关的附加选项，并且用户可以选择任何的附加选项。

在某些实施方式中，执行与相应引文相关联的操作包括以下各项中的任何一个：向客户端设备发送与相应引文有关的信息以便在客户端设备处显示；共享相应引文；向客户端设备发送包括相应引文的媒体片断以便在客户端设备处显示；发起具有相应引文作为搜索查询的搜索；发起针对与相应引文有关的实体的搜索；向客户端设备提供文本输入界面，其被配置成接收关于相应引文的评论的输入；或者共享媒体内容项目中的兴趣的指示，该兴趣指示包括相应引文作为字幕(1024)。通过选择菜单712中的任何选项，用户可以命令服务器桶106将与引文有关的附加信息(例如，实体)发送到客户端140用于显示，共享引文(在社交网络上、通过电子邮件、通过消息等)，向客户端140发送包括引文的视频剪辑，以引文作为查询执行搜索，以与引文有关的实体(例如，说出引文的角色)作为查询执行搜索，命令客户端设备140显示用于输入关于引文的评论的文本输入界面或者共享包括引文的视频内容项目中的兴趣的指示。

在某些实施方式中，识别与在正在接近于第一用户呈现的部分之后的媒体内容项目的部分相关联的一个或多个第二引文(1026)，检测接近于第一用户的后续部分的呈现(1028)，并且根据后续部分的呈现的检测，将第二引文和与第二引文相关联的一个或多个可视线索发送到与第一用户相关联的客户端设备(1030)。如上所述，视频内容项目中的接近于当前位置的引文可以包括在当前位置之后(即，在被呈现的当前部分之后)的时间范围内说出的引文。服务器系统106识别这些“即将到来的”引文，并且等待将其发送到客户端设备140直至在客户端102处到达这些引文实际上被说出的部分为止。当服务器系统106检测到正在客户端102处呈现“即将到来的”引文的部分时，该“即将到来的”的引文被发送到客户端设备140。因此，服务器系统106可以“预取”视频内容项目中的稍后到来的引文，但是将其阻止直至其实际上在视频内容项目中被说出为止，以免对于用户而言扰乱视频。

呈现引文

图11图示出根据某些实施方式的用于呈现引文的方法1100。在客户端140或182处执行方法1000。

检测当前接近于第一用户所呈现的媒体内容项目(1102)。例如，客户端设备140处的麦克风感知来自客户端102的音频输出。客户端设备140处的应用程序127从该音频输出导出内容信息142并将内容信息142发送到服务器系统106，在那里，针对指纹数据库120中的指纹匹配内容信息142以识别音频输出对应于的视频内容项目。服务器106识别并选择与视频内容项目相关联且被服务器系统106确定为流行(例如，具有高流行度度量460)的引文。这些引文708和相应可视线索710被发送到客户端140。

显示与媒体内容项目相关联的一个或多个流行引文和一个或多个相应可视线索，其中，每个可视线索提供用于与流行引文中的相应的一个相交互的一个或多个选项(1104)。客户端设备140接收并显示引文708和相应可视线索710。每个可视线索710在被激活时打开选项(其本身是可视线索)的菜单712以便与相应引文708相交互。

接收对应于相应流行引文的第一可视线索的用户激活(1106)。根据第一可视线索的激活，执行与相应流行引文相关联的操作(1108)。用户选择选项菜单712中的选项可视线索，其选择被客户端设备140接收到。客户端设备140与服务器系统106相结合地执行对应于所选可视线索的动作或操作。例如，如果动作是共享引文，则服务器106在社交网络中共享引文，并且在客户端设备140上显示共享过程。

在某些实施方式中，执行与相应流行引文相关联的操作包括以下各项中的任何一个：显示与相应流行引文有关的信息；共享相应流行引文；显示包括相应流行引文的媒体片断；发起以相应流行引文作为搜索查询的搜索；发起针对与相应流行引文有关的实体的搜索；显示被配置成接收关于相应流行引文的评论的输入的文本输入界面；或者共享媒体内容项目中的兴趣的指示，该兴趣的指示包括相应流行引文作为字幕(1110)。通过选择菜单712中的任何选项，用户可以与服务器系统106相结合地命令客户端设备140向客户端140发送与引文有关的附加信息(例如，实体)以用于显示，共享引文(在社交网络上、通过电子邮件、通过消息等)，向客户端140发送包括引文的视频剪辑，以引文作为查询来执行搜索，以与引文有关的实体(例如，说出引文的角色)作为查询来执行搜索，命令客户端设备140显示用于输入关于引文的评论的文本输入界面，或者共享包括该引文的视频内容项目中的兴趣的指示。

生成内容概要

图12图示出根据某些实施方式的用于生成媒体内容项目的概要的方法1200。在具有一个或多个处理器和存储器的服务器系统106处执行方法1200。

检测媒体内容项目的呈现(1202)。识别媒体内容项目和与媒体内容项目有关的一个或多个实体(1204)。当正在客户端102处呈现视频内容项目时，客户端102或客户端140将内容信息142发送到服务器106。服务器106使用内容信息142来识别视频内容项目。服务器106还识别与视频内容项目相关联的一个或多个实体。

基于一个或多个信号来确定识别的实体中的相应兴趣水平(1206)。服务器106使用一个或多个信号或准则来确定用于识别的实体的兴趣(例如，流行度度量460)的水平。服务器106确定总计的这些兴趣水平。

在某些实施方式中，一个或多个信号包括以下各项中的一个或多个：相应实体在文档中的相应提及量、用于相应实体的相应查询量；用于相应媒体内容项目的相应查询量、用户的查询历史的总计以及用户的媒体消费的历史的总计(1208)。用于确定兴趣水平的信号或准则包括用于实体和用于媒体内容项目的搜索量、用户的查询历史的总计以及用户已消费了什么媒体内容项目的历史的总计。其它可能信号包括上文关于用于引文的流行度的确定描述的信号，诸如在文档中的提及次数和在社交网络中的共享。

在某些实施方式中，信号包括以下各项中的一个或多个：用户的位置、用户的人口统计特性、用户的查询历史以及用户的媒体消费历史(1210)。信号可包括用户所特定的信号，诸如位置、用户的人口统计信息、用户的查询历史以及用户的媒体内容项目消费的历史。

在某些实施方式中，基于一个或多个信号来确定识别的实体中的相应兴趣水平包括相对于用户确定识别的实体中的相应兴趣水平。当连同其它信号(例如，上文在步骤1208中确定的那些)一起使用在步骤1210中描述的用户特定信号时，服务器106可以确定相对于用户的以及总计的用于实体的兴趣水平。

基于所确定的兴趣水平来选择实体的子集(1214)。服务器106选择与媒体内容项目相关联的具有高总计兴趣水平(例如，兴趣水平中的前5名)的实体。

在某些实施方式中，选择实体的子集包括基于相对于用户确定的兴趣水平来选择实体的子集(1216)。服务器106可以选择与视频内容项目相关联的用户最感兴趣的实体，而不是具有高的总计兴趣水平的那些。替换地，服务器106在选择实体时考虑用户的和总计的兴趣水平两者，但是对用户的兴趣水平更高地加权。总之，服务器106以针对用户更加个性化的方式选择实体。

所选的实体的子集被发送到用户的客户端设备以便在客户端设备处呈现(1218)。所选实体808被作为媒体内容项目802的概要而发送到客户端设备140以便在客户端设备140处显示。

图13图示出根据某些实施方式的用于相对于时间段而生成媒体内容项目的概要的方法1300。在具有一个或多个处理器和存储器的服务器系统106处执行方法1300。

检测多个媒体内容项目的呈现(1302)。识别媒体内容项目和针对每个相应媒体内容项目的与相应媒体内容项目有关的一个或多个实体(1304)。当正在用户的客户端设备上呈现视频内容项目时，客户端设备(例如，客户端102或140)将用于视频内容项目的内容信息142发送到服务器106。服务器106使用内容信息142来识别视频内容项目。服务器106还识别与每个相应的识别的视频内容项目相关联的一个或多个实体。

基于一个或多个信号而相对于定义的时间段确定识别的实体中的相应兴趣水平(1306)。服务器106使用一个或多个信号或准则来确定用于识别的实体的兴趣(例如，流行度度量460)的水平。服务器106确定总计的且相对于定义的时间段的这些兴趣水平(例如，定义的时间段内的兴趣水平)。所使用的信号可以与上文参考图12所述的那些相同。

在某些实施方式中，定义的时间段是以下各项中的任何一个：定义的小时、定义的日、定义的月或定义的时间范围(1038)。可以相对于定义的小时(例如，上午8点)、定义的日(例如，星期一)、定义的月(例如，5月)或定义的时间范围(例如，“黄金时段”小时)而确定用户实体的兴趣水平。定义的时间段还可以是上述的组合。例如，定义的时间段可以是在定义的日的定义的时间范围(例如，在星期四的“黄金时段”小时)。

基于相对于定义的时间段确定的兴趣水平来选择实体的子集(1210)。服务器106选择在定义的时间段内具有高的总计兴趣水平的与媒体内容项目相关联的实体(例如，用于定义的时间段的兴趣水平中的前5名)。

所选的实体的子集被发送到用户的客户端设备以便在客户端设备处呈现(1212)。所选实体812被作为用于定义的时间段的媒体内容项目的概要而发送到客户端设备140以便在客户端设备140处显示。

在某些实施方式中，概要包括头条故事(例如，新闻故事)。例如，服务器106识别媒体内容项目内的实体。服务器106搜索提及实体且流行的故事(例如，包含新闻文章的文档等)。服务器106识别这些文档中的最流行的并将其包括在概要中。在某些实施方式中，通过识别故事中的重要关键字(例如，在故事中提及的人和地点)来识别用于实体的故事。共享重要关键字的故事被聚集在一起。针对媒体内容项目的内容(例如，字幕数据)匹配这些重要关键字以找到关于与媒体内容项目有关的实体的故事。确定这些故事的流行度，并且在概要中显示最流行的。

在某些实施方式中，实时地生成并显示媒体内容项目的概要。例如，在正在呈现媒体内容项目时，检测媒体内容项目和媒体内容项目的当前呈现/回放位置。服务器106生成当前呈现位置开始的一定时间范围(例如，最后15分钟)的概要并将该概要发送到客户端设备140以便呈现给用户。此概要随着媒体内容项目被呈现而被连续地更新或刷新。

在某些实施方式中，可以响应于用户的搜索查询以及响应于媒体内容项目的观看执行如上所述的与引文有关的信息及内容概要的呈现。例如，当用户从电视节目搜索引文时，除搜索结果之外或者作为其替代，可以显示上文所述的引文相关信息。如果用户搜索电视节目，则除搜索结果之外或者作为其替代，可以显示演出的概要(例如，针对最近剧集、针对最后一个月等)。

响应于用户选择而显示实体信息

在某些实施方式中，客户端设备140响应于用户选项而显示关于与正在客户端设备102上呈现的视频内容项目有关的实体的信息。例如，客户端设备140在显示实体信息之前检测到客户端设备102被通电(或者至少确定客户端设备102被通电或者可能要被通电)。当客户端设备102被检测或确定为被通电时，客户端设备140提示用户选项。该用户选项指示用以使当前呈现的视频内容项目被检测到的用户授权。根据用户选项且结合服务器系统106，客户端设备140呈现关于与检测到的视频内容项目有关的实体的信息。

在某些实施方式中，客户端设备140(或与客户端设备140相结合的服务器系统106)检测或确定客户端102是否被通电(以及可选地，客户端设备102是否是活动的，与空闲或处于睡眠模式相反)。在分布式系统100中，客户端设备140确定客户端设备102是否被通电，具有这样的假设，即在客户端设备102被通电的情况下，用户正在使用客户端设备102观看内容(例如，电影、电视节目)。在某些实施方式中，如果客户端设备102和客户端设备140被通信连接到同一网络(例如，客户端设备102和140两者通过同一路由器被连接到公共网络，如在例如家庭网络中一样)，则客户端设备140通过与客户端设备102的通信来确定客户端设备102的电源状态。

例如，当客户端设备102被通电(或者另外，活动的，与空闲或处于睡眠模式相反)时，客户端设备102广播或多播消息(例如，使用简单服务发现协议(SSDP))以向公共网络中的其它设备通告客户端设备102的存在。客户端设备140从客户端设备102接收消息，并且基于从客户端设备102接收到消息而确定客户端设备102被通电。并且，客户端设备140可以周期性地向公共网络中的设备发送广播或多播搜索消息以确定客户端设备102是否仍被通电。客户端设备102接收搜索消息并向客户端设备140发送响应消息。客户端设备140接收响应消息，并且基于从客户端设备102接收到消息而确定客户端设备102被通电。客户端设备140通知服务器系统106该客户端设备102是开启的。根据客户端设备102被通电的通知，服务器系统106确定客户端设备102被通电，并向客户端设备140提供指令或内容(例如，实体信息和用以显示此类实体信息的指令)。

在某些实施方式中，如果客户端设备140不能根据与客户端设备102的通信来确定客户端设备102的电源状态(例如，客户端设备102和140被连接到不同的网络，客户端设备102未被连接到任何网络，客户端设备102未被配置成连接到任何网络(例如，客户端设备102并不是启用因特网的)，客户端设备102未被配置成广播/多播其存在(例如，客户端设备102不支持SSDP或另一类似协议))，则客户端设备140基于一个或多个信号来确定客户端设备102的电源状态；客户端设备140基于该信号来猜测客户端设备102是否被通电。在某些实施方式中，信号包括以下各项中的一个或多个：客户端设备140的当前位置、当前时间以及关于用户的数据(例如，用户的搜索历史)。

在某些实施方式中，客户端设备140确定其当前位置(例如，使用客户端设备140中的定位设备，诸如全球定位系统(GPS)模块(未示出))。客户端设备140的当前位置是指示用户是否在家(假设客户端设备140和用户相互接近)且因此可能正在使用客户端设备102观看视频内容(例如，看电视)的信号。

在某些实施方式中，客户端设备140识别当前时间。当前时间是指示用户可能正在看电视的信号(例如，如果当前时间是用于电视观看的“黄金时段”小时范围，则确定用户很可能正在使用客户端设备102观看视频内容)。

在某些实施方式中，客户端设备140与服务器系统106通信并获得关于用户的数据(例如，从用户数据库130)。用户数据包括例如用户的搜索历史、用户的媒体消费历史以及用户的电视观看历史。这些历史是指示用户是否对视频内容(例如，电视演出、电影)和相关信息特别感兴趣的信号(例如，如果用户常常搜索电视相关信息，则用户更有可能对电视相关信息感兴趣)。

在某些实施方式中，客户端设备140上的应用程序(例如，辅助应用程序355-3)进行客户端102是否被通电的确定。因此，应用程序可以每当应用程序被激活(例如，启动、被带到前台)时进行确定或者在处于后台的同时周期性地进行该确定。

客户端设备140(例如，第二屏幕设备，诸如智能电话、膝上型计算机或平板电脑)基于这些信号和/或来自如上所述的客户端设备102(例如，电视或机顶盒)的存在通告而确定客户端设备102是否(可能)被通电。如果设备被确定为将被通电，则客户端设备140上的应用程序(例如，辅助应用程序355-3)显示可视线索1402-1(例如，“卡”)，如图14A中所示。可视线索可以是由应用程序同时显示的多个可视线索1402中的一个(例如，卡)。可视线索1402-1包括邀请用户选择卡(例如，在卡上执行敲击手势、点击卡)以便接收关于可以在客户端设备102上播放的视频内容项目中的实体的信息的提示。例如，可视线索1402-1包括“谁在TV上？-敲击此卡以找出”；该提示邀请用户敲击卡1402-1获得关于用户正在观看的无论任何演出上的人的信息。

响应于用户选择了可视线索1402-1，应用程序激活用以检测在客户端设备102上播放的媒体内容的过程。在某些实施方式中，应用程序激活音频检测过程，其中，来自客户端设备102的音频输出被客户端设备140(例如，通过客户端140上的麦克风)拾取。从拾取的音频生成内容信息142并发送到服务器106以确定在客户端设备102上播放的媒体内容项目，上文描述了其细节且在这里不重复。在某些其它实施方式中，应用程序与客户端设备102(例如，与客户端设备102上的媒体播放器应用程序)进行通信，以确定什么内容正在客户端设备102上播放(例如，通过从客户端设备102检索播放媒体内容项目的元数据或字幕数据)。在某些实施方式中，可视线索1402-1显示指示内容检测在进行中的信息。

例如，在图14B中，在用户检测到图14A中的可视线索1402-1之后，可视线索1402-1现在显示内容检测在进行中的指示“检测内容...”。

在某些实施方式中，内容检测具有时限。因此，如果应用程序不能确定媒体内容项目在定义的时限(例如，12秒)内被播放，则可视线索1402-1显示错误信息(例如，“内容检测失败”)。

如果内容检测是成功的(例如，检测到在客户端设备102上播放的电视剧集1401)，则客户端设备140上的应用程序显示包括用于检测到的内容的实体信息的可视线索1404(例如，卡)。例如，如图14C中所示，在客户端设备140上显示可视线索1404。可视线索1404包括用于电视剧集1401的实体信息。可视线索1404-1例如包括用于电视剧集1401(或用于剧集1401所属于的电视连续剧)的演员列表。可视线索1404-1中的每个演员表成员可单独地被用户选择(例如，敲击)；卡1404-1中的每个演员表成员是单独的可视线索。

图14C还图示出在客户端设备140上的可视线索1404-1后面按照可视线索1404的z顺序显示的可视线索1404-1。可视线索1404-2可以被用户选择以使得可视线索1404-2按照z顺序提前。图14D示出了在可视线索1404-1的前面显示的可视线索1404-2。可视线索1404-2还显示用于电视剧集1401的实体信息。例如，可视线索1404-2显示在电视剧集1401中提及的人(例如，在故事中提及的历史角色、故事中的角色等、在剧集中提及但并未出现的新闻中的人)。在某些实施方式中，针对被提及的每个人存在单独的卡。在某些其它实施方式中，存在显示在电视剧集1401中提及的人的列表的“提及的人”卡，诸如可视线索1404-2。在具有提及的人的列表的“提及的人”卡中，在卡中列出的每个人是可单独选择的，类似于如上所述的演员表卡1404-1中的演员如何是可单独选择的；“提及的人”列表中的每个人是单独可视线索。在某些实施方式中，存在关于哪些实体对于其而言在可视线索卡中显示或列出单独可视线索卡以及实体的数目的限制。例如，该数目可以被限制到最大数量(例如，五个)。作为另一示例，显示或列出在媒体内容项目中的当前回放位置的定义的时间范围内提及的实体。例如，如果在剧集1401的当前位置的最后30分钟内提及了人，则其有资格显示或列出，但是如果在该最后30分钟之外提及了人，则没有资格显示或列出。

卡1404上所显示的实体可以是与在客户端设备102上呈现的媒体内容项目有关的任何实体。因此，所显示的实体不需要仅仅是人；所显示的实体可以包括地点、引文、音乐等。此外，可以以内容概要格式来显示在卡1404中显示的实体，如在上述内容概要中一样。在某些实施方式中，在卡1404上显示的实体是基于检测到的内容的确定标识从实体数据库122导出的。在某些实施方式中，在卡1404上显示的实体是从由因特网搜索引擎响应于查询所返回的搜索结果导出的，该查询是响应于用户选择了所显示卡上的可视线索(例如，演员姓名——在这种情况下所执行的搜索查询是相应媒体项目的名称与演员姓名的组合)而发起的。在某些实施方式中，在卡1404上播放的实体是从来自实体数据库122的信息中的一个或多个与因特网搜索结果的组合导出的。

当用户从具有实体列表的可视线索中选择了实体(例如，来自卡1401-1的演员、从卡1404-2提及的人)或者选择了具有单独实体的可视线索(例如，具有一个人的卡)时，显示用于所选实体的信息。在某些实施方式中，所显示信息是关于所选实体的附加信息(例如，传记信息、其它实际信息)。例如，如果选择了可视线索1404-2中的“人1”，则在可视线索1404-2上显示关于人1的传记信息，替换所提及的人的列表，如图14E中所示。在某些其它实施方式中，所显示的信息是用于其中所选实体是搜索查询的搜索的搜索结果。例如，如果选择了可视线索1404-2中的“人1”，则用于人1的搜索查询被提交到搜索引擎174，并且在可视线索1404-2上显示搜索结果，替换提及的人的列表，如图14F中所示。图14E-14F中，用户可以通过激活后退按钮1408等返回到可视线索1404-2中的人列表。

在某些实施方式中，在卡上显示的实体是基于检测到的媒体内容项目的类型。当服务器106识别到正在播放的媒体内容项目时，服务器106也识别媒体内容项目的类型(例如，基于媒体内容项目的元数据等)。例如，如果剧集1401是虚构节目(例如，电视剧、连续剧、电影)，则卡1401-1显示演员列表。如果剧集1401是具有主持人和参与者(例如，嘉宾、竞争者)的非虚构节目(例如，午夜谈话节目、纪实演出、新闻访谈演出、游戏演出)，则卡1404-1显示主持人和参与者的列表而不是演员列表。

当然，演员列表、主持人和嘉宾、提及的人等仅仅是可以显示的实体和相应可视线索1404的示例。在卡1404中可以显示的其它实体和信息包括剧集概要、剧组成员、提及的地点、在媒体内容项目中听到的歌曲列表等。

应认识到的是被检测为在客户端设备102上播放的媒体内容项目可以是直播或时移的(例如，从数字记录播放、点播)。

图15A-15B图示出根据某些实施方式用于显示与实体有关的信息的方法1500。在具有一个或多个处理器和存储器的客户端设备(例如，客户端设备140)处执行方法1500。

检测用户是否正在观看媒体内容项目(1502)。客户端设备140通过检测用于观看媒体内容的客户端设备(例如，客户端设备102)来进行此检测，客户端设备102的电源状态是用于用户是否正在观看媒体内容项目的代理。例如，客户端设备140使用来自客户端设备102的存在通告和/或信号(例如，当前时间、当前位置等)来确定客户端设备102是否被通电。

在检测到用户正在观看媒体内容项目之后，在用户设备上向用户呈现提供第一用户可选择选项以接收关于与媒体内容项目有关的实体的信息的第一可视线索(1504)。客户端设备140在检测到客户端设备102被通电之后显示可视线索1402-1，其邀请用户接收关于与媒体内容项目(例如，电视剧集1401)有关的实体(例如，人)的信息。用户选择可视线索1402-1以发起用于接收信息的过程。

在某些实施方式中，用户设备选自由以下各项组成的组：计算机、移动电话、智能电话、平板设备、多媒体播放器设备以及游戏播放器设备(1506)。客户端设备140可以是以下各项中的任何一个：计算机(台式计算机或膝上计算机)、移动电话、智能电话、平板设备、多媒体播放器以及游戏播放器设备。这些设备中的任何一个可以具有检测用户正在观看媒体内容和客户端设备102的电源状态的应用程序(例如，辅助应用程序355-3)并显示具有用于接收信息的邀请的可视线索。

响应于对于选项的用户选择(1508)，在用户设备处对来自媒体内容项目的节目信息进行采样，包括来自媒体内容项目的音频信号和字幕中的一个或多个(1510)，并且将节目信息发送到服务器(1512)。作为响应，服务器识别媒体内容项目并生成用于识别的媒体内容项目的一个或多个第二用户可选择用户选项，并向用户设备发送提供第二用户可选择选项的一个或多个第二可视线索。响应于可视线索1402-1的用户选项，客户端设备通过对节目信息(诸如来自客户端设备102的音频输出、字幕数据以及媒体内容项目元数据)进行采样来检测在客户端设备102上正在播放什么。节目信息被作为内容信息142发送到服务器106。服务器106基于内容信息142来检测在客户端设备102上正在播放的媒体内容项目，并且生成且向客户端设备140发送用于识别的媒体内容项目的一个或多个新的可视线索。新的可视线索对应于关于识别的媒体内容项目的实体。

例如，响应于卡1401-1的用户选择，客户端设备140向服务器106发送内容信息142。服务器106使用内容信息142来识别在客户端设备102上播放的剧集1401。服务器然后从实体数据库122识别关于剧集1401的实体(例如，演员表成员、主持人和嘉宾、在剧集1401中提及的人、地点等)，并且生成对应于这些识别的实体的可视线索1404(或者替换地，将识别的实体和用以生成相应可视线索(例如，卡)1404的指令发送到客户端设备140)。服务器106将可视线索1404发送到客户端设备140，在那里显示可视线索1404。

在某些实施方式中，服务器识别媒体内容项目的类型，并且基于识别的媒体内容项目的类型而生成第二用户可选择用户选项(1514)。服务器106识别媒体内容项目的类型以及媒体内容项目的标识。根据类型，服务器106识别用于媒体内容项目的不同实体并基于类型而生成可视线索。例如，如果类型是虚构节目，则服务器106生成列出演员表成员的卡。如果类型是具有主持人及其它参与者的非虚构节目，则服务器106生成列出主持人和参与者的卡。

在某些实施方式中，媒体内容项目选自：直播媒体内容项目或时移媒体内容项目(1516)。媒体内容项目可以是直播的(例如，电视节目剧集的首映、直播新闻事件、直播体育事件)或时移的(例如，从录制品播放的内容、点播内容)。总之，客户端140将用于媒体内容项目的内容信息142发送到服务器106，其识别媒体内容项目。

在用户设备上显示第二可视线索(1518)。例如，在客户端设备140上显示卡1404，如图14C-14D中所示。

响应于第二可视线索中的一个的用户选择，在用户设备上显示关于与识别的媒体内容项目有关的相应实体的信息(1520)。例如，响应于卡1404-2中的“人1”的选择，显示关于人1的信息或用于人1的搜索结果，如图14E-14F中所示。

在某些实施方式中，第二用户可选择选项对应于关于识别的媒体内容项目的相应实体，并且在用户设备上显示关于与识别的媒体内容项目有关的相应实体的信息包括显示关于与第二可视线索中的一个的用户选择相对应的相应实体的信息(1522)。例如，在如图14C-14D中所示的卡1404-1和1404-1中，所列的演员表成员和提及的人是卡内的单独可视线索。用户可以单独地选择演员表成员中的任何一个和提及的人调出关于所选的演员表成员或提及的任何的信息。

在某些实施方式中，关于相应实体的信息包括与相应实体有关的实际信息(1524)。如在图14E中，关于实体的信息包括例如关于人的传记信息及其它实际信息，诸如关于地点的信息等。

在某些实施方式中，关于相应实体的信息包括用于具有相应实体作为查询的搜索的搜索结果。如在图14F中，关于实体的信息包括例如用于具有实体作为查询的搜索的搜索结果。

在某些实施方式中，服务器106通过分析媒体内容项目并引用来自其它源(例如，在线文档、其它信息服务)的数据而构建实体数据库122。媒体内容项目的分析包括从媒体内容项目接收、检索或提取例如对应于音轨、字幕数据以及元数据的数据。根据音轨数据等，服务器106识别在媒体内容项目中提及或出现的实体(例如，人、地点、音乐、引文等)和这些实体何时在媒体内容项目中出现或者被提及。例如，服务器106可以将在音轨数据等中提及的任何专有名词视为潜在的实体，并且引用其它信息和数据源以进行确认。服务器106可以针对在用于媒体内容项目的音轨数据中找到的潜在实体的提及而搜索文档(例如，网页)。如果文档中的提及的次数和可选地这些提及的质量超过阈值，则潜在实体被确认为用于添加到实体数据库122的实体。另外，服务器106可以引用其它数据源以帮助识别。例如，服务器106可以引用音乐信息源(例如，歌曲/音乐识别服务、音乐数据库)以帮助识别在媒体内容项目中播放或提及的音乐。

将理解的是虽然在本文中可使用术语“第一”、“第二”等来描述各种元件，但这些元件不应受到这些术语的限制。这些术语仅用来将一个元件与另一个区别开。例如，可以将第一接触称为第二接触，并且同样地可以将第二接触称为第一接触，其改变描述的意义，只要“第一接触”的所有出现都被一致地重命名且第二接触的所有出现都被一致地重命名即可。第一接触和第二接触两者都是接触，并且其并不是同一接触。

在本文中使用的术语仅仅是出于描述特定实施方式的目的且并不意图限制权利要求。如在实施方式的描述和所附权利要求中所使用的单数形式“一”、“一个”和“该”意图也包括复数形式，除上下文另外清楚地指明。还将理解的是如本文所使用的术语“和/或”指代并涵盖关联开列项目中的一个或多个的任何和所有可能组合。将进一步理解的是术语“包括”和/或“包含”当在本说明书中使用时指定所述特征、整体、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组的存在或添加。

如本文所使用的术语“如果”可以理解成已知“当...时”或者“在...时”或者“响应于确定”或者“根据确定”或者“响应于检测到”前面所述条件为真，取决于上下文。同样地，可以将短语“如果确定[前面所述的条件为真]”或者“如果[前面所述的条件为真]”或者“当[前面所述的条件为真]时”理解成意指“在确定时”或者“响应于确定”或者“根据确定”或者“在检测到时”或者“响应于检测到”前面所述的条件为真，取决于上下文。

出于说明的目的，已参考特定实施方式来描述前文的描述。然而，以上说明性讨论并不意图是详尽的或使本公开局限本发明的精确形式。鉴于以上讲授内容，可以有许多修改和变更。选择并描述实施方式是为了最好地解释本发明原理及其实际应用，以从而使得本领域的其他人能够最好地利用具有适合于设想的特定用途的各种修改的本发明和各种实施方式。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：安特·厄兹塔斯肯特;雅罗斯拉夫·沃洛维奇;因格里德·麦考利·特罗洛普;
技术所有人：谷歌公司;
我是此专利的发明人

上一篇：基于流的反应性编程平台的制作方法与工艺
上一篇：解释视频内容中的可听话语信息的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。