实时数字助理知识更新的制作方法

文档序号:12290303阅读:203来源:国知局
实时数字助理知识更新的制作方法与工艺

本申请要求提交于2014年6月30日的标题为“REAL-TIME DIGITAL ASSISTANT KNOWLEDGE UPDATES”的美国临时申请序列号62/019,292,以及2014年9月26日提交的标题为“REAL-TIME DIGITAL ASSISTANT KNOWLEDGE UPDATES”的美国非临时申请序列序列号14/498,391的优先权,这些申请据此全文以引用方式并入本文中以用于所有目的。

本申请还与以下共同待审的临时申请相关:提交于2014年6月30日的美国专利申请序列号62/019,312,“Intelligent Automated Assistant for TV User Interactions”(代理人案卷编号106843065100(P18133USP1)),该申请据此全文以引用方式并入本文中。

技术领域

本发明整体涉及电视用户交互的语音控制,更具体地讲,涉及虚拟助理媒体知识的实时更新。



背景技术:

智能自动化助理(或虚拟助理)在用户和电子设备之间提供直观的界面。这些助理可允许用户使用口头和/或文本形式的自然语言与设备或系统进行交互。例如,用户可通过向与电子设备相关联的虚拟助理提供自然语言形式的用户口头输入来访问电子设备的服务。虚拟助理可对用户口头输入执行自然语言处理,以推断用户意图并将用户意图实践为任务。然后可通过执行电子设备的一项或多项功能来执行该任务,并且在一些示例中,可通过自然语言形式将相关输出返回给用户。

尽管移动电话(例如,智能电话)、平板电脑等已受益于虚拟助理控制,然而许多其他的用户设备仍缺乏这种便利的控制机制。例如,用户与媒体控制设备(例如,电视、电视机顶盒、电缆盒、游戏设备、流媒体设备、数字视频录像机等)的交互可能是复杂且难学的。此外,随着可由这些设备(例如,无线电视、电视订阅服务、流式视频服务、有线视频点播服务、基于网络的视频服务等)提供的媒体源的不断增长,对一些用户来说,找到所期望消费的媒体内容会较为繁琐或者甚至本末倒置。此外,粗略的时移和提示控制可使用户很难获得所需内容,诸如,电视节目中的特定时刻。获得与实况媒体内容相关联的适时信息也会具有一定的难度。因此,许多媒体控制设备所提供的用户体验较差,会令许多用户感到失望。



技术实现要素:

本发明公开了用于实时更新虚拟助理媒体知识的系统和方法。在一个示例中,可利用与正在播放媒体相关联的适时信息来更新虚拟助理知识。可接收到的数据馈送包括将赛事与媒体流中的特定时间相关联的数据。可基于语音输入来接收用户请求,并且该用户请求可与媒体流或节目中的赛事相关联。响应于接收到该请求,媒体流可被提示在媒体流中的与在请求中提到的赛事相关联的时间开始进行回放。

在另一个示例中,可将适时信息整合到数字助理知识中,从而为涉及当前赛事的查询提供答案。可接收到的数据馈送包括将赛事与媒体流中的特定时间相关联的数据。可基于来自用户的语音输入而接收用户请求,并且该用户请求可与多个赛事中的一者相关联。可基于与该赛事相关联的数据来生成对用户请求的响应。该响应然后将可通过各种方式(例如,大声朗读、在电视上显示、在移动用户设备上显示等)而被递送至用户。

附图说明

图1示出了用于提供对媒体回放的语音控制和虚拟助理知识的实时更新的示例性系统。

图2示出了根据各种示例的示例性用户设备的框图。

图3示出了用于提供媒体回放的语音控制的系统中示例性媒体控制设备的框图。

图4示出了根据各种示例的进行媒体回放的语音控制的示例性过程。

图5示出了将媒体流中的赛事与媒体流中的特定时间关联起来的示例性数据馈送。

图6示出了基于媒体流中的赛事来提示视频回放的示例性虚拟助理查询响应。

图7示出了在回放位置之前和回放位置之后出现的可用于解释用户查询的示例性赛事。

图8示出了将媒体流中的赛事与媒体流中的特定时间关联起来的示例性颁奖典礼数据馈送。

图9示出了将媒体流中的赛事与媒体流中的特定时间关联起来的示例性电视节目数据馈送。

图10示出了可用于响应用户查询的、与视频中的特定时间相关联的示例性隐藏式字幕文本。

图11A示出了具有可用于解释用户查询的示例性视频内容的电视显示器。

图11B示出了具有可用于解释用户查询的示例性图像和文本内容的移动用户设备。

图12示出了用于将信息整合到数字助理知识中,并响应用户请求的示例性过程。

图13示出了根据各种示例的电子设备的功能框图,该电子设备被配置为提供对媒体回放的语音控制和虚拟助理知识的实时更新。

图14示出了根据各种示例的电子设备的功能框图,该电子设备被配置为将信息整合到数字助理知识并响应用户请求。

具体实施方式

在以下对示例的描述中将引用附图,在附图中以例示的方式示出了可被实施的特定示例。应当理解,在不脱离各个示例的范围的情况下,可使用其他示例并且可作出结构性变更。

本发明涉及用于实时更新虚拟助理媒体知识的系统和方法。实时虚拟助理知识更新可以,例如实现对电视用户交互的精确语音控制,并为与媒体相关的查询提供适时准确的虚拟助理响应。在一个示例中,虚拟助理可用于与媒体控制设备(诸如,控制电视显示器上所显示内容的电视机顶盒)进行交互。可使用移动用户设备或具有麦克风的遥控器来接收用于虚拟助理的语音输入。可由该语音输入确定用户意图,并且虚拟助理可根据用户意图执行任务,包括致使在连接的电视上回放媒体,并控制电视机顶盒或类似设备的任何其他功能(例如,使得进行实况媒体内容的回放、使得进行所录制的媒体内容的回放、管理视频记录、搜索媒体内容、菜单导航等)。

在一个示例中,可利用与正在播放的媒体(例如,体育赛事、电视节目等)相关联的适时信息甚至于实时信息来更新虚拟助理知识。可接收到的数据馈送包括将赛事与媒体流中的特定时间相关联的数据。例如,该数据馈送可指示在电视转播的足球比赛中的某一时刻进球了。又如,该数据馈送可指示节目主持人在电视节目的某个时间进行独白。可基于语音输入来接收用户请求,并且该用户请求可与媒体流或节目中的赛事相关联。响应于接收到该请求,媒体流可被提示在媒体流中的与在请求中提到的赛事相关联的时间开始进行回放。

在另一个示例中,可将适时或实时信息整合到数字助理知识中,从而为涉及当前赛事的查询提供答案。可接收到的数据馈送包括将赛事与媒体流中的特定时间相关联的数据。可基于来自用户的语音输入而接收用户请求,并且该用户请求可与多个赛事中的一者相关联。可基于与该赛事相关联的数据来生成对用户请求的响应。该响应然后将可通过各种方式(例如,大声朗读、在电视上显示、在移动用户设备上显示等)而被递送至用户。

根据本文所讨论的各种示例,利用适时的媒体信息更新虚拟助理知识可提供有效且令人愉快的用户体验。通过使用能够接收与媒体内容相关联的自然语言查询或命令的虚拟助理,用户可简单直观地与媒体控制设备进行交互。实时虚拟助理知识更新可以,例如实现对电视用户交互的精确语音控制,并为与媒体相关的查询提供适时准确的虚拟助理响应。另外,可使用与所显示的媒体相关的直观口头命令,从而轻松访问媒体的所需部分或场景。然而,应当理解,根据本文所讨论的各种示例,还可以实现许多其他优点。

图1示出了用于提供对媒体回放的语音控制和虚拟助理知识的实时更新的示例性系统100。应当理解,如本文所讨论在电视上对媒体回放进行语音控制仅仅是采用某种类型的显示技术来控制媒体的一个示例,并且仅用于参考,本文所讨论的概念通常可用于控制任何媒体内容交互,包括控制各种设备和相关显示器(例如,监视器、膝上型电脑显示器、台式计算机显示器、移动用户设备显示器、投影仪显示器等)中的任一者上的媒体内容交互。因此,术语“电视”可指与各种设备中的任一者相关联的任何类型的显示器。此外,术语“虚拟助理”、“数字助理”、“智能自动化助理”或“自动数字助理”可指可解释口头和/或文本形式的自然语言输入以推断用户意图,并基于推断出的用户意图来执行动作的任何信息处理系统。例如,为了按照所推断出的用户意图行事,系统可执行以下内容中的一个或多个:通过设计用以实现所推断出的用户意图的步骤和参数来识别任务流;将来自推断出的用户意图的具体要求输入到任务流中;通过调用程序、方法、服务、API等来执行任务流;以及生成对用户的听觉(例如,语音)和/或视觉形式的输出响应。

虚拟助理能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常,用户请求要么寻求虚拟助理作出信息性回答,要么寻求虚拟助理执行任务(例如,使得显示特定媒体)。针对用户请求的令人满意的响应可包括提供所请求的信息性回答、执行所请求的任务、或这两者的组合。例如,用户可向虚拟助理提出诸如“我现在在哪里?”之类的问题。基于用户的当前位置,虚拟助理可回答“你在中央公园”。用户还可以请求执行任务,例如“请提醒我今天下午4点给妈妈打电话”。作为响应,虚拟助理可确认该请求,然后在用户的电子日程表中创建适当的提醒项目。在执行所请求的任务期间,虚拟助理有时可在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与虚拟助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应并采取经编程的动作之外,虚拟助理还可提供其他视频或音频形式(例如,作为文本、警报、音乐、视频、动画等)的响应。此外,如本文所述,示例性虚拟助理可控制媒体内容(例如,电视上正在播放的视频)的回放,并使信息显示在显示器上。

虚拟助理的示例在提交于2011年1月10日的名为“Intelligent Automated Assistant”的申请人的美国实用新型专利申请序列号12/987,982中有所描述,其全部公开内容以引用方式并入本文。

如图1中所示,在一些示例中,虚拟助理可根据客户端-服务器模型来实施。虚拟助理可包括在用户设备102上执行的客户端侧部分和在服务器系统110上执行的服务器侧部分。客户端侧部分还可与遥控器106结合起来,在电视机顶盒104上执行。用户设备102可包括任一种电子设备,诸如,移动电话(例如,智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如,数字眼镜、腕带、手表、胸针、臂带等),等等。电视机顶盒104可包括任一种媒体控制设备,诸如,电缆盒、卫星盒、视频播放器、视频流设备、数字视频录像机、游戏系统、DVD播放器、蓝光DiscTM播放器、此类设备的组合等。电视机顶盒104可经由有线连接或无线连接而连接至显示器112和扬声器111。显示器112(带有或不带有扬声器111)可为任何类型的显示器,诸如,电视显示器、监视器、投影仪等。在一些示例中,电视机顶盒104可连接到音频系统(例如,音频接收器),并且扬声器111可与显示器112分开。在其他示例中,显示器112、扬声器111和电视机顶盒104可一同并入单个设备,诸如,具有高级处理能力和网络连接能力的智能电视。在此类示例中,可将电视机顶盒104的功能作为组合设备上的应用程序来执行。

在一些示例中,电视机顶盒104可充当多种类型和多种源的媒体内容的媒体控制中心。例如,电视机顶盒104可便于用户使用实况电视(例如,无线电视、卫星电视或有线电视)。因此,电视机顶盒104可包括电缆调谐器、卫星调谐器等。在一些示例中,电视机顶盒104还可能够记录电视节目,以供后来的时移观看。在其他示例中,电视机顶盒104可提供对一项或多项流媒体服务的访问,诸如,有线传送的点播电视节目、视频和音乐、以及网络传送的电视节目、视频和音乐(例如,来自各种免费的、付费的和基于订阅的流媒体服务)。在其他示例中,电视机顶盒104可促进来自任何其他源的媒体内容的回放或显示,诸如,显示来自移动用户设备的照片、播放来自耦接的存储设备的视频、播放来自耦接的音乐播放器的音乐等。根据需要,电视机顶盒104还可包括本文所讨论的媒体控制特征的各种其他组合。

用户设备102和电视机顶盒104可通过一个或多个网络108与服务器系统110通信,所述网络可包括因特网、内联网或任何其他有线或无线的公共网络或专用网络。另外,用户设备102可通过网络108或直接通过任何其他有线或无线通信机构(例如,蓝牙、Wi-Fi、射频、红外传输等)与电视机顶盒104通信。如图所示,遥控器106可使用任何类型的通信方式,诸如,有线连接或任何类型的无线通信(例如,蓝牙、Wi-Fi、射频、红外传输等)包括经由网络108,与电视机顶盒104通信。在一些示例中,用户可通过用户设备102、遥控器106或集成在电视机顶盒104内的接口元件(例如,按钮、麦克风、相机、操纵杆等)与电视机顶盒104进行交互。例如,可在用户设备102和/或遥控器106处接收到语音输入,该语音输入包括用于虚拟助理的与媒体相关的查询或命令,并且可用于使得与媒体相关的任务在电视机顶盒104上执行。同样,可在用户设备102和/或遥控器106(以及未示出的其他设备)处接收用于控制电视机顶盒104上的媒体的触觉命令。因此,可通过各种方式控制电视机顶盒104的各种功能,给予用户从多个设备控制媒体内容的多种选择。

在用户设备102和/或带有遥控器106的电视机顶盒104上执行的示例性虚拟助理的客户端侧部分可提供客户端侧功能,诸如,面向用户的输入和输出处理以及与服务器系统110的通信。服务器系统110可为驻留在相应用户设备102或相应电视机顶盒104上的任何数量的客户端提供服务器侧功能。

服务器系统110可包括一个或多个虚拟助理服务器114,该虚拟助理服务器可包括面向客户端的I/O接口122、一个或多个处理模块118、数据与模型储存器120,以及至外部服务的I/O接口116。面向客户端的I/O接口122可促进虚拟助理服务器114的面向客户端的输入和输出处理。一个或多个处理模块118可利用数据与模型储存器120基于自然语言输入来确定用户的意图,并可基于推断出的用户意图来进行任务执行。在一些示例中,虚拟助理服务器114可通过网络108与外部服务124(诸如,电话服务、日历服务、信息服务、消息服务、导航服务、电视节目服务、流媒体服务等)通信,从而完成任务或获取信息。至外部服务的I/O接口116可促进此类通信。

服务器系统110可在计算机的一个或多个独立式数据处理设备或分布式网络上实施。在一些示例中,服务器系统110可采用第三方服务提供方(例如,第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统110的潜在计算资源和/或基础结构资源。

虽然在图1中示出虚拟助理的功能包括客户端侧部分和服务器侧部分两者,但在一些示例中,助理的功能(或通常为语音识别和媒体控制)可在用户设备、电视机顶盒、智能电视等上安装有独立式应用程序时实现。此外,虚拟助理的客户端部分与服务器部分之间的功能划分在不同的示例中可变化。例如,在一些示例中,在用户设备102或电视机顶盒104上执行的客户端可以是仅提供面向用户的输入和输出处理功能的瘦客户端,并将虚拟助理的所有其他功能委托给后台服务器。

图2示出了根据各种示例的示例性用户设备102的框图。如图所示,用户设备102可包括存储器接口202、外围设备接口206,以及一个或多个处理器204。用户设备102中的各种部件可由一条或多条通信总线或信号线耦接在一起。用户设备102还可包括各种传感器、子系统、以及耦接至外围设备接口206的外围设备。传感器、子系统、以及外围设备可采集信息并且/或者促进用户设备102的各种功能。

例如,用户设备102可包括运动传感器210、光传感器212、以及接近传感器214耦接至外围设备接口206以方便取向、照明和接近感测功能。一个或多个其他传感器216,诸如定位系统(例如,GPS接收器)、温度传感器、生物计量传感器、陀螺仪、指南针、加速度计等,也可连接至外围设备接口206,以促进相关功能。

在一些示例中,相机子系统220和光学传感器222可用于促进相机功能,诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统224来促进通信功能,该无线通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如,红外)接收器和发射器。可将音频子系统226耦接到扬声器228和麦克风230以方便启用语音的功能,诸如语音识别、语音复制、数字记录和电话功能。

在一些示例中,用户设备102还可包括耦接到外围设备接口206的I/O子系统240。I/O子系统240可包括触摸屏控制器242和/或其他输入控制器244。触摸屏控制器接口242可耦接到触摸屏246。触摸屏246和触摸屏控制器242例如可使用多种触摸灵敏度技术中的任一种来检测接触和移动或它们的间断,所述多种触摸灵敏度技术诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等。可将其他输入控制器244耦接到其他输入/控制设备248,例如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如,触笔)。

在一些示例中,用户设备102还可包括耦接到存储器250的存储器接口202。存储器250可包括任何磁性、光学、电磁、红外或半导体系统、装置或设备;便携式计算机磁盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW;或闪存存储器诸如紧凑型闪存卡、安全数字卡、USB存储设备、记忆棒等。在一些示例中,存储器250的非暂态计算机可读存储介质可用于存储指令(例如,用于执行部分或全部的本文所述各种过程的指令),以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其结合。在其他示例中,指令(例如,用于执行部分或全部的本文所述各种过程的指令)可存储在服务器系统110的非暂态计算机可读存储介质上,或者可分配存储在存储器250的非暂态计算机可读存储介质和服务器系统110的非暂态计算机可读存储介质上。在本文的语境中,“非暂态计算机可读存储介质”可以是可包括或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中,存储器250可存储操作系统252、通信模块254、图形用户界面模块256、传感器处理模块258、电话模块260和应用程序262。操作系统252可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面处理。传感器处理模块258可促进与传感器相关的处理和功能。电话模块260可促进与电话相关的过程和功能。应用程序模块262可促进用户应用程序的各种功能,诸如电子消息传送、网页浏览、媒体处理、导航、成像和/或其他过程和功能。

如本文所述,存储器250还可存储客户端侧虚拟助理指令(例如,存储在虚拟助理客户端模块264中)以及各种用户数据266(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等),从而例如提供虚拟助理的客户端侧功能。用户数据266还可用于执行语音识别来支持虚拟助理或用于任何其他应用程序。

在各种示例中,虚拟助理客户端模块264能够通过用户设备102的各种用户界面(例如,I/O子系统240、音频子系统226等)接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。虚拟助理客户端模块264可还能够提供音频(例如,语音输出)、视频和/或触觉形式的输出。例如,可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间,虚拟助理客户端模块264可使用通信子系统224来与虚拟助理服务器通信。

在一些示例中,虚拟助理客户端模块264可利用各种传感器、子系统和外围设备来从用户设备102的周围环境采集附加信息以建立与用户、当前用户交互、和/或当前用户输入相关联的上下文。这样的上下文还可包括来自其他设备诸如来自电视机顶盒104的信息。在一些示例中,虚拟助理客户端模块264可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将其传送至用户。上下文信息还可以被用户设备102或服务器系统110用来支持准确的语音识别。

在一些示例中,伴随用户输入的上下文信息可包括传感器信息,诸如,照明、环境噪声、环境温度、周围环境的图像或视频、与另一个对象的距离等。上下文信息还可包括与用户设备102的物理状态相关联的信息(例如,设备取向、设备位置、设备温度、功率电平、速度、加速度、运动模式、蜂窝信号强度等),或包括与用户设备102的软件状态相关联的信息(例如,正在运行的进程、安装的程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如,由电视机顶盒104显示的媒体内容、电视机顶盒104可用的媒体内容等)。这些类型的上下文信息中的任何一种都可作为与用户输入相关联的上下文信息,被提供给虚拟助理服务器114(或用于用户设备102本身)。

在一些示例中,虚拟助理客户端模块264可响应于来自虚拟助理服务器114的请求,而选择性地提供存储在用户设备102上的信息(例如,用户数据266)(或者该虚拟助理客户端模块可在用户设备102本身中用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块264还可以在虚拟助理服务器114请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块264可将所述附加输入传送至虚拟助理服务器114,以帮助虚拟助理服务器114进行意图推断和/或满足在用户请求中表达的用户意图。

在各种示例中,存储器250可包括另外的指令或更少的指令。此外,可在硬件和/或固件中包括在一个或多个信号处理和/或专用集成电路中执行用户设备102的各种功能。

图3示出了用于提供媒体回放语音控制的系统300中的示例性电视机顶盒104的框图。系统300可包括系统100的元件的子集。在一些示例中,系统300可单独执行某些功能,也能够与系统100的其他元件一起运行来执行其他功能。例如,系统300的元件可在不与服务器系统110进行交互(例如,回放本地存储的媒体、记录功能、频道调谐等)的情况下处理某些媒体控制功能,并且系统300可结合服务器系统110和系统100的其他元件来进行其他媒体控制功能(例如,回放远程存储的媒体、下载媒体内容、进行某些虚拟助理查询等)。在其他示例中,系统300的元件可执行较大系统100的功能,包括通过网络访问外部服务124。应当理解,可通过各种其他方式在本地设备和远程服务器设备之间划分功能。

如图3所示,在一个示例中,电视机顶盒104可包括存储器接口302、一个或多个处理器304和外围设备接口306。电视机顶盒104中的各种部件可由一条或多条通信总线或信号线耦接在一起。电视机顶盒104还可包括各种子系统和耦接至外围设备接口306的外围设备。子系统和外围设备可采集信息并且/或者促进电视机顶盒104的各种功能。

例如,电视机顶盒104可包括通信子系统324。可通过一个或多个有线和/或无线通信子系统324来促进通信功能,该无线通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如,红外)接收器和发射器。

在一些示例中,电视机顶盒104还可包括耦接到外围设备接口306的I/O子系统340。I/O子系统340可包括音频/视频输出控制器370。音频/视频输出控制器370可被耦接到显示器112和扬声器111,或者可以其他方式提供音频和视频输出(例如,经由音频/视频端口、无线传输等)。I/O子系统340还可包括遥控器342。遥控器342可通信地耦接到遥控器106(例如,经由有线连接、蓝牙、Wi-Fi等)。遥控器106可包括用于捕获音频输入(例如,来自用户的语音输入)的麦克风372、用于捕获触觉输入的按钮374、以及用于通过遥控器342促进与电视机顶盒104的通信的收发器376。遥控器106还可包括其他输入机构,诸如,键盘、操纵杆、触摸板等。遥控器106还可包括输出机构,诸如,灯、显示器、扬声器等。在遥控器106处接收的输入(例如,用户语音、按钮按压等)可经由遥控器342被传送到电视机顶盒104。I/O子系统340还可以包括其他输入控制器344。可将其他输入控制器344耦接到其他输入/控制设备348,例如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如,触笔)。

在一些示例中,电视机顶盒104还可包括耦接到存储器350的存储器接口302。存储器350可包括任何磁性、光学、电磁、红外或半导体系统、装置或设备;便携式计算机磁盘(磁性);随机存取存储器(RAM)(磁性);只读存储器(ROM)(磁性);可擦除可编程只读存储器(EPROM)(磁性);便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW;或闪存存储器诸如紧凑型闪存卡、安全数字卡、USB存储设备、记忆棒等。在一些示例中,存储器350的非暂态计算机可读存储介质可用于存储指令(例如,用于执行部分或全部的本文所述各种过程的指令),以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备获取指令并执行指令的其他系统使用或与其结合。在其他示例中,指令(例如,用于执行部分或全部的本文所述各种过程的指令)可存储在服务器系统110的非暂态计算机可读存储介质上,或者可分配存储在存储器350的非暂态计算机可读存储介质和服务器系统110的非暂态计算机可读存储介质上。在本文的语境中,“非暂态计算机可读存储介质”可以是可包括或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中,存储器350可存储操作系统352、通信模块354、图形用户界面模块356、设备上的媒体模块358、远离设备的媒体模块360和应用程序362。操作系统352可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面处理。设备上的媒体模块358可促进本地存储于电视机顶盒104上的媒体内容以及本地可用的其他媒体内容(例如,有线频道调谐)的存储和回放。远离设备的媒体模块360可促进远程存储(例如,存储在远程服务器上、在用户设备102上等)的媒体内容的流式回放或下载。应用程序模块362可促进用户应用程序的各种功能,诸如电子消息传送、网页浏览、媒体处理、游戏和/或其他过程和功能。

如本文所述,存储器350还可存储客户端侧虚拟助理指令(例如,存储在虚拟助理客户端模块364中)以及各种用户数据366(例如,特定于用户的词汇数据、偏好数据,和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等),从而例如提供虚拟助理的客户端侧功能。用户数据366还可用于执行语音识别来支持虚拟助理或用于任何其他应用程序。

在各种示例中,虚拟助理客户端模块364能够通过电视机顶盒104的各种用户界面(例如,I/O子系统340等)接受声音输入(例如,语音输入)、文本输入、触摸输入和/或手势输入。虚拟助理客户端模块364可还能够提供音频(例如,语音输出)、视频和/或触觉形式的输出。例如,可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间,虚拟助理客户端模块364可使用通信子系统324来与虚拟助理服务器通信。

在一些示例中,虚拟助理客户端模块364可利用各种子系统和外围设备来从电视机顶盒104的周围环境采集附加信息以建立与用户、当前用户交互、和/或当前用户输入相关联的上下文。这样的上下文还可包括来自其他设备诸如来自用户设备102的信息。在一些示例中,虚拟助理客户端模块364可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将其传送至用户。上下文信息还可以被电视机顶盒104或服务器系统110用来支持准确的语音识别。

在一些示例中,伴随用户输入的上下文信息可包括传感器信息,诸如,照明、环境噪声、环境温度、与另一个对象的距离等。上下文信息还可包括与电视机顶盒104的物理状态相关联的信息(例如,设备位置、设备温度、功率电平等),或包括与电视机顶盒104的软件状态相关联的信息(例如,正在运行的进程、安装的应用程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如,在用户设备102上显示的内容、用户设备102上的可播放内容等)。这些类型的上下文信息中的任何一种都可作为与用户输入相关联的上下文信息,被提供给虚拟助理服务器114(或用于电视机顶盒104本身)。

在一些示例中,虚拟助理客户端模块364可响应于来自虚拟助理服务器114的请求而选择性地提供存储在电视机顶盒104上的信息(例如,用户数据366)(或者该虚拟助理客户端模块可在电视机顶盒104本身中用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块364还可以在虚拟助理服务器114请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块364可将所述附加输入传送至虚拟助理服务器114,以帮助虚拟助理服务器114进行意图推断和/或满足在用户请求中表达的用户意图。

在各种示例中,存储器350可包括另外的指令或更少的指令。此外,可在硬件和/或固件中包括在一个或多个信号处理和/或专用集成电路中执行电视机顶盒104的各种功能。

应当理解,系统100和系统300不限于图1和图3中所示的部件和配置,并且用户设备102、电视机顶盒104和遥控器106同样不限于图2和图3中所示的部件和配置。在根据各种示例的多种配置中,系统100、系统300、用户设备102、电视机顶盒104和遥控器106均可包括更少部件,或包括其他部件。

通览本公开内容,对“系统”的引用可包括系统100、系统300,或系统100或系统300的一个或多个元件。例如,本文中提到的典型系统可包括从遥控器106和/或用户设备102接收用户输入的电视机顶盒104。

在一些示例中,虚拟助理查询可包括对于被提示跳转到特定时间的特定媒体的请求。例如,用户可能想看到比赛中的特定进程、演出期间的特定表演、电影中的特定场景等。为了处理这种查询,虚拟助理系统可确定与查询相关联的用户意图,识别响应于该查询的相关媒体,并根据用户请求(例如,提示在某人进球得分之前开始回放比赛)在正确的时间提示媒体进行回放。详细的媒体信息可被并入虚拟助理知识库以支持各种媒体相关的查询。例如,可将详细的媒体信息并入系统100的虚拟助理服务器114的数据和模型120中,以支持特定的媒体查询。在一些示例中,也可从系统100的外部服务124获得详细的媒体信息。

然而,能够处理相关用户请求的响应系统可包括将实时或近实时的媒体数据并入虚拟助理知识中。例如,直播体育赛事可包括用户可能希望看到的各种兴趣点。另外,用户当前正在观看的视频可包括用户可在查询中查阅到的许多兴趣点。相似地,电视节目可包括用户可能想要提示回放或标识为与朋友共享的流行场景、特别嘉宾出场、广受讨论的时刻等。各种其他媒体内容可同样包括用户的相关兴趣点(例如,音乐、基于网络的视频剪辑等)。因此,根据本文的各种示例,详细并适时的媒体数据可被并入虚拟助理知识中,以支持与媒体相关联的各种用户请求,甚至包括对内容和媒体相关信息的近实时请求。

图4示出了根据各种示例的用于媒体回放的语音控制的示例性过程400,包括合并详细和/或适时的媒体数据。在框402处,可接收包括与媒体流中的时间相关联的赛事的数据馈送。可通过多种不同形式中的任一种,并从各种不同的源接收数据馈送。例如,数据馈送可包括使特定媒体中的赛事与时间相关联的表、时间与赛事在其中相关联的数据库、使特定媒体中的赛事与时间相关联的文本文件、响应于赛事请求提供时间的信息服务器等。数据馈送可来自各种不同的源,诸如,系统100的外部服务124。在一些示例中,数据馈送可由与特定媒体相关联的组织提供,诸如,提供详细体育赛事信息的体育联赛、提供详细视频和场景信息的视频提供商、从多个体育数据源提取的体育数据整合器等。在其他示例中,可通过分析媒体内容(诸如,分析演员外表、隐藏字幕文本、场景变化等)来获得数据馈送。在其他示例中,可从社交媒体获得数据馈送,诸如,表演中被普遍讨论的时刻、比赛中被频繁引用的赛事等。因此,本文所使用的术语数据馈送可指示各种形式的各种数据,包括可从媒体本身挖掘的数据。

图5示出了将媒体流中的赛事与媒体流512中的特定时间514关联起来的示例性数据馈送510。应当理解,提供图5是出于说明目的,并且数据馈送510可采用各种其他形式(例如,文本文件、表文件、信息服务器数据、数据库、消息、信息馈送等)。媒体流512可包括任何类型的可播放媒体,诸如,体育赛事、视频、电视节目、音乐等。在图5的示例中,媒体流512可包括电视转播的冰球比赛。无论概要信息或特定媒体的其他描述性细节是否与特定时间相关,它们都可包括在数据馈送510中(例如,可包括在标头等中)。在例示的示例中,在5:01(UTC)时在第一框中提供描述性概要信息,包括媒体标题(例如,“冰球比赛”)、媒体描述(“在冰场上A队对战B队”)和媒体源(例如,在电视“频道7”上播送)。可相似地提供各种其他描述性信息,并且可在特定字段中提供信息以供参考(例如,标题字段可包括标题、源字段可包括电视频道或因特网地址等)。除了图5中所示的信息,还可获得各种其他媒体信息,诸如,比赛队伍中的选手名单、出现在剧集中的演员的列表、制作人、导演、艺术家等。各种概要和描述性信息都可被并入虚拟助理知识中,并用于支持相关查询。

如图所示,数据馈送510可包括与媒体流时间514相关的媒体流赛事516。可按各种不同的方式来指定媒体流时间514,包括使用协调世界时间(缩写为“UTC”)、用户的本地时间、虚拟助理服务器处的时间、媒体服务器处的时间、媒体源处的时间(例如,体育场地)或各种其他时区。在其他示例中,可提供媒体流时间514作为相对于媒体内容开始的便宜(例如,自电影、剧集、体育赛事、音轨等的开始)。在其他示例中,媒体流时间514可被提供为比赛时钟时间等。在各种示例中的任一个示例中,应当理解,媒体流时间514可包括精确的时间指定,诸如,秒、毫秒或甚至更精细的分级。为了易于参考,本文中媒体流时间514的示例被提供有UTC小时和分钟指定,虽然通常可使用秒,但也可使用毫秒或更精细的分级。

媒体流赛事516可包括媒体流512中的各种赛事或兴趣点。在体育赛事中,例如,媒体流赛事516可包括比赛、罚分、进球、赛段分段(例如,一周期、四分之一、一半等)、比赛阵容(击球手、冰上队员、四分卫、场上踢球手等)等。在电视节目(例如,情景喜剧、谈话节目等)中,媒体流赛事516可包括片头、人物出场、演员出场(例如,指定屏幕上的时间)、节目情节内的赛事(例如,特定场景)、嘉宾出场、嘉宾表演、独白、商业广告插播等。在颁奖典礼(例如,电影颁奖晚会、戏剧颁奖晚会等)中,媒体流赛事516可包括独白、颁奖仪式、获奖者演讲、艺术家表演、商业广告插播等。在广播节目中,媒体流赛事516可包括开场白、嘉宾演讲者、讨论主题等。因此应当理解,可在多种媒体类型中的任一种当中识别各种赛事或兴趣点,并且那些赛事可与媒体中的特定时间相关。

在其他示例中,可基于社交媒体、流行视点、投票等来识别兴趣点或赛事。例如,可使用与特定媒体(例如,直播体育赛事)相关联的社交媒体网络上的流行评论来识别可能的兴趣点和大致的出现时间(例如,在对主题进行首次评论之前不久)。又如,观众可通过在媒体中标记时间(例如,使用遥控器上的按钮、口头请求、虚拟按钮等)来指出兴趣点。再如,可从与其他人共享媒体(诸如,从媒体流的某个部分共享视频剪辑)的用户处识别兴趣点。因此,可从媒体提供商、用户、社交网络讨论和各种其他源中识别数据馈送510中的媒体流赛事516。

在图5的示例中,数据馈送510可包括与冰球比赛中的赛事相关联的媒体流赛事516。例如,以掷球开始第一节的比赛可能在5:07(UTC)时已经发生,并且数据馈送510可在该赛事的特定媒体流时间514处包括相关联的媒体流赛事516。在5:18(UTC)时,可能已经判队员X用杆击打队员Z而犯规,导致历时两分钟的判罚。判罚细节(例如,判罚类型、涉及的队员、判罚时间等)可纳入与在特定媒体流时间514的判罚相关联的媒体流赛事516中。在5:19(UTC)时,A组可能已经开始集中攻势,并且可将媒体流赛事516纳入,该媒体流赛事可使集中攻势的开始与特定媒体流时间514关联起来。如图所示,同样可纳入各种其他媒体流赛事516并与特定媒体流时间514关联起来。不同赛事的细节可变化,并且部分或全部信息可被并入虚拟助理知识中。例如,进球的细节可包括进团队员和助攻队员。结束集中攻势的细节可包括识别失去集中攻势状态的团队以及全力回击的团队的信息。屏幕上的队员的细节可包括队员在屏幕上的坐标位置。另外,媒体流赛事516可包括比赛的时间段指定,诸如,在5:31(UTC)时第一节结束。

在其他示例中,具有附加详细信息的各种其他媒体流赛事516可被包括在数据馈送510中,并且/或者由媒体流512本身确定。例如,冰上的队员可与媒体流时间514相关、分数变化可与媒体流时间514相关、比赛中止可与媒体流时间514相关、冰上打架以及参与打架者可与媒体流时间514相关等等。另外,各种其他细节可纳入特定赛事中,或者可与媒体流关联起来,诸如,各种统计值、队员信息、参与者信息(例如,裁判、教练等)、赛段指示符等。这样,数据馈送510便可包括在各个时间514在媒体流512中发生的各种赛事516的详细文本描述。

应当理解,要将媒体流赛事516和媒体流时间514的知识结合到虚拟助理知识库中,无需接收媒体流512。在一些示例中,在没有媒体流512的情况下,数据馈送510的信息可由虚拟助理服务器114接收,以将信息并入虚拟助理知识(例如,并入数据和模型120中)。在另一个方面,媒体流512可被直接提供给用户设备102、电视机顶盒104或另一用户设备。如下所述,在一些示例中,媒体赛事516的虚拟助理知识可用于提示媒体流512在用户设备(例如,在用户设备102、电视机顶盒104等设备上)上的回放,以及响应于其他虚拟助理查询。在其他示例中,媒体流512、媒体流512的部分和/或与媒体流512相关联的元数据,可由虚拟助理服务器114接收并被并入虚拟助理的知识库中。

再次参见图4中的过程400,在框404处,可接收到与媒体流中的赛事相关联的用户口头请求。如上所述,可通过各种方式接收来自用户的语音输入,诸如,经由用户设备102、遥控器106或系统100中的另一用户设备。针对虚拟助理的语音输入可包括各种用户请求,包括与特定媒体内的媒体和/或赛事相关联的请求。例如,用户请求可包括对本文所讨论的任何媒体流赛事516的引用,诸如,与图5中所示的冰球比赛赛事相关联的查询。在一些示例中,用户请求可包括提示媒体转至特定兴趣点的请求。例如,用户可请求观看冰球比赛中的打斗(例如,“为我示出队员Y和队员Q之间的打斗”)、跳到一局的开始(例如,“跳到第一节的掷球”)、观看进球(例如,“为我播放队员M的进球”)、观看特定判罚导致的结果(例如,“为我播放对队员X用杆击打对手队员的判罚”)等。

再次参见图4的过程400,在框406处,可在与用户请求中的赛事相关联的媒体流中的某一时刻开始回放媒体流。例如,来自数据馈送510的合并到虚拟助理知识库中的知识,可用于确定与用户对特定内容的请求相关联的媒体流中的特定时间。图6示出了基于媒体流中响应于查询的赛事来提示视频回放的示例性虚拟助理查询响应。在例示的示例中,用户可能正在观看具有由电视机顶盒104控制的内容的显示器112。用户可能正在观看视频620,该视频可包括与上述数据馈送510相关联的冰球比赛。如参见过程400的框404所讨论的那样,接着用户可请求观看与赛事相关联的特定的媒体内容。例如,用户可请求看进球(例如,“再次为我播放那个进球”、“为我播放队员M的进球”、“示出A队的进球”、“为我播放第一节中的进球”、“为我播放在A/B冰球比赛中的第一个进球”、“重播最近一次进球”等)。

响应于用户请求,可确定响应于用户的请求的媒体流中(例如,视频620中)的特定时间。在该示例中,使用来自图5中数据馈送510的被并入虚拟助理知识库中的知识,如图5中所示,该系统可识别在5:21(UTC)时团队A的队员M在队员Q助攻下的进球。然后,系统可使得视频620时移到正确的时间来显示所需内容。在该示例中,系统可对视频620进行时移,按照在回放指示符622上指示的提示时间624开始回放。如图所示,提示时间624可不同于实况转播时间626(例如,与实况电视转播或以其他方式实况分布的内容流相关联的时间)。在一些示例中,提示时间624可对应于与对应的媒体流赛事516相关联的媒体流时间514。在其他示例中,可早于或晚于媒体流时间514而移动提示时间624,具体移动时机取决于媒体流赛事516与媒体流时间514的关联方式。例如,提示时间624可比相应的媒体流时间514早三十秒、一分钟、两分钟或另一个量,以使用户在即将进球得分之前看到比赛。在一些示例中,数据馈送510可包括对于何时开始回放特定赛事(例如,指定冰球队员何时开始为最后一球猛攻、指定何时首次看到犯规行为等)的精确时间指定。因此,可响应于用户虚拟助理的请求,从提示时间624开始为用户播放视频620。

在一些示例中,视频620可替换显示在显示器112上的另一个视频,或者可响应于用户请求而被检索以用于回放。例如,观看其他内容的用户可发出请求以观看另一个频道上的冰球比赛中得分的最后一个进球(例如,“为我播放在频道七的冰球比赛中得分的最后一个进球”、“为我播放A/B冰球比赛的最后一个进球”、“为我播放冰场比赛中的第一个进球”等)。如上所述,如果用户请求不能被解析到特定媒体,虚拟助理便可根据需要提示更多信息或确认(例如,“您是指频道7上播出的在冰场上A队对阵B队的冰球比赛吗?”)随着请求被解析到特定内容,电视机顶盒104可检索视频620用于回放并提示它转到提示时间624。应当理解,视频620可在用户设备102或任何其他设备上播放,并且虚拟助理可类似地提示用户设备102或另一设备上的视频620转到提示时间624(例如,基于特定的用户命令、基于用户正在观看视频620的设备、基于用户请求的源等)。

在一些示例中,导向到虚拟助理的用户请求可包括对由电视机顶盒104在显示器112上示出或者在用户设备102的触摸屏246上示出的某物的模糊参考。例如,与图6中的显示器112上示出的视频620相关的请求可包括对屏幕上的队员628或屏幕上的队员630的模糊参考。仅从语音输入上看,用户所询问或参考的特定队员可能不太清楚。在另一个示例中,仅从语音输入上看较为模糊的用户请求可包括其他参考。例如,在不知道用户正在观看特定团队参加的特定比赛的情况下,观看团队名单的请求可能是模糊的;在不知道用户正在观看特定比赛的情况下,观看下一个进球的请求可能是模糊的,诸如此类。因此,显示器112上显示的内容和相关联的元数据(例如,来自数据馈送510或其他)可用于消除用户请求的歧义并确定用户意图。例如,屏幕上的演员、屏幕上的队员、参赛者的列表、节目中的演员的列表,团队名单等可用以解释用户请求。

在所示示例中,在显示器112上显示的内容和相关联的元数据可用于从对“守门员”、“该队员”、“八号”、“他”、“M”、昵称或与特定比赛和/或屏幕上的特定队员相关的任何其他参考的引用来确定用户意图。例如,如上所述,数据馈送510可包括对哪些队员在特定时间出现在屏幕上、哪些队员参与特定赛事、哪些队员在特定时间在冰场上等的指示。在与图6相关联的时间处,例如,从数据馈送510并入虚拟助理知识库中的知识可指示队员M(例如,屏幕上的队员628)和守门员(例如,屏幕上的队员630)在该特定时间出现在屏幕上、在那段时间在冰场上、在打该场比赛、或者至少可能在屏幕上或与该特定时间相关。然后,可基于该信息消除参考“守门员”、“该队员”、“八号”、“他”、“M”或昵称等的请求的歧义。

例如,对于观看“守门员的”最近防守的请求(例如,“为我播放守门员的最近防守”)可被解析为该特定守门员对应于屏幕上的队员630(而不是替补队员或另一个队的守门员),并且他的名字或其他识别信息可被用来识别响应于用户查询的内容(例如,当前比赛中该特定守门员的最近防守,先前的比赛中该特定守门员的最近防守等)。在另一个示例中,基于数据馈送510和相关联的元数据,观看“八号的”下一个进球(例如,“为我播放八号的下一个进球”)的请求可被解析为带有数字八或昵称为八的特定队员(例如,屏幕上的队员628)。然后,可基于对应于“八”的队员的识别信息(例如,队员M在该比赛中的下一个进球、队员M在后续比赛中的下一个进球等)来识别响应于查询的内容。在其他示例中,可分析在显示器112上或在用户设备102上示出的内容,以便以其他方式解释用户请求。例如,面部识别、图像识别(识别球衣号码)等可用被用来标识屏幕上的队员628和队员630,以解释相关联的用户请求。应当理解,对用户请求的响应可包括信息响应和/或媒体内容响应,并且该响应可在任何设备上显示(例如,显示器112、触摸屏246等)。

虽然本文已提供了各种示例,但应当理解,用户可通过各种不同方式来指示队员(以及演员、人物等),所有这些方式都可根据本文所讨论的示例来消除歧义。例如,用户可通过名称(例如,名字、姓氏、全名、昵称等)、号码、位置、队伍、阵容深度(例如,“替补四分卫”)、比赛特定的标识符(例如,先发投手、替补队员、中继投手、救援投手等)、参赛年限(例如,新队员、第一年队员、第二年队员等)、队中头衔(例如,队长、替补队长等)、比赛风格(例如,执行者、快速等)、前团队、大学(例如,“来自Q大学的四分卫”)、统计信息(例如,“上演帽子戏法的队员的打斗”、“团队最高得分手的罚球”等)、传记信息(例如,“名人堂成员”、“在来自西弗吉尼亚的这个投球手之后下一个击球的队员”等)、外貌(例如,高、矮、皮肤颜色、着装等)、赞助商(例如,“五金店汽车的冲撞”),诸如此类。

在其他示例中,导向到虚拟助理的用户请求可包括模糊参考,该模糊参考基于由电视机顶盒104在显示器112上示出或者在用户设备102的触摸屏246上示出的某物的当前播放位置。例如,用户可指示“下一个”进球、“前一个”判罚、“下一个”广告、“最近的”表演、“下一个”演员的外貌等。仅来自语音输入的用户意图(例如,特定的所需内容)可能是不清楚的。然而,在一些示例中,媒体流中的当前播放位置可用于消除用户请求的歧义并确定用户意图。例如,指示当前播放位置的媒体流时间可被发送到虚拟助理系统,并由虚拟助理系统使用以解释用户请求。

图7示出了媒体流512,其中当前回放位置732出现在示例性媒体流赛事516之前以及之后,该媒体流可用于解释用户查询(例如,以消除用户请求的歧义并确定用户意图)。如图所示,实况转播时间626可晚于当前回放位置732,并且在一些示例中,媒体流512可包括不再为实况的内容的录像。给定如图所示的当前回放位置732的情况下,可解释对媒体流赛事516的各种参考,诸如,“下一个”和“前一个”赛事。例如,仅基于语音输入而言,用于观看前一个或最近一个进球(例如,“为我播放最近一个进球”)的用户请求可能是模糊的,但是当前的回放位置732可用于解释用户请求(例如,解析参考“最近”),并将前一个进球734识别为所需的媒体流赛事516。在另一个示例中,仅基于语音输入而言,用于观看下一次判罚(例如,“为我播放下一次判罚”)的用户请求可能是模糊的,但是当前的回放位置732可用于解释用户请求(例如,解析参考“下一次”),并将下一次判罚738识别为所需的媒体流赛事516。当前回放位置732可用于以类似方式解释对前一次判罚736和下一个进球740的请求,以及用于解释各种其他的位置参考(例如,接下来的两个、最近三个等)。

图8示出了将媒体流中的赛事与媒体流812中的特定时间514关联起来的示例性数据馈送810。数据馈送810可包括与如上所述的数据馈送510相似的特征,并且数据馈送810可类似地在框402处被接收,并用于在上面所讨论的过程400的框406处使得进行该媒体的回放。在图8的示例中,媒体流812可包括电视转播的颁奖典礼。在其他示例中,类似的媒体流可包括基于因特网的颁奖典礼、电台节目秀、综艺节目等。无论概要信息或特定媒体的其他描述性细节是否与特定时间相关,它们都可包括在数据馈送810中(例如,可包括在标头等中)。在例示的示例中,在10:59(UTC)时在第一框中提供描述性概要信息,包括媒体标题(例如,“电影颁奖晚会”)、媒体描述(“由喜剧演员Whitney Davidson主持的年度电影颁奖晚会”)和媒体源(例如,在电视“频道31”上播送)。可相似地提供各种其他描述性信息,并且可在特定字段中提供信息以供参考(例如,标题字段可包括标题、源字段可包括电视频道或因特网地址等)。除了图8中所示的信息之外,还可获得各种其他媒体信息,诸如,参与者名称、表演描述、所获奖项等。各种概要和描述性信息都可被并入虚拟助理知识中并用于支持相关查询。

如图所示,数据馈送810可包括与媒体流时间514相关的媒体流赛事516,这可类似于上文参见图5所讨论的赛事516和时间514。数据馈送810中的媒体流赛事516可包括媒体流812中的各种赛事或兴趣点。在颁奖典礼(例如,电影颁奖晚会、戏剧颁奖晚会等),例如媒体流812中,媒体流赛事516可包括独白、颁奖仪式、获奖者演讲、参与者出场、表演描述、商业广告插播等。

在其他示例中,可基于社交媒体、流行视点、投票等来识别兴趣点或赛事。例如,可使用与特定媒体(例如,颁奖典礼直播)相关联的社交媒体网络上的流行评论来识别可能的兴趣点和大致的出现时间(例如,在对主题进行首次评论之前不久)。又如,观众可通过在媒体中标记时间(例如,使用遥控器上的按钮、口头请求、虚拟按钮等)来指出兴趣点。再如,可从与其他人共享媒体(诸如,从媒体流的某个部分共享视频剪辑)的用户处识别兴趣点。因此,可从媒体提供商、用户、社交网络讨论和各种其他源中识别数据馈送810中的媒体流赛事516。

在图8的示例中,数据馈送810可包括与颁奖典礼中的赛事相关联的媒体流赛事516。例如,喜剧演员Whitney Davidson的开场独白可能在11:00(UTC)时已经发生,并且数据馈送810可在该赛事的特定媒体流时间514处包括相关联的媒体流赛事516。在11:08(UTC)时,名为Jane Doe和John Richards的演员可能已向一位名为Jennifer Lane的获奖设计师颁发了最佳服装设计奖。颁奖细节(例如,奖项名称、颁奖嘉宾、获奖者等)可纳入与在特定媒体流时间514的颁奖相关联的媒体流赛事516中。在11:10(UTC)时,最佳服装设计奖获得者可能已发表演讲,并且媒体流赛事516可被纳入该时间,并带有相关细节(例如,奖项类型、获奖者、演讲者等)。在11:12(UTC)时,可由名为David Holmes的歌手表演名为“难忘”的音乐节目,并且带有相关细节的媒体流赛事516可被纳入对应的时间514。如图所示,同样可纳入各种其他媒体流赛事516并与特定媒体流时间514关联起来。不同赛事的细节可变化,并且部分或全部信息可被并入虚拟助理知识中。

在其他示例中,具有附加详细信息的各种其他媒体流赛事516可被包括在数据馈送810中,并且/或者由媒体流812本身确定。例如,可将正出现在屏幕上的演员或参与者与媒体流时间514关联起来。此类信息可源于所获得的数据或可通过分析媒体流812(例如,使用面部识别等)得出。另外,各种其他细节可纳入特定赛事中,或者可与媒体流关联起来,诸如,各种统计值、参与者信息(例如,观众、制片人、导演等)等。这样,数据馈送810便可包括在各个时间514在媒体流812中发生的各种赛事516的详细文本描述。如上所述,该信息可被并入虚拟助理的知识库,并用于响应用户请求,诸如,根据在上面参见过程400的框406所讨论的用户请求来提示视频。

图9示出了将媒体流中的赛事与媒体流912中的特定时间514关联起来的示例性数据馈送910。数据馈送910可包括与如上所述的数据馈送510和数据馈送810相似的特征,并且数据馈送910可类似地在框402处被接收,并用于在上面所讨论的过程400的框406处引起媒体回放。在图9的示例中,媒体流912可包括电视节目,诸如,情景喜剧。在其他示例中,类似的媒体流可包括游戏节目、新闻节目、谈话节目、综艺节目、问答节目、虚拟现实节目、戏剧、肥皂剧等。无论概要信息或特定媒体的其他描述性细节是否与特定时间相关,它们都可包括在数据馈送910中(例如,可包括在标头等中)。在例示的示例中,在14:00(UTC)时在第一框中提供了描述性概要信息,包括媒体标题(例如,“电视节目”)、媒体说明(有演员Jane Holmes(人物A)和David Doe(人物B)出演的情景喜剧)、和媒体源(例如,流传输自网络源)。可相似地提供各种其他描述性信息,并且可在特定字段中提供信息以供参考(例如,标题字段可包括标题、源字段可包括电视频道或因特网地址等)。除了图9中所示的信息之外,还可获得各种其他媒体信息,诸如,制片人、导演、主持人、参与者名称、参与者的特征、演员、情节说明、嘉宾等。各种概要和描述性信息都可被并入虚拟助理知识中并用于支持相关查询。

如图所示,数据馈送910可包括与媒体流时间514相关的媒体流赛事516,这可类似于上文参见图5所讨论的赛事516和时间514。数据馈送910中的媒体流赛事516可包括媒体流912中的各种赛事或兴趣点。在如同媒体流912的电视节目(例如,电视剧、新闻节目、谈话节目等)中,例如,媒体流赛事516可包括表演描述(例如,场景说明、表演者出场等)、节目段指示符(例如,独白、欢送、片头、嘉宾出场、颁奖环节)、商业广告插播等。

在其他示例中,可基于社交媒体、流行视点、投票等来识别兴趣点或赛事。例如,可使用与特定媒体(例如,流行情景喜剧的新剧集、夜间谈话节目等)相关联的社交媒体网络上的流行评论来识别可能的兴趣点和大致的出现时间(例如,在对主题进行首次评论之前不久)。又如,观众可通过在媒体中标记时间(例如,使用遥控器上的按钮、口头请求、虚拟按钮等)来指出兴趣点。再如,可从与其他人共享媒体(诸如,从媒体流的某个部分共享视频剪辑)的用户处识别兴趣点。因此,可从媒体提供商、用户、社交网络讨论和各种其他源中识别数据馈送910中的媒体流赛事516。

在图9的示例中,数据馈送810可包括与情景喜剧电视节目中的赛事相关联的媒体流赛事516。例如,片头部分可能在14:01(UTC)时已经发生,并且数据馈送910可在该赛事的特定媒体流时间514处包括相关联的媒体流赛事516。在14:03(UTC)时,在节目情节中,两个人物可能已经为争夺停车位而打起来了。情节中场景或时刻的细节(例如,屏幕上的人物、屏幕上的演员、所发生的事情等)可纳入与在特定媒体流时间514的颁奖相关联的媒体流赛事516中。在14:06(UTC)时,特邀嘉宾可能已经出现在节目中并演唱了歌曲,并且带有相关细节的媒体流赛事516可被纳入对应的时间514。如图所示,同样可纳入各种其他媒体流赛事516并与特定媒体流时间514关联起来。不同赛事的细节可变化,并且部分或全部信息可被并入虚拟助理知识中。

在其他示例中,具有附加详细信息的各种其他媒体流赛事516可被包括在数据馈送910中,并且/或者由媒体流912本身确定。例如,可将正出现在屏幕上的演员或参与者与媒体流时间514关联起来。此类信息可源于所获得的数据或可通过分析媒体流912(例如,使用面部识别等)得出。另外,各种其他细节可纳入特定赛事中,或者可与媒体流关联起来,诸如,各种统计值、参与者信息(例如,观众、制片人、导演等)等。这样,数据馈送910便可包括在各个时间514在媒体流912中发生的各种赛事516的详细文本描述。如上所述,该信息可被并入虚拟助理的知识库,并用于响应用户请求,诸如,根据在上面参见过程400的框406所讨论的用户请求来提示视频。

在本文所讨论的各种示例中的任一示例中,附加的虚拟助理知识可源于与特定媒体内容相关联的隐藏式字幕文本。例如,本文所讨论的任何数据馈送的信息可由隐藏式字幕文本补充或源于隐藏式字幕文本。可基于与媒体回放中的特定时间相关联的隐藏式字幕文本(例如,识别何时说出特定短语、识别特定人物何时说话等),在媒体流时间514处添加附加媒体流赛事516。另外,根据本文所讨论的各种示例(例如,基于说出的名字),可使用隐藏式字幕文本来消除用户请求的歧义并确定用户意图。

图10示出了可用于响应虚拟助理查询的、与视频1050中的特定时间相关联的示例性隐藏式字幕文本1054。在例示的示例中,隐藏式字幕界面1052可包括在显示器112上示出的视频1050的当前回放位置1056处的隐藏式字幕文本1054。在当前回放位置1056,在屏幕上可出现人物1060、人物1062和人物1064,并且他们当中有些人可能在说以隐藏式字幕文本1054示出的文本。在得到用于虚拟助理知识的信息时,可将隐藏式字幕文本1054与当前回放位置1056相关联。在一些示例中,时间偏移1058可被用作参考(例如,隐藏式字幕文本1054的文本可在视频1050中出现两分钟,或者类似地,等效语音可在视频1050中讲两分钟)。

可从隐藏式字幕文本1054得到各种信息,并且其中的一些信息可与时间偏移1058相关联并作为特定媒体流赛事516。例如,说出的名字可用于推断在特定时间人物在屏幕上的出场。说出的词语“Blanche”可例如用于推断名为“Blanche”的人物可能在视频1050中的时间偏移1058处或附近出现在屏幕上。然后,得到的信息可用于对与人物名称“Blanche”或从元数据识别的对应的女演员相关联的用户请求作出响应(例如,“为我播放Blanche出场的一幕”)。又如,所说出的话可被识别并与说出这些话的特定的时间相关联。说出的短语“背景显赫”可例如被识别为在视频1050中的时间偏移1058处或附近说出。然后,得到的信息可用于对与所说出的短语“背景显赫”相关联的用户请求作出响应(例如,“为我播放Blanche说了背景显赫的一幕”)。因此,可分析隐藏式字幕文本并将其与特定的时间相关联,并且该组合可被并入虚拟助理知识,以对相关的用户请求作出响应。

应当理解,无论是否在界面(诸如,界面1052)中示出了隐藏式字幕文本1054,都可以从该隐藏式字幕文本中得到信息。例如,可在实际上不播放对应视频的情况下分析隐藏式字幕文本,并且可从与隐藏式字幕相关联的元数据得到时间。此外,虽然在图10中的显示器112上示出了隐藏式字幕,但应当理解,在实际上播放或不播放相关视频的情况下,可对隐藏式字幕进行分析,从而在服务器或另一种设备处得到虚拟助理知识。

如上所述,从用户那里所接收的语音输入可能是模糊的。除了可用于解释用户请求(例如,屏幕上的队员、屏幕上的演员、回放位置等)的上述信息之外,各种其他上下文信息也可用于解释用户请求。例如,与用户有关的个人信息可用于解释用户请求。可基于语音识别、登录设备、输入密码、使用特定帐户、选择简介(例如,年龄和性别)等来识别用户。然后可使用所识别的用户(或特定家庭)的用户特定数据来解释用户请求。这样的用户特定数据可包括用户喜爱的团队、用户喜爱的运动、用户喜爱的队员、用户喜爱的演员、用户喜爱的电视节目、用户的地理位置、用户人口统计、用户的观看历史、用户的订阅数据等。另外,用户特定数据(或家庭特定数据)可包括媒体内容观看历史,其反映了通常观看的节目、通常观看的体育比赛、优选类型等。此外,在一些示例中,可从用户语音推断出通用的年龄和性别数据(例如,基于音高、用词等),该数据然后可用于根据简介来设定结果偏好(例如,基于可能的偏好来设定措辞、表演、名称、查询结果等的偏好)。

在一些示例中,用户请求可特别标引用户特定数据。例如,用户可提及“我的团队”(例如,“我的团队表现如何?”)。然后可使用用户特定的数据,将参考“我的团队”解析为被指定为用户喜爱的团队的特定运动队。在其他示例中,用户特定数据可用于设定语音识别和用户意图确定的偏好(例如,推断出特定用户,该用户可能是基于其中出现该演员的最近观看的电影来询问特定演员的)。例如,可在用户特定数据中识别用户喜欢的、观看的或以其他方式相关联的演员或队员的名称,并在语音识别和意图确定过程中使用这些名称,从而对支持那些演员或队员名称的结果设定偏好。这可有助于准确地识别唯一名称、听起来像其他词语或其他名称的名称等。

除了本文所讨论的用于准确识别语音输入和解释用户请求的各种其他上下文源之外,来自与用户相关联的多个设备的信息可被用作准确语音识别和确定用户意图的上下文。例如,(例如,在显示器112上)观看电视的用户也可在另一设备(例如,在用户设备102上)上消费内容。然后可使用来自两个设备的内容来解释用户请求。

图11A示出了显示有视频1150的电视显示器112。图11B示出了带有触摸屏246的用户设备102,该设备示出了显示的图像1170和显示的文本1172。可接收标引来自任一设备的内容的用户请求(例如,经由遥控器106或用户设备102)。例如,用户可请求示出“Jennifer的”最近一个进球。仅来自语音输入的对“Jennifer”的参考可能是模糊的。然而,显示的文本1172可用于消除请求的歧义,并将Jennifer识别为出现在用户设备102上示出的内容中的队员。然后可基于特定队员来识别响应于请求的视频内容,并且可为用户播放该内容。可在显示器112或用户设备102上获得响应内容(例如,基于特定命令、用户偏好等)。

又如,可在语音识别过程中使用与图11A中的视频1150相关联的名称以及与图11B中所示图像1170和所示文本1172相关联的名称,以使结果偏向可能的名称候选项或识别可能难以识别的名称。例如,用户请求可包括可能模糊的名称,但可使用与在任一设备上显示的内容相关联的名称来准确识别用户意图。在其他示例中,可类似地使用与在任一设备上显示的内容相关联的演员、颁奖嘉宾、表演者、制片人、导演、参与者、判罚、体育术语等的列表,来提高语音识别准确度并确定用户意图。

在一些示例中,图11B中所示图像1170可包括运动的图像或视频。例如,图11B中所示内容可包括次级屏幕体验数据(例如,旨在伴随另一节目的数据和视频)、次级相机视图数据(例如,针对特定节目相比于主要显示的视频带有可选视图或有利位置的视频)等。这样的信息可用于提高语音识别准确度,并通过与上述类似的方式确定用户意图。此外,无论是否在单独的用户设备上示出,次级屏幕体验数据、次级相机视图数据等都可被接并用作数据馈送的一部分,以识别媒体流中的相关的兴趣点和相关联的时间。例如,次级屏幕体验可包括对比赛亮点的说明。这些说明可被纳入虚拟助理知识中,作为带有相关媒体流时间的相关媒体流赛事,并可用于响应用户请求。类似地,次级相机视图数据可被纳入虚拟助理知识中,作为识别特定媒体流时间的相关媒体流赛事,在该特定媒体流时间中可选的相机内容是可用的(其例如可用于响应某些用户请求)。

如上所述,响应于某些用户请求,可从特定的提示时间开始回放媒体。在一些示例中,可响应于一些用户请求而连续回放一个或多个媒体流中的多个段。例如,用户可请求观看比赛亮点、比赛中所有的进球、比赛中所有的打斗、节目中特定演员的所有出场、节目中特定人物的所有场景、多个谈话节目中的每一个节目的开场独白、多个比赛节目中的每一个比赛节目的颁奖环节、一个节目的最佳时刻或一个或多个节目的各种其他媒体片段。通过采用与上述相同的方式,可在一个或多个节目中识别出与所需赛事相关联的特定时间,并且可开始回放,其中第一段后面连续跟着其他所识别的段。在一些示例中,可基于书签人气、社交媒体讨论、回复数量等来确定亮点、最佳时刻等。可通过各种方式来识别每段的结束,诸如,通过商业广告插播、相关媒体流中的另一个媒体赛事、默认播放时间、媒体赛事细节中的特定端点条目等。这样,用户可请求例如突出显示他们想看到的特定内容的卷,并且系统可自动识别所需亮点并连续回放(或以任何其他顺序等提供以可选地播放)。

在一些示例中,用户可能想要与朋友、家人等共享媒体流中特定的段。在一个示例中,用户可指示对应于媒体流中特定播放位置的媒体流中的书签位置。然后,该定制书签位置可被传送到服务器,并通过社交网络、消息、其他电视机顶盒104、其他用户设备102等与朋友共享。用户可使用物理按钮、虚拟按钮、语音输入或使用遥控器106和/或用户设备102的任何其他条目来指示书签。例如,用户可将请求导向到虚拟助理系统以对某个媒体片段添加书签,并将其发送至用户通讯录中的联系人(例如,对其添加书签并发送至Corey)。然后,系统可识别特定的媒体片段(例如,媒体标识符以及UTC参考、偏移等),并将其传输至所需联系人。在一些示例中,用户既可识别所需段的起始位置,也能识别结束位置。在其他示例中,用户可指示并共享特定的媒体流赛事(例如,与Jordan共享此进球、向Susan发送此表演等)。在其他示例中,书签和媒体流赛事可通过社交网络等来共享。

如上所述,响应于媒体相关的虚拟助理查询,系统可提示视频回放和/或采用信息回答进行响应(例如,通过在显示器112或用户设备102上显示文本响应、大声播放出响应等)。在一些示例中,可通过类似的方式使用如本文所讨论的用于提示视频以供回放的各种数据馈送和其他信息,以确定对用户请求的信息响应。图12示出了用于将信息整合到数字助理知识中,并响应用户请求的示例性过程1200。在框1202处,可接收包括与媒体流中的时间相关联的赛事的数据馈送。数据馈送可包括本文所讨论的带有任何对应的媒体流赛事516的任何数据馈送,诸如,参考图5讨论的数据馈送510、参考图8讨论的数据馈送810,以及参考图9讨论的数据馈送910。

再次参见图12中的过程1200,在框1204处,可接收到与数据馈送中的赛事相关联的口头用户请求。用户可请求关于任何媒体流赛事、当前播放的媒体、屏幕上的队员、屏幕上的演员等的信息。例如,用户可请求识别得分的队员(例如,“谁进球得了那分?”)、识别鸣哨判罚(例如,“为什么要判罚?”)、识别屏幕上的表演者(“那是谁?”)、识别歌名(例如,“她在唱什么?”)、识别屏幕上节目中的人物(例如,“这些人物叫什么名字?”)、识别节目中的人物(例如,“该节目中都有谁?”)、剧情介绍(例如,“这集的内容是什么?”)、系列节目说明(例如,“该系列节目的内容是什么?”)或与媒体内容相关联的各种其他查询。

在框1206处,可基于与赛事相关的数据(例如,来自本文所讨论的任何数据馈送的数据)生成对用户请求的响应。例如,可搜索本文所讨论的任何媒体流赛事516来获得对各种查询的信息响应(例如,诸如,上文参见框1204所提到的各种查询示例)。在一些示例中,可基于当前播放的媒体(例如,播放中的节目、暂停着的节目、在屏幕上显示的节目等)生成响应。例如,仅基于语音输入而言,提及当前播放的媒体的用户请求可能是模糊的。当前播放的媒体可用于消除用户请求的歧义,并通过解析关于当前内容的参考来确定用户意图。例如,用户可请求“这个”节目的演员的列表(例如,“这节目中都有谁?”),但由于从语音输入来看所提及的节目并不明显,因此该请求可能是不清楚的。然而,当前播放的节目可用于解析对“这个”的参考并识别用户意图。例如,如果正在播放图9的电视节目示例,则在14:00(UTC)时列出的概要信息可用于通过识别演员Jane Holmes和David Doe来响应用户查询。

在其他示例中,可基于当前回放的媒体的当前回放位置和/或由用户先前消费的媒体内容来生成响应。例如,用户可请求识别刚被示出为进球的队员,并且可在请求中提及“那个”进球(例如,“谁进了那个球?”)。可利用当前播放的媒体的当前回放位置来确定用户意图,并且通过不论稍后是否有其他进球出现在媒体流中,都将“那个”进球解析为用户被示出的最近的进球来生成响应。在图7的示例中,当前回放位置732可用于将“那个”进球解析为前一个进球734,并且对应媒体流赛事的内容可用于回答查询。具体地讲,队员M可被识别为射进了用户看到的最近的进球。如上文参见图7所讨论的那样,当前回放位置还可用于从各种其他模糊参考(例如,下一个、前一个等)确定用户意图,然后所识别的媒体流赛事信息可用于制定对查询的响应。

另外,在一些示例中,用户可能想要改变他们的观看体验并延迟对直播或更新的信息的获悉。例如,用户可在体育赛事已经开始之后或甚至在其已经结束之后开始观看。然而,用户可能想要像现场直播那样体验整个比赛。在这种情况下,可将可用的虚拟助理知识过滤为与当前回放位置同时可用的参考信息,并避免参考来自当前播放位置之后的点的信息。例如,再次参见图7的示例,假设用户正在当前回放位置732处观看,则系统可避免在响应中包括下一个进球740。用户可请求例如当前回放位置732处的进球(例如,“到目前为止分数为多少?”)。作为响应,系统可基于先前观看的赛事(例如,前一个进球734)提供分数,同时排除当前回放位置732之后的赛事(例如,下一个进球740)。

在一些示例中,用户请求可规定响应信息应当与当前回放位置同步(例如,通过说“直到这一点”、“直到现在”、“在比赛中的这一点”、“到目前为止”等),或者规定响应信息应当是可用的最新信息(例如,通过说“直播的”、“更新的”、“当前”等)。在其他示例中,设置、用户偏好等可确定响应是否包括最新更新的信息,或者替代地仅包括与回放位置同步的信息。此外,在一些示例中,可与特定比赛相关(例如,基于术语、名称等)的警报、通知、消息、社交媒体馈送条目等可根据需要而被阻止发送给用户,并且仅在用户到达对应于各种消息的相关内容中的回放位置之后再递送。例如,来自朋友对直播体育赛事进行评论的消息(例如,用于在用户设备102或任何其他设备上递送)可被有意延迟,直到用户到达对应于发送消息的时间的延迟观看的体育赛事中的点,消息可将在该点处被递送至用户。这样,可根据需要时移观看体育赛事(或消费任何其他媒体)的整个体验(例如,以避免破坏结果)。

在其他示例中,可基于由电视机顶盒104在显示器112上示出的内容、在用户设备102的触摸屏246上示出的内容和/或与所显示内容中的任何内容相关联的元数据来生成响应。例如,可基于屏幕上的演员、屏幕上的队员、参赛者的列表、节目中的演员的列表,团队名单等来生成响应。如上文参见图6、图11A和图11B所讨论的那样,可从所显示的内容和相关联的元数据得到各种信息,并且该信息可用于消除用户请求的歧义,确定用户意图,并生成对用户请求的响应。例如,可基于在当前回放位置附近的媒体流赛事、面部识别、隐藏式字幕文本等来生成用于识别屏幕上队员的用户请求(例如,“那位是谁?”)的响应。在图6的示例中,例如,靠近提示时间624的媒体流赛事(例如,附近的A队进球)可用于将屏幕上的队员628识别为队员M。在另一个示例中,可利用图像处理来识别屏幕上的队员628的球衣号码,以将其从名单中识别为队员M。

再次参见图12中的过程1200,在框1208处,可使得在框1206处确定的响应将被递送。在一些示例中,递送该响应可包括使得响应通过电视机顶盒104在显示器112、在用户设备102或在另一种设备上显示或播放。例如,文本响应和/或媒体响应可在设备上的虚拟助理界面中显示或播放。在另一个示例中,递送响应可包括(例如,从服务器)向电视机顶盒104、用户设备102或另一种设备传输响应信息。在其他示例中,用户可请求识别图像或视频内的信息(例如,“哪一个是Jennifer?”),并且响应可包括基于例如在相关联的媒体流赛事中识别的坐标,显示重叠在图像或视频上的指示符(例如,箭头、点、轮廓等)。因此,过程1200可用于通过采用并入虚拟助理知识库中的适时数据,而以各种方式响应各种用户查询。

此外,在本文所讨论的各种示例中的任何一个示例中,可以为特定用户而个性化定制各个方面。包括联系人、偏好、位置、喜爱的媒体等的用户数据可用于解释语音命令,并且促进用户与本文所讨论的各种设备的交互。还可根据用户偏好、联系人、文本、使用历史、简介数据、人口统计数据等,以各种其他方式修改本文所讨论的各种过程。此外,这样的偏好和设置可基于用户交互(例如,频繁发出的命令、频繁选择的应用程序等)随时间更新。可利用收集和使用可从各种源获得的用户数据这一方式来改进向用户递送邀请内容或者他们感兴趣的任何其他内容。本公开预期,在一些示例中,这些所采集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。

本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如,该个人信息数据可用于递送用户较感兴趣的目标内容。因此,使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外,本公开还预期个人信息数据有益于用户的其他用途。

本公开还预期负责此类个人信息数据的收集、分析、公开、传输、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法使用之外共享或出售。另外,此类收集应当仅在用户知情同意之后进行。另外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。

不管前述情况如何,本公开还预期用户选择性地阻止使用或访问个人信息数据的示例。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。又如,用户可选择不为目标内容递送服务提供位置信息。再如,用户可选择不提供精确的位置信息,但准许传输位置区域信息。

因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例,但本公开还预期各种示例也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种示例不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最低限度的个人信息,诸如与用户相关联的设备所请求的内容、对内容传送服务可用的其他非个人信息或公开可用信息来推断偏好来选择内容并传送给用户。

根据一些示例,图13示出了根据所描述各种示例的原理配置的电子设备1300的功能框图,以便例如对媒体回放进行语音控制,并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图13中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。

如图13所示,电子设备1300可包括被配置为显示媒体、界面和其他内容(例如,显示器112、触摸屏246等)的显示单元1302。电子设备1300还可包括输入单元1304,该输入单元被配置为接收信息,诸如,语音输入、触觉输入、手势输入、媒体信息、数据馈送、媒体等(例如,麦克风、接收器、触摸屏、按钮、服务器等)。电子设备1300还可包括耦接至显示器单元1302和输入单元1304的处理单元1306。在一些示例中,处理单元1306可包括数据馈送接收单元1308、用户请求接收单元1310,以及媒体回放单元1312。

处理单元1306可被配置为接收(例如,使用数据馈送接收单元1308从输入单元1304接收)数据馈送,其中该数据馈送包括与和媒体流中的时间相关联的赛事相关的数据。处理单元1306还可以被配置为基于语音输入来接收(例如,使用用户请求接收单元1310从输入单元1304接收)与赛事相关联的用户请求。处理单元1306还可被配置为响应于接收到用户请求,使得媒体流的回放(例如,使用媒体回放单元1312)在媒体流中的与赛事相关联的时间开始(例如,在显示单元1302上)。

在一些示例中,处理单元1306还可被配置为基于当前播放的媒体来解释用户请求。在其他示例中,处理单元1306还可被配置为基于当前播放的媒体的当前回放位置来解释用户请求。在其他示例中,处理单元1306还可被配置为基于以下各项中的一者或多者来解释用户请求:屏幕上的演员、屏幕上的队员、参赛者的列表、节目中的演员的列表、节目中的人物的列表、或团队名单。在一些示例中,媒体流包括体育赛事,并且与该赛事相关的数据包括队员特征中的一个或多个(例如,姓名、昵称、号码、位置、团队、阵容深度、经验、风格、传记信息等)、得分、判罚、统计、或赛段指示符(例如,四分之一、一局、一半、一圈、警告标志、中继站、落后、比赛等)。在其他示例中,媒体流包括颁奖典礼,并且与该赛事相关的数据包括参与者的一个或多个特征(例如,姓名、昵称、人物名称、传记信息等)、表演描述、或指定的颁奖者。在其他示例中,媒体流包括电视节目,并且与赛事相关的数据包括以下各项中的一者或多者:表演描述、或节目段指示符。

在一个示例中,用户请求(例如,请求用户请求接收单元1310)包括对媒体流中亮点的请求。在一些示例中,处理单元1306还可被配置为响应于接收到请求而使媒体流的多个段连续回放。在其他示例中,致使媒体流回放包括在除电子设备之外的回放设备上引起媒体的回放。在一些示例中,电子设备包括服务器、机顶盒、遥控器、智能电话或平板电脑。在其他示例中,回放设备包括机顶盒、智能电话、平板电脑或电视。处理单元1306还可被配置为基于由电子设备所显示的信息来解释用户请求。处理单元1306还可被配置为基于由回放设备所显示的信息来解释用户请求。

在一些示例中,与赛事相关的数据包括隐藏式字幕文本。处理单元1306还可被配置为基于隐藏式字幕文本来确定媒体流中的与赛事相关联的时间。在一个示例中,与赛事相关的数据包括以下各项中的一者或多者:次级屏幕体验数据、次级相机视图数据、或社交网络馈送数据。处理单元1306还可被配置为接收来自用户的书签指示,其中该书签对应于媒体流中特定的回放位置。处理单元1306还可被配置为接收用户共享书签的请求,并且响应于接收到用于共享书签的用户请求,将与特定播放位置相关联的提示信息传送到服务器。处理单元1306还可被配置为基于用户喜爱的团队、用户喜爱的运动、用户喜爱的队员、用户喜爱的演员、用户喜爱的电视节目、用户的地理位置、用户人口统计、用户的观看历史或用户的订阅数据中的一个或多个来解释用户请求。

根据一些示例,图14示出了根据所描述各种示例的原理配置的电子设备1300的功能框图,以便例如使信息整合到数字助理知识中并响应用户请求。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解,图14中所述的功能块可被组合或被分离为子块,以便实现各种所述示例的原理。因此,本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。

如图14所示,电子设备1400可包括被配置为显示媒体、界面和其他内容(例如,显示器112、触摸屏246等)的显示单元1402。电子设备1400还可包括输入单元1404,该输入单元被配置为接收信息,诸如,语音输入、触觉输入、手势输入、媒体信息、数据馈送、媒体等(例如,麦克风、接收器、触摸屏、按钮、服务器等)。电子设备1400还可包括耦接至显示器单元1402和输入单元1404的处理单元1406。在一些示例中,处理单元1306可包括数据馈送接收单元1408、用户请求接收单元1410、响应生成单元1412、以及响应递送单元1414。

处理单元1406可被配置为接收(例如,使用数据馈送接收单元1408从输入单元1404接收)数据馈送,其中数据馈送包括与和媒体流中的时间相关联的赛事相关的数据。处理单元1406还可以被配置为基于来自用户的语音输入而接收(例如,使用用户请求接收单元1410从输入单元1404接收)与赛事相关联的用户请求。处理单元1406还可以被配置为基于与赛事相关的数据而生成(例如,使用响应生成单元1412)对用户请求的响应。处理单元1408还可以被配置为使得(例如,使用响应递送单元1414)响应将被递送。

在一些示例中,生成响应(例如,使用响应生成单元1412)进一步包括基于当前播放的媒体而生成响应。在其他示例中,生成响应(例如,使用响应生成单元1412)进一步包括基于当前播放的媒体的当前回放位置而生成响应。在其他示例中,生成响应(例如,使用响应生成单元1412)进一步包括基于由用户先前消费的媒体内容而生成响应。在一些示例中,生成响应(例如,使用响应生成单元1412)进一步包括基于以下各项中的一者或多者来生成响应:屏幕上的演员、屏幕上的队员、参赛者的列表、节目中的演员的列表、或团队名单。

在一些示例中,处理单元1406还可以被配置为响应于包括对与当前正在播放的媒体的当前回放位置同步的信息的请求的用户请求,基于与当前回放位置同步的数据来生成响应,其中与当前回放位置同步的数据不包括与当前回放位置之后的时间相关联的数据;并且响应于包括对实况信息的请求的用户请求,基于实况数据来生成响应。在一些示例中,使得响应将被递送(例如,使用响应递送单元1414)包括使得响应将在除了电子设备之外的回放设备上被显示或播放。在其他示例中,使得响应将被递送(例如,使用响应递送单元1414)包括使得响应将被递送到除了电子设备之外的回放设备。在一些示例中,电子设备包括服务器、机顶盒、遥控器、智能电话或平板电脑。在其他示例中,回放设备包括机顶盒、智能电话、平板电脑或电视。在一些示例中,处理单元1406还可被配置为基于由电子设备所显示的信息来解释用户请求。在其他示例中,处理单元1406还可被配置为基于由回放设备所显示的信息来解释用户请求。

虽然已参见附图完整地描述了示例,但是需注意,对于本领域技术人员来说各种变化和修改将是显而易见的(例如,根据本文所描述的与本文所讨论的任何其他系统或过程关联的概念,修改本文所讨论的任一系统或过程)。应当理解,此类变化和修改被认为包括在由所附权利要求所限定的各种示例的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1