使用声道的语音识别来获取有关音视频节目的信息的制作方法

文档序号：2833121阅读：164来源：国知局

专利名称：使用声道的语音识别来获取有关音视频节目的信息的制作方法
技术领域：
本发明一般地涉及使用声道的语音识别来获取有关诸如TV之类的消费电子产品(CE)上呈现的音视频节目的信息。
背景技术：
技术向用户提供了越来越多的用来观看音视频节目和/或内容的选择。这些节目可以在例如高清晰电视、智能电话和个人计算机上被观看。这些音视频节目也可以是从例如互联网或卫星电视提供商的不同源得到的。通常，用户期望查看与节目有关的信息，其中该信息对于他们而言可能不一定是容易辨识的或容易访问的。例如，用户可能想要有关节目中出演的个人的姓名的信息。本申请认识到了获取与音视频节目有关的信息的难度。·

发明内容
因此，本原理认识到向用户提供查明与音视频节目有关的信息的相对而言非常简单的方式是有利的。因此，一种用于获取有关消费电子产品(CE)设备上正在呈现的音视频节目的信息的方法包括在CE设备处接收识别CE设备上正在呈现的音视频节目的观看者命令。该方法还包括从麦克风接收信号，其中所述信号可以代表来自CE设备上正在呈现的音视频节目的音频，当所述音频在CE设备上被实时播放时,所述音频被所述麦克风感测到。在非限制性实时方式中，该方法还可以包括对来自麦克风的信号执行语音识别以确定被所述麦克风感测到的来自所述CE设备上正在呈现的音视频节目的音频中的词语(words)。另外，该方法还可以包括将词语上载到因特网服务器并从因特网服务器接收回通过服务器使用所述词语而被与CE设备上正在呈现的音视频节目相相关的信息。更进一歩，在一些非限制性实施方式中，该方法还可以包括从来自麦克风的信号捕获来自被麦克风感测到的音视频节目的音频中的预定数目的词语，并将该预定数目的词语和其它内容上载到因特网服务器。如果期望的话，该方法还可以包括通过服务器使用词语而被与CE设备上正在呈现的音视频节目相相关的信息可以包括音视频节目的艺术贡献者。此外，在非限制性实施方式中，从服务器接收的信息可以包括到因特网站点的链接，所述链接可被观看者选择来访问因特网站点以下载与音视频节目有关的信息。在一些实施方式中，CE设备可以从服务器接收响应于词语到服务器的上载的对另外的音视频节目的推荐。另外，在非限制性实施方式中，该方法还可以包括从服务器接收响应于对词语到服务器的上载的广告。在非限制性所述方式中，CE设备可以是TV，并且用于识别CE设备上正在呈现的音视频节目的观看者命令可以是通过对TV选项用户界面上的“识别”选择器的选择而被接收的。在其它非限制性实施例中，CE设备可以是个人计算机(PC)，并且用于识别CE设备上正在呈现的音视频节目的观看者命令可以是通过对右击实例化的可选择的“识别”选择器的选择而被接收的。在又一些非限制性实施例中，CE设备可以是智能电话，并且用于识别CE设备上正被呈现的音视频节目的观看者命令可以是通过对电话选项用户界面菜单上的“识另IJ”选择器的选择而被接收的。在另一方面中，服务器可以包括音视频节目脚本的数据库和处理器。处理器可以通过因特网从消费电子产品(CE)设备接收词语，其中，所述词语可以被CE设备从CE设备上正被呈现的音视频节目的声道中识别出。在非限制性实施方式中，处理器可以访问数据库并且使用词语来将所述词语与至少ー个音视频节目脚本相匹配。如果期望，服务器还可以向CE设备返回与其声道是与词语匹配的音视频脚本的音视频节目有关的信息。在又一方面中，一种系统，可以包括消费电子产品(CE)设备和服务器。该服务器可以包括处理器和数据库，其中所述数据库可以具有音视频节目声道。在非限制性实施例中，处理器可以通过因特网来从CE设备上正在呈现的音视频节目接收(ー个或多个)音频信号。处理器可以使用这(ー个或多个)音频信号来访问数据库以将这(ー个或多个)·音频信号与至少ー个音视频节目匹配。如果期望，处理器可以向CE设备返回与其声道与这(ー个或多个)音频信号相匹配的音视频节目的有关的信息。參考附图可以看出本申请结构和操作两方面的细节，其中，类似的标号指代类似的部件，其中

图I是根据本原理的非限制性示例系统的框图；图2是根据本原理的用于获取与音视频节目有关的信息的示例逻辑的流程图；图3是根据本原理的用于确定服务器可以推荐的音视频节目的示例逻辑的流程图；图4是根据本原理的用于确定服务器可以向CE设备发送的广告的示例逻辑的流程图；以及图5和图6是包括与可以呈现在CE设备上的音视频节目有关的信息的示例截屏。
具体实施例方式首先參考图I中示出的非限制性示例实施例，系统10包括诸如TV之类的消费电子产品(CE)设备12，其包括外壳14和TV调谐器16，TV调谐器16与TV处理器18通信，TV处理器18访问诸如基于盘的或固态的存储装置之类的有形计算机可读存储介质20。CE设备12可以在ー个或多个扬声器22上输出音频，并且可以使用诸如有线或无线调制解调器之类的网络接ロ 24来从因特网接收流传输视频，其中网络接ロ 24与处理器18通信，处理器18可以运行软件实现的浏览器。视频在TV处理器18的控制下被呈现在TV显示器26上，TV显示器26诸如但不限于是高清晰TV(HDTV)平板显示器。麦克风28可以被设置在外壳14上并与图所示地与处理器18通信。此外，给处理器18的用户命令可以使用例如射频或红外线从遥控器(RC) 30无线地接收。在所示出的示例中，RC 30包括信息键32。可以使用除了 TV之外的音视频显示设备。使用网络接ロ 24，处理器18可以与具有处理器38的信息服务器34通信来访问脚本数据库36以用于马上要披露的目的。通过与TV 12通信的地面广播天线接收到的来自ー个或多个地面TV广播源的TV节目编排(programming)可以在显示器26和扬声器22上被呈现。来自有线TV头端的TV节目编排也可以在TV处被接收以用于在显示器26和扬声器22上呈现。类似地，从通过与家用卫星天线相关联的集成接收机/解码器(RID)接收到的TV广播信号的卫星源发送的HDMI基带信号可以被输入到CE设备12以用于在显示器26和扬声器22上呈现。此外，流传输视频可以经由因特网和网络接ロ 24从ー个或多个内容服务器接收以用于在显示器26和扬声器22上呈现。现在參考图2，示出根据本原理的示例逻辑的流程图。从框40开始，逻辑可以接收对呈现与诸如上述CE设备12之类的CE设备上正在呈现的音视频节目有关的信息的请求。因此，CE设备可以是TV，其中，对与音视频节目有关的信息的请求可以通过对选项用户界面上的“识别”选择器(类似于例如图I的信息键32)的选择而被接收到。然而，在非限·制性实施例中，CE设备也可以是个人计算机(PC)，其中用于识别音视频节目的观看者命令可以通过对右击实例化的可选择的“识别”选择器的选择而被接收到。在又一些非限制性实施例中，CE设备可以是智能电话，其中，用于识别音视频节目的观看者命令可以通过对电话选项用户界面菜单上的“识别”选择器的选择而被接收到。不论如何，在图2的框42处，逻辑可以从CE设备上的麦克风接收信号，在非限制性实施例中，麦克风例如是上述麦克风28，所述信号代表来自CE设备上正被呈现的音视频节目的音频，其中当所述音频在CE设备上被实时播放时,所述音频被麦克风感测到。应当理解，在非限制性实施例中，音频中的预定数目的词语(例如十个)，和/或音频中具有预定时间长度的音频部分和/或片段可以通过麦克风从信号中被捕获。随后，在图2的框44处，逻辑可以对来自麦克风的信号执行语音识别来确定来自被麦克风感测到的、CE设备上正在呈现的音视频节目的音频中的词语。移动到框46，逻辑随后可以将词语上载到因特网服务器，在非限制性实施例中，因特网服务器诸如是上述服务器34。应当理解，在一些实现方式中，该信息可以通过因特网被上载。在非限制性实施例中，还应当理解，仅上述预定数目的词语以及其它内容可以被上载到因特网服务器。此外，在非限制性实施例中，仅具有预定时间长度的音频部分和/或片段以及其它音频部分和/或片段可以被上载到因特网服务器。还是參考图2，逻辑随后可以在框48处结束，其中，逻辑可以从因特网服务器接收回通过服务器使用所述词语而被与CE设备上正在呈现的音视频节目相相关和/或相匹配的信息。在非限制性实施例中，所述信息可以包括音视频节目的艺术贡献者、诸如哪个工作室拥有节目的合法权益的制作数据，节目被拍摄和/或制作的地点、(例如通过称为“数据挖掘”的技术生成的)与节目的流行度有关的数据，和/或与节目有关的其它数据。此外，在非限制性实施例中，所述信息还可以包括到因特网站点的链接，这些链接可被观看者选择来访问因特网站点以下载与音视频节目有关的信息和/或购买可以被与音视频节目相相关的另外的音视频内容或节目。还应当理解，在非限制性实施例中，服务器可以具有音视频节目脚本的数据库和处理器，诸如上述处理器38和数据库36。因此，CE设备上的处理器可以与服务器通信来访问脚本数据库，其中，服务器上的处理器可以通过因特网接收从CE设备上载并且被CE设备从CE设备上正在呈现的音视频节目的声道识别的词语。服务器随后可以在访问数据库时使用这些词语来将词语与至少ー个脚本相相关和/或匹配。服务器随后可以向CE设备返回与其声道是与词语相匹配的脚本的音视频节目有关的信息，该信息如上所述在框48处被接收。应当理解，数据库中的ー个或多个脚本可以是音频脚本。还应当理解，数据库中的脚本可以是从与音视频节目相相关的闭合字幕文本导出的。还是參考图2，替代于在框48处结束，在非限制性实施例中，逻辑可以继续进行到框50。在框50处，逻辑可以从服务器接收响应于词语到服务器的上载的和/或关联于(一个或多个)脚本的属性被与词语的相关的对另外的音视频节目的推荐。如果期望，逻辑随后可以进行到框52，其中，逻辑可以从服务器接收响应于词语到服务器的上载的和/或关联于(ー个或多个)脚本的属性被与词语的相关的广告。參考图3，示出根据本原理的用于确定服务器可以推荐的音视频节目的示例逻辑·的流程图。因此，在框54处开始时，逻辑可以将从CE设备上载到服务器的表示音视频节目的词语与至少ー个音视频脚本相关和/或匹配。随后，在框56处，逻辑可以将在框54处与词语匹配的(ー个或多个)脚本与共有艺术属性的其它音视频节目相关联。这样的属性可以包括例如音视频流派、诸如演员之类的艺术贡献者和制作工作室。在框58处结束时，包含与音视频节目共有艺术属性的其它音视频节目的推荐可以被发送给CE设备已被呈现给CE设备的用户。现在參考图4，示出根据本原理的用于确定服务器可以发送给CE设备的广告的示例逻辑的流程图。在框60处开始时，逻辑可以将从CE设备上载到服务器的表示音视频节目的词语与至少ー个音视频脚本相关和/或匹配。随后，在框62处，逻辑可以将与词语匹配的(ー个或多个)脚本与广告相关联。在非限制性实施例中，广告可以与和CE设备上正在呈现的音视频节目共有艺术属性的另外的音视频节目有夫。这样的属性可以包括例如音视频流派、诸如演员之类的艺术贡献者，以及制作工作室。然而，应当理解，广告可以与和CE设备上正在呈现的音视频节目的属性没有关联的产品和/或服务有夫。无论如何，逻辑在框64处结束，其中，广告可以被提供给CE设备已被呈现给CE设备的用户。移动到图5，示出根据本原理的可以被呈现在CE设备上的信息的非限制性示例截屏。根据本原理，截屏66可以包括对CE设备上正在呈现的音视频做出贡献的演员清单68、作者清单70和导演清单72。应当理解，这里使用的诸如“X”、“A”和“E”之类的字母为了简化起见而在自此描述的截屏中被提供，但是，在非限制性实施例中，例如演员、作者和导演的全名将被呈现。图5的截屏66还可以包括与音视频节目被拍摄的地点例如加利福尼亚有关的地点信息74。更进一歩地，根据本原理，截屏66可以包括广告76。最后，在图6中，示出根据本原理的可以被呈现在CE设备上的信息的另ー非限制性示例截屏。截屏78可以包括演员清单80。根据本原理，截屏78还可以提供到因特网站点的链接，所述链接可被观看者选择来访问包含与被提供了针对其的信息的音视频节目有关的信息的因特网站点和/或来购买有关的另外的音视频内容或节目。截屏78还可以包括有关与被提供针对其的信息的音视频节目的共有艺术属性的另外的音视频节目的推荐84，例如，图6的非限制性截屏中示出的“节目I”和“节目2”。另外，在非限制性实施例中，根据本原理，截频78可以包括广告86。
尽管在这里详细示出并描述了具体的使用声道的语音识别来获取有关音视频节目的信息，但是应当理解，本发明涵盖的主题仅由权利要求书限定。·
权利要求
1.一种用于获取有关消费电子产品CE设备上正在呈现的音视频节目的信息的方法，包括在所述CE设备处接收识别所述CE设备上正在呈现的音视频节目的观看者命令；从麦克风接收代表来自所述CE设备上正在呈现的音视频节目的音频的信号，其中当所述音频在所述CE设备上被实时播放时，所述音频被所述麦克风感测到；对来自所述麦克风的所述信号执行语音识别来确定被所述麦克风感测到的来自所述CE设备上正在呈现的音视频节目的音频中的词语；将所述词语上载到因特网服务器；以及从因特网服务器接收回通过所述服务器使用所述词语被与所述CE设备上正在呈现的音视频节目相关的信息。
2.如权利要求I所述的方法，其中，通过所述服务器使用所述词语被与所述CE设备上正在呈现的音视频节目相关的信息包括所述音视频节目的艺术贡献者。
3.如权利要求I所述的方法，包括从来自所述麦克风的所述信号中捕获被所述麦克风感测到的来自所述CE设备上正在呈现的音视频节目的音频中的预定数目的词语并仅所述预定数目的词语上载到所述因特网服务器。
4.如权利要求I所述的方法，其中，从所述服务器接收的信息包括到因特网站点的链接，所述链接能被观看者选择来访问所述因特网站点以下载与所述音视频节目有关的信肩、O
5.如权利要求I所述的方法，包括从所述服务器接收响应于所述词语到所述服务器的上载的对另外的音视频节目的推荐。
6.如权利要求I所述的方法，包括从所述服务器接收响应于所述词语到所述服务器的上载的广告。
7.如权利要求I所述的方法，其中，所述CE设备是TV并且识别所述CE设备上正在呈现的音视频节目的观看者命令是通过对TV选项用户界面上的“识别”选择器的选择而被接收的。
8.如权利要求I所述的方法，其中，所述CE设备是个人计算机PC并且识别所述CE设备上正在呈现的音视频节目的观看者命令是通过对右击实例化的能选择“识别”选择器的选择而被接收的。
9.一种服务器，包括处理器；音视频节目脚本的数据库，所述处理器通过因特网从消费者电子产品CE设备接收词语，所述词语是由所述CE设备从所述CE设备上正在呈现的音视频节目的声道识别出的；使用所述词语，访问所述数据库来将所述词语与至少一个音视频节目脚本匹配；以及向所述CE设备返回与其声道是与所述词语相匹配的音视频脚本的音视频节目有关的信息。
10.一种系统,包括消费电子产品CE设备；服务器，该服务器具有处理器；所述服务器上的音视频节目声道的数据库；其中，所述处理器通过因特网接收来自所述CE设备上正在呈现的音视频节目的一个或多个音频信号；使用所述一个或多个音频信号来访问所述数据库以将所述一个或多个音频信号与至少一个音视频节目相匹配；以及向所述CE设备返回与其声道与所述一个或多个音频信号相匹配的音视频节目有关的信息。
全文摘要
本发明公开了使用声道的语音识别来获取有关音视频节目的信息。一种用于获取有关消费电子(CE)设备上正在呈现的音视频节目的信息的方法，包括在CE设备处接收识别CE设备上正在呈现的音视频节目的观看者命令。该方法还包括从麦克风接收表示来自音视频节目的音频的信号，其中当所述音频在CE设备上被实时播放时，所述音频被麦克风感测到。该方法还包括对来自麦克风的信号执行语音识别以确定被麦克风感测到的来自音视频节目的音频中的词语。词语随后被上载到因特网服务器，在那儿，它们被与至少一个音视频脚本相关。该方法还包括从因特网服务器接收回通过服务器使用词语被与音视频节目相关的信息。
文档编号G10L15/00GK102790916SQ20121014248
公开日2012年11月21日申请日期2012年5月4日优先权日2011年5月18日
发明者塞思·希尔, 弗雷德里克·J·祖斯塔克申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：塞思·希尔;弗雷德里克·J·祖斯塔克
技术所有人：索尼公司
我是此专利的发明人

上一篇：三键次中音抱号的制作方法
上一篇：通过数字通信网络的语音信道传送数字数据的系统的制作方法