用于启用网络的设备上的语音识别输入的方法和系统的制作方法_4

文档序号：9291753阅读：来源：国知局

行通信的设备是否已准备好。如果没有检测到被支持的设备，则可以使用文本输入来填充表单（步骤224)，例如通过使用键盘或遥控器。
[0055] 如果检测到被支持的设备，则可以请求话音输入会话（步骤226)，例如，通过上文所描述的方法，诸如通过点击图标或说出关键字。如有必要，则实例化话音引擎（步骤 228)，并开始话音会话（步骤232)。话音引擎可能会变化，并且值得注意的是，其可以通过 Google?、Microsoft?、Sony?,通过开源软件等等获得。
[0056] 接着，可以使用语音输入填充好表单（或执行其他Web或浏览器动作）（步骤 234)。如果检测到话音（步骤236)，则流程移到图11的流程图110。如果没有检测到话音，则系统可以等待，直到超时发生。一旦检测到话音，捕捉话音的步骤可以开始（步骤238)。捕捉话音可以继续，直到发生暂停，检测到超时、特定关键字（步骤242)，或用户以另一种方式指出话音捕捉应该结束（步骤252)。值得注意的是，话音捕捉可以是短语、单词、单个字母或数字等等。
[0057]其他方面也可以导致话音捕捉结束，诸如如果检测到超时（步骤258)，如果检测到错误（步骤262)，或如果用户中止话音捕捉（步骤264)。在任一种情况下，可以向用户显示错误（步骤266)。
[0058] 假设捕捉了某种话音，可以使用话音引擎来进行语音转换（步骤254)。可以提示用户确认经转换的文本（步骤255)。假设转换正确地完成，系统可以报告成功（步骤256)。如果不是，则可以向用户显示错误（步骤266)。
[0059] 假设合成正确地进行，并且音频文件被成功地转换为文本文件，可以显示文本并自动地提交（步骤268)。可以理解，在系统和方法内也构想非自动的提交，例如，那些要求用户确认的提交。在使用语音识别来执行注册的情况下，注册过程可以继续（步骤272)。可以理解，其他管理功能将类似地进行。如果检测到注册错误（步骤274)，则方法可以结束（步骤276)。如果没有检测到错误，则注册可以完成（步骤278)。如果检测到语言类型 (步骤282)，则可以执行以检测到的语言类型向用户播放音频"恭喜"或其他消息的步骤。可以理解，可以为其他目的以用户母语或选择的语言向用户提供其他这样的音频提示。
[0060] 在图13的流程图130中，给出了用于处理不被支持语言的方法的更多细节。具体而言，跟在结束话音的捕捉的步骤（步骤252)之后，可以检测语言类型（步骤288)。可以以如上文所描述的许多方式执行此步骤。也可以执行检测设备的被支持的语言的步骤（步骤292)。如果确定语言不同（步骤294)，则可以调用话音引擎来进行语音合成（步骤296)。也可以调用翻译引擎以使得能够进行从检测到的语言到设备的被支持语言的翻译，例如从中文到英语，从而允许来自用户的母语或选择的语言的输入和控制（步骤298)。如此，用户可以以他们的母语或选择的语言，通过语音来输入数据、文本以及命令，并向设备中输入等效的文本或命令。
[0061] 公开了允许改善IPTV的用户体验而不增加单元的硬件成本的系统和方法。如上文所公开的，用户可以使用该系统和方法，通过使用语音命令来控制和管理（例如，注册或执行其他功能）诸如IPTV之类的内容回放设备。在一些实现中，该系统和方法允许启用网络的设备克服内在的缺陷，例如解决不被支持的语言的问题。
[0062] 一种实现包括一个或多个可编程处理器和对应的计算系统组件以存储和执行计算机指令，诸如执行提供话音引擎、用户界面或网络功能的代码。参考图14,示出了可以使用的示例性计算环境的表示。
[0063] 计算环境包括控制器302、存储器306、储存器312、媒体设备316、用户界面324、输入/输出（I/O)接口 326、以及网络接口 328。组件通过通用总线332来互连。另选地，可以使用不同的连接配置，诸如带有位于中心的控制器的星形模式。
[0064] 控制器302包括可编程处理器，并为语音识别系统304来控制系统以及它们的组件的操作。控制器302从存储器306或嵌入式控制器存储器（未示出）加载指令，并执行这些指令以控制系统。在其执行中，控制器302可以提供语音识别系统以部分地作为软件系统。另选地，此服务可被实现为控制器302或第二显示器中的单独的模块化组件。
[0065] 可包括非暂态计算机可读存储器308的存储器306临时存储供系统的其他组件使用的数据。在一种实现中，存储器306被实现为RAM。在其他实现中，存储器306还包括长期或永久性存储器，诸如闪存和/或ROM。
[0066] 可包括非暂态计算机可读存储器314的储存器312临时或长期存储数据，供系统和方法的其他组件使用，诸如用于存储由系统使用的数据。在一种实现中，储存器312是硬盘驱动器或固态驱动器。
[0067] 可包括非暂态计算机可读存储器322的媒体设备316接收可移除媒体并向插入的媒体读和/或写数据。在一种实现中，媒体设备316是光盘驱动器或刻录器，例如可写的Blu-ray?盘驱动器318。
[0068] 用户界面324包括用于从第二显示器的用户接受用户输入（例如，内容回放设备注册信息）并向用户呈现信息的组件。在一种实现中，用户界面324包括键盘、鼠标、音频扬声器、以及显示器。控制器302使用来自用户的输入来调整系统的操作。
[0069] I/O接口 326包括一个或多个I/O端口，用于连接到对应的I/O设备，诸如外部储存器或补充设备，例如打印机或PDA。在一种实现中，I/O接口的端口包括诸如USB端口、 PCMCIA端口、串行端口、和/或并行端口之类的端口。在另一种实现中，I/O接口 326包括用于与外部设备进行无线通信的无线接口。这些I/O接口可以用于连接到一个或多个内容回放设备。
[0070] 网络接口 328允许与局域网以及可选地与外部设备连接，并包括有线和/或无线网络连接，诸如RJ-45或以太网连接或"WiFi"接口（802. 11)。将理解，很多其他类型的网络连接是可以的，包括WiMax、3G或4G、802. 15协议、802. 16协议、卫星、:Bluetooth等等。
[0071] 计算环境可包括这样的设备的典型的额外的硬件和软件，例如电源和操作系统，尽管为简单起见在图形中未具体地示出这些组件。在其他实现中，可以使用设备的不同的配置，例如，不同的总线或存储配置或多处理器配置。
[0072] 描述了本发明的各种说明性实现。然而，本领域的普通技术人员将认识到，额外的实现也是可能的，并在本发明的范围内。例如，可以由在第二显示器上运行的应用接收语音输入。在此情况下，第二显示器的操作以及其与内容回放设备和网络提供商的交互可以像以上通过引用并入的专利申请中所描述的那样。
[0073] 用户还可以使用语音输入来执行各种功能，例如浏览器功能，诸如浏览或搜索服务和资产，以及进行交易，如视频租赁或家庭购物。用户还可以使用语音输入和识别来执行服务的各种附属功能。用户还可以通过使用语音识别来请求并控制要回放的内容项目。设备语音注册可以扩展到注册不仅显示或呈现内容项目、而且存储并回放内容项目的设备，例如DVR、B丨11-ray播放器、媒体播放器、游戏控制台、或者实际上任何启用网络的设备。尽管完整注册网站可以主要是为PC开发的，但是，可以实现完整注册网站或其比较频繁地使用的功能的子集，用于用户界面14上的注册菜单上的语音响应。在其中检测到语言类型的各实现中，一旦发生了检测，语言类型信息可以被传递到由用户访问的其他站点，例如 Google?、NetfHx?,使得能够立即呈现那些网站的特定于语言类型的版本。类似地，跟在语言类型检测之后，如果在启用网络的设备上呈现表单，则该表单的语言可以自动地被设置为检测到的语言类型。
[0074] -经附接了加密狗或检测到外部设备（即，可以充当用于语音输入的管道的外部设备），语音检测模式可以自动地开始。另选地，可以使用智能电话上的图标或遥控器上的按钮来开始语音输入。
[0075] 可以使用语音检测的步骤来检测说话者的身份，并自动地将说话者的简档加载到设备中，从而允许例如基于符合说话者的权限的父母控制。例如，如果检测到童声，则IPTV 可以自动地被设置为限制于儿童的节目。
[0076] 相应地，本发明不仅限于上文所描述的那些实现。
【主权项】
1. 一种向启用网络的设备输入数据的方法，包括： a. 将启用网络的设备配置为处于接收音频数据的状态，该数据与附属于所述启用网络的设备的服务、关联于所述启用网络的设备的服务器、或所述启用网络的设备的用户界面的操作相关联； b. 接收音频数据； c. 将接收到的音频数据转换为文本数据；以及 d. 使所述启用网络的设备基于所述文本数据来执行动作，所述文本数

完整全部详细技术资料下载

当前第4页1 2 3 4 5