用于语音识别的方法和产品以及信息处理设备与流程

文档序号：11434061阅读：321来源：国知局

本发明涉及用于语音识别的方法和产品以及信息处理设备。

背景技术：

随着智能数字个人助理(例如，siri、svoice、googlenow、cortana等)的产生，使用语音命令控制电子设备已经变得非常流行。通常，用户通过使用自然语言与例如包含在个人助理中的语音输入模块进行交互。这种类型的交互使设备接收来自用户的语音输入如语音命令(例如，“明天天气怎么样”、“给dan打电话”)，处理这些请求，并且通过执行任务本身或将用户请求委托给期望的应用程序来执行用户期望的动作。siri是苹果公司在美国和其他国家的注册商标。svoice是三星电子公司在美国和其他国家的注册商标。google是谷歌公司在美国和其他国家的注册商标。cortana是微软在美国和其他国家的未注册商标。

因为自然语言是人们通常感到舒服的通信方法，所以无论如何简单或复杂，使用语音命令的能力都提供了利用设备的操作系统或应用程序的功能的自然高效的方法。然而，利用个人助理时的主要问题之一是：确定用户语音的哪部分意在作为语音命令被接收。已经证实不断地聆听用户是太困难的任务，而不能达到可用的误报(即，助理响应不相关的语音)水平以及可用的漏报(即，助理忽略用户命令)水平。另外，个人助理可以是能源密集型应用程序，因此允许其在后台不断运行可能对电池寿命产生重大影响。为了克服这个问题，如今大多数语音控制的助理利用一些形式的触发器来启动语音识别处理。这种触发器假定紧跟该触发的任何语音是定向至助理的命令。一些普通触发器是物理按钮按压(例如，siri激活)或在任何系统定向的命令之前讲出的特定关键短语(例如，okaygoogle)。

技术实现要素：

总之，一个方面提供了一种方法，该方法包括：在设备处接收包括至少一个命令的语音输入；使用用户的图像来识别用户焦点的方向；以及响应于识别出用户焦点的方向指向设备，基于至少一个命令来执行动作。

另一方面提供了一种信息处理设备，该信息处理设备包括：处理器；音频捕获设备，其在操作上耦接至处理器；以及存储器，其存储有指令，所述指令能够由处理器执行以：在音频捕获设备处接收包括至少一个命令的语音输入；使用用户的图像来识别用户焦点的方向；以及响应于识别出用户焦点的方向指向信息处理设备，基于至少一个命令来执行动作。

又一方面提供了一种产品，该产品包括：存储设备，其存储有代码，所述代码能够由处理器执行并且所述代码包括：用于在音频捕获设备处接收包括至少一个命令的语音输入的代码；用于使用用户的图像来识别用户焦点的方向的代码；以及用于响应于识别到用户焦点的方向指向音频捕获设备而基于至少一个命令来执行动作的代码。

前述是总结性的并且因此可以包含对细节的简化、概括和省略；因此，本领域技术人员要理解的是，该总结仅是说明性的并且不意在以任何方式进行限制。

为了更好地理解实施方式连同实施方式的其他的和进一步的特征及优点，参照以下结合附图的描述。本发明的范围将在所附权利要求中指出。

附图说明

图1示出了信息处理设备线路的示例。

图2示出了信息处理设备线路的另一示例。

图3示出了启用用户焦点的语音识别的示例方法。

具体实施方式

将容易理解的是，可以用除了所描述的示例实施方式之外的多种不同的配置来布置和设计如本文附图中大体描述并示出的实施方式的部件。从而，如在附图中示出的示例实施方式的以下更详细的描述，不意在限制所要求保护的实施方式的范围，而是仅代表示例实施方式。

遍及本说明书，对“一个(one)实施方式”或“(an)实施方式”(等)的引用意味着结合实施方式所描述的特定特征、结构或特性包括在至少一个实施方式中。因此，遍及本说明书的各处所出现的短语“在一个实施方式中”或“在实施方式中”等未必都指同一实施方式。

而且，在一个或更多个实施方式中，所描述的特征、结构或特性可以以任意适当的方式进行组合。在下面的描述中，提供了许多具体的细节以给出对实施方式的透彻理解。然而，相关领域的技术人员将认识到，可以在没有一个或更多个具体细节的情况下实施各种实施方式，或者可以使用其他的方法、部件、材料等来实施各种实施方式。在其他情况下，不再详细地示出或描述公知的结构、材料或操作以避免混淆。

一些当前可用的商业系统使用需要按下特定按钮的触发器(例如，按下并保持主页按钮以激活siri虚拟助理，或按下并保持搜索按钮以激活cortana虚拟助理)。当前可用的替选方法是使用关键短语(例如，当使用运行ios8的设备时或者之后说“heysiri”或当唤醒运行android4.3的设备时说“okaygoogle”)。一旦用户讲出关键短语，设备就被触发以聆听跟随关键短语的语音命令。android是谷歌公司在美国和其他国家的注册商标。

存在其他解决方案如“举起就说话”，其中，用户举起设备(例如，移动设备)并且运动被检测(例如，使用加速计)。这种解决方案仅适用于手持的或可穿戴设备，并且如果用户当前正以垂直方式保持他们的设备，则这将不起作用。当前激活触发器的方法的主要问题在于：无论用户当前正参与什么任务，这些激活触发的方法趋向于中断用户当前参与的任务。具体地，如果用户正在参与执行需要使用他们的手的任务(例如，使用计算机、做家务、做饭等)。关于触发短语，他们不变的并且重复的性质对用户造成负担并且削弱了智能助理在自然语言方面的优势，而智能助理在自然语言方面的优势是它的主要性质之一。

因此，实施方式使用头部或眼睛跟踪来自动启用对设备(例如，智能助理)的聆听模式。由于可能很难跨房间跟踪用户的眼睛或注视，所以实施方式可以在较大空间中使用头部跟踪。另外，可以在特定空间中利用两个或更多个相机(或一个广角相机)以确保适当覆盖房间的所有区域。为了简便起见，遍及本文献，将引用“用户焦点”，“用户焦点”应当被理解为经由头部跟踪系统、眼睛跟踪系统、面部识别系统或能够确定用户的焦点指向哪里的任意系统来确定。

在示例实施方式中，如果用户看着设备并且给出命令，则处理该命令。然而，如果确定出用户正将目光从设备移开，则忽略该命令。在一个实施方式中，虽然设备不断地聆听并接收语音输入，但是仅在确定出用户正看着设备的情形下，设备才采取行动。因而，甚至在用户转移目光之后，实施方式仍可以继续处理语音。这样，用户焦点以与触发短语或触觉键类似的方式起作用，所述方式简单地激活“唤醒模式”并且使得设备能够处理所接收的用户输入。因而，将会处理当前的句子或用户命令(例如，直到用户暂停讲话为止)。

可替选地，如果用户的焦点改变或被指引远离设备，则实施方式可以停止处理语音输入。因而，将忽略在用户焦点分散之后发出的任何命令或请求。这将使得用户能够取消说了一半的命令。在另外的实施方式中，用户能够在开始发出命令之后立即看着设备并且使所有命令被接受。例如，如果用户忘记看着设备，则他们可以在开始讲话之后立即看着设备。在一个实施方式中，设备可以保持口语输入的滚动缓冲并且紧接在用户的焦点被指向设备之前从输入缓冲捕获最后一个命令。

另外地或可替选地，用户焦点可以由具有传感器设备(例如，红外线的、光学的、飞行时间相机、无线电波等)的任意设备来跟踪。附加设备可以是例如主设备的附件或者是可以与主设备通信的独立设备。在另外的实施方式中，当未给设备自身供电时，可以给附件供电。这使得附属设备能够根据需要经由通信标准(例如，短程无线通信、无线lan、无线wan等)“唤醒”未被供电的主设备。另外，如果没有用户在设备附近(例如，在传感器的范围内)，则设备可以进入低功耗模式。实施方式可以基于使用例如短程无线装置、gps等的接近检测而退出低功耗模式。

在另外的实施方式中，用户焦点可以连同触发短语或唤醒词一起来使用以增加唤醒词检测的可信度。例如在吵闹的房间中这可能是有利的。在吵闹的环境中，很难捕获或检测触发短语或唤醒词。因此，如果实施方式确定特定环境的背景噪声超过了阈值，则唤醒词可以连同用户的焦点一起来使用以增加检测的可信度。可替选地，实施方式可以在吵闹环境中完全禁用触发短语的使用并且只依靠用户焦点的检测。

本文中所描述的示例实施方式可以涉及任意设备，包括膝上型计算机、平板计算机、智能电话、可穿戴技术(例如，智能手表)、音频助理(例如，amazonecho设备)等。应当注意，尽管本文提供了关注智能助理的示例，但这些示例是非限制性的，并且一般技术通常可以适用于如形式上设置成用于听写的或通常在应用程序内的语音模块。amazonecho用作亚马逊公司在美国和其他国家的商标。

通过参照附图可以最好地理解所示出的示例实施方式。下面的描述仅意在举例说明，并且仅仅示出了某些示例实施方式。

虽然在信息处理设备中可以利用各种其他电路、线路或部件，但是对于智能电话和/或平板计算机线路100而言，图1中示出的示例包括例如在平板计算机或其他移动计算平台中发现的片上系统设计。软件和(一个或多个)处理器被组合在单芯片110中。处理器包括现有技术中已知的内部运算单元、寄存器、高速缓冲存储器、总线、i/o端口等。内部总线等取决于不同的供应商，但基本上所有外围设备(120)可以附接至单芯片110。线路100将处理器、存储器控制以及i/o控制器集线器全部组合到单芯片110中。并且，这种类型的系统100通常不使用sata或pci或lpc。公共接口例如包括sdio和i2c。

存在有(一个或多个)电力管理芯片130，例如电池管理单元bmu，电池管理单元bmu管理例如经由可再充电电池140供给的电力，可再充电电池140可以通过连接至电源(未示出)来被再充电。在至少一个设计中，单芯片如110用于提供类似bios的功能和dram存储器。

系统100通常包括用于连接至各种网络(例如电信网络和无线因特网设备，如接入点)的wwan收发器150和wlan收发器160中的一个或更多个。另外，设备120通常包括例如音频输入设备(如将模拟音频处理成数字输入信号的麦克风)和用于捕获图像数据的相机。系统100通常包括用于数据输入和显示/呈现的触摸屏170。系统100通常还包括各种存储器设备，例如闪速存储器180和sdram190。

图2示出了信息处理设备电路、线路或部件的另一示例的框图。图2中示出的示例可以与计算系统(例如由位于北卡罗来纳州莫里斯维尔的联想(美国)公司销售的thinkpad系列个人计算机或其他设备)相对应。根据此处的描述明显的是，实施方式可以包括图2中示出的示例的特征中的仅一些特征或其他特征。

图2的示例包括所谓的芯片组210(一组一起工作的集成电路或芯片、芯片组)，芯片组210具有可以取决于制造商(例如，因特尔公司、超微半导体公司、安谋公司等)而变化的架构。芯片组210的架构包括核和存储器控制组220以及i/o控制器集线器250，核和存储器控制组220和i/o控制器集线器250经由直接管理接口(dmi)242或链路控制器244交换信息(例如数据、信号、命令等)。在图2中，dmi242是芯片到芯片的接口(有时也被称为是“北桥”和“南桥”之间的链路)。核和存储器控制组220包括经由前端总线(fsb)224交换信息的一个或更多个处理器222(例如单核或多核)和存储器控制器集线器226；注意，组220的部件可以被集成在代替传统的“北桥”式架构的芯片中。一个或更多个处理器222包括现有技术中已知的内部运算单元、寄存器、高速缓冲存储器、总线、i/o端口等。

在图2中，存储器控制器集线器226与存储器240对接(例如，以便为可以被称为“系统存储器”或“存储器”的一类ram提供支持)。存储器控制器集线器226还包括用于显示设备292(例如crt、平板、触摸屏等)的低压差分信号(lvds)接口232。块238包括可以经由lvds接口232来支持的一些技术(例如，串行数字视频、hdmi/dvi、显示端口)。存储器控制器集线器226还包括可以支持独立显卡236的pci-express接口(pci-e)234。

在图2中，i/o集线器控制器250包括sata接口251(例如，用于hdd、sdd等280)、pci-e接口252(例如，用于无线连接282)、usb接口253(例如，用于设备284，如数字转换器、键盘、鼠标、相机、电话、麦克风、存储器、其他连接设备等)、网络接口254(例如lan)、gpio接口255、lpc接口270(用于asic271、tpm272、超级i/o273、固件集线器274、bios支持275以及各种类型的存储器276，如rom277、闪存278和nvram279)、电力管理接口261、时钟发生器接口262、音频接口263(例如，用于扬声器294)、tco接口264、系统管理总线接口265以及可以包括bios268和启动代码290的spi闪存266。i/o集线器控制器250可以包括千兆以太网支持。

系统在通电时可以被配置成执行在spi闪存266内存储的用于bios268的启动代码290，此后，在一个或更多个操作系统和应用软件(例如，存储在系统存储器240中)的控制下处理数据。操作系统可以存储在多种位置中的任意位置处，并且可以例如根据bios268的指令被访问。如本文中所述，设备可以包括与在图2的系统中示出的特征相比更少或者更多的特征。

信息处理设备线路，如在图1中或图2中所示出的示例，通常可以用于如平板计算机、智能电话、个人计算机设备等设备中和/或用于用户可以发出语音命令以执行特定动作的电子设备中。例如，图1中所示出的线路可以在平板计算机或智能电话实施方式中实现，然而，图2中所示出的线路可以在个人计算机实施方式中实现。

将理解的是，这样的设备(例如，平板计算设备、个人计算机或智能电话)主要提供触摸屏、麦克风和相机作为主要输入设备，其中当前设备主要依靠触摸屏和麦克风输入来进行应用控制。在实施方式中，尤其对于可以准许不由这样的设备支持的其他输入形式的使用的某些应用而言，融合这样的形式的提供了更加用户友好的体验。

现在借助于示例并参照图3，在310处，实施方式在设备处接收来自用户的语音输入。经由音频捕获设备来捕获音频，音频捕获设备可以操作上附接至所述设备或者可以被远程地定位。

在320处，另外的实施方式跟踪用户的焦点。可以经由传感器或传感器阵列(例如，图像捕获设备、视频捕获设备、距离成像设备和3d扫描设备等)在设备自身处进行这一跟踪。传感器或传感器阵列可以是被动检测系统、主动检测系统或这两者的组合。另外地或可替选地，可能由单个远程传感器或多个远程传感器进行跟踪。遍及空间各个位置来定位传感器将允许更鲁棒的跟踪系统。

一旦在320处确定了用户焦点的方向，则在330处实施方式可以确定用户的焦点是否指向设备(例如，移动设备、智能个人助理设备、计算机等)。如果确定出用户的焦点不指向设备，则在340处实施方式可以不采取行动。可替选地，如果确定出用户的焦点指向设备，则实施方式可以确定用户正将语音输入指向设备(即，用户想让语音输入成为命令)。

在另外的实施方式中，用户的焦点可以指向用户想要与之交互的第二设备(例如，电视机、灯的开关、收音机等)。例如，用户可以看着tv并且请求由设备打开tv。因此，实施方式不仅可以确定用户的焦点指向设备，而且还可以确定用户的焦点指向第二设备并且在那个指定设备上执行用户的命令。

另外的实施方式还可以在确定出用户的焦点指向设备的情形下向用户提供指示或确认。指示本质上可以是视觉的或听觉的。例如，设备可以发特定颜色的光以指示用户焦点的确定。可替选地，当音频捕获设备识别出用户的焦点指向它时，它可以播放特定声音(例如，铃声、喇叭声等)或者给出口头确认(例如，说“用户，你好”)。实施方式还可以使用视觉指示和/或听觉指示的组合。另外，可以由用户基于用户的偏好来调整指示类型。

实施方式可以基于用户的焦点指向设备的确定来解析所接收的用户语音输入(例如，在310处所接收的用户语音输入)以在350处识别语音输入中的至少一个命令。一旦实施方式在350处识别出了语音输入中的至少一个命令，则这种实施方式可以在360处基于至少一个命令来采取行动。例如，实施方式可以接收命令“天气怎么样”，并且继续通知用户当前的天气状况(例如，经由扬声器描述天气、经由显示器显示天气等)。

如本文中所讨论的，如果实施方式已经在330处确定出用户的焦点不指向设备(例如，主设备或主设备的子部件(例如，音频设备，如麦克风或扬声器))，则这种实施方式在340处不采取行动。然而，如果当用户正讲话(例如，输入语音命令)时用户的焦点转移(例如，移动至音频捕获设备、tv或其他类似设备)，则即使在语音输入开始时在音频捕获设备上没有检测到用户焦点，实施方式仍然可以基于用户输入来执行动作。例如，用户可以一回到家就请求打开电视而不是首先就看着音频捕获设备。然而，用户可以在陈述中途或在发出命令之后立即将他们的焦点转移至音频捕获设备。因而，实施方式可以将此陈述中的焦点转移或陈述后的焦点转移解释为用户打算发出命令。为了执行此动作，实施方式可以保持用户语音的滚动缓冲(例如，10秒、30秒等)，当接收到新的用户输入时，用户语音的滚动缓冲可以被自动刷新。

如本领域技术人员将理解的，本发明的各个方面可以实施为系统、方法或设备程序产品。因此，本发明的各个方面可以采用完全硬件实施方式的形式或采用包括软件的实施方式的形式，这些形式在本文中可以全部统称为“电路”、“模块”或“系统”。此外，本发明的各个方面可以采用包含在一个或更多个设备可读介质中的设备程序产品的形式，所述一个或更多个设备可读介质包含有设备可读程序代码。

应当注意，本文中所描述的各种功能可以使用由处理器执行的存储在设备可读存储介质(如非信号存储设备)上的指令来实现。存储设备可以是例如电子的、磁的、光学的、电磁的、红外线的或半导体的系统、装置或设备，或前述项的任意适当的组合。存储介质的更多的具体示例包括以下：便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪速存储器)、光纤、便携式压缩盘只读存储器(cd-rom)、光学存储设备、磁存储设备，或前述项的任意适当的组合。在本文献的上下文中，存储设备不是信号并且是“非暂时的”，包括除信号介质之外的全部介质。

可以使用任意适当的介质，包括但不限于无线、有线、光缆电缆、rf等或前述项的任意适当的组合，来传输在存储介质上所包含的程序代码。

可以以一种或更多种编程语言的任意组合来编写用于执行操作的程序代码。程序代码可以完全在单个设备上执行、部分地在单个设备上执行、作为独立软件包部分地在一个设备上且部分地在另一设备上执行或完全在其他设备上执行。在一些情况下，可以通过任意类型的连接或网络(包括局域网(lan)或广域网(wan))来连接设备，或者可以通过其他设备(例如通过使用因特网服务提供商的因特网)、通过无线连接(例如近场通信)或通过硬线连接(如通过usb连接)来进行连接。

本文参照示出了根据各种示例实施方式的示例方法、设备和程序产品的附图来描述示例实施方式。应当理解，动作和功能可以至少部分地由程序指令来实现。可以将这些程序指令提供给通用信息处理设备的处理器、专用信息处理设备的处理器或其他可编程数据处理设备的处理器以产生机器，使得经由设备的处理器执行的指令实现指定的功能/动作。

值得注意的是，虽然在附图中使用了特定的块，并且已经示出了块的特定顺序，但这些都是非限制性的示例。由于明确示出的示例仅用于描述的目的而不应被视为限制，所以在某些情况下，可以组合两个或更多个块，可以将块分成两个或更多个块，或者可以按需要将某些块重新排序或重新组织。

除非另行清楚地指明，如本文所使用的单数“一个(a)”和“一个(an)”可以被解释为包括复数“一个或多个”。

提出本公开内容是出于说明和描述的目的，而非意在穷举或限制。对本领域普通技术人员而言，许多修改和变型是明显的。选择并描述了示例实施方式以解释原理和实际应用，并且使得本领域其他技术人员能够理解具有适于预期的特定用途的各种修改的各种实施方式的公开内容。

因此，尽管本文已经参照附图描述了示意性示例实施方式，但要理解的是，这种描述不是限制性的，并且在不偏离本公开内容的范围或精神的情况下，本领域技术人员可以做出各种其他变化和修改。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：拉塞尔·斯佩格特·范布恩;阿诺德·S·韦克斯勒;约翰·卡尔·梅谢;纳林·J·彼得森
技术所有人：联想（新加坡）私人有限公司
我是此专利的发明人