扩展语音识别的周期的方法和产品以及信息处理设备与流程

文档序号:11592327阅读:213来源:国知局

本发明涉及扩展语音识别的周期的方法和产品以及信息处理设备。



背景技术:

电子设备如膝上型计算机、平板计算机、智能电话、个人助理等接受用户输入(例如,在音频输入设备处)。通常,用户向这些设备提供输入以控制设备以及输入数据(例如,请求信息、访问信息,或者为通信应用提供信息)。

发展最快的用户输入方法之一是语音命令。语音命令技术使得能够通过用户语音指令来操作设备。能够接受语音控制的设备的数量和类型随着时间的过去而稳定增长。对于蜂窝电话和独立的个人智能助理尤其如此。消除使用按钮或开关来控制设备的需要使得用户能够安全有效地执行并行任务。然而,使用这些设备仍然会感到不自然或难使用,尤其当需要用户重复地激活设备时(例如,通过使用关键词或触发短语如“okgoogle”)。google是谷歌公司在美国和其他国家的注册商标。



技术实现要素:

总之,一方面提供了一种方法,该方法包括:在音频捕获设备处接收激活提示;在音频捕获设备处接收在激活指示之后的至少一个命令;使用处理器基于至少一个命令来执行动作;在音频捕获设备处接收至少一个另外的命令;以及在无需另外的激活提示的情况下使用处理器基于该另外的命令来执行另外的动作。

另一方面提供了一种信息处理设备,该信息处理设备包括:处理器;音频捕获设备;存储设备,其存储有指令,所述指令能够由处理器执行以:在音频捕获设备处接收激活提示;在音频捕获设备处接收在激活指示之后的至少一个命令;使用处理器基于至少一个命令来执行动作;在音频捕获设备处接收至少一个另外的命令;以及在无需另外的激活提示的情况下使用处理器基于该另外的命令来执行另外的动作。

又一方面提供了一种产品,该产品包括:存储设备,其存储有代码,所述代码能够由处理器执行并且所述代码包括:用于在音频捕获设备处接收激活提示的代码;用于在音频捕获设备处接收在激活指示之后的至少一个命令的代码;用于使用处理器基于至少一个命令来执行动作的代码;用于在音频捕获设备处接收至少一个另外的命令的代码;以及用于在无需另外的激活提示的情况下使用处理器基于至少一个另外的命令来执行另外的动作的代码。

前述是总结性的并且因此可能包含对细节的简化、概括及省略;因此,本领域技术人员要理解的是,该总结仅是说明性的并且不意在以任何方式进行限制。

为了更好地理解实施方式连同实施方式的其他特征和进一步的特征及优点,参考以下结合附图的描述。本发明的范围将在所附权利要求中指出。

附图说明

图1示出了信息处理设备线路的示例。

图2示出了信息处理设备线路的另一示例。

图3示出了扩展语音识别的周期的示例方法。

具体实施方式

将容易理解的是,可以用除了所描述的示例实施方式之外的多种不同的配置来布置和设计如本文附图中大体描述并示出的实施方式的部件。从而,如在附图中示出的示例实施方式的以下更详细的描述,并不意在限制所要求保护的实施方式的范围,而是仅代表示例实施方式。

遍及本说明书,对“一个(one)实施方式”或“一种(an)实施方式”(等)的引用意味着结合实施方式所描述的特定特征、结构或特性包括在至少一个实施方式中。因此,遍及本说明书的各处所出现的短语“在一个实施方式中”或“在实施方式中”等未必都指同一实施方式。

而且,在一个或更多个实施方式中,所描述的特征、结构或特性可以以任何适当的方式进行组合。在下面的描述中,提供了许多具体细节以给出对实施方式的透彻理解。然而,相关领域的技术人员将认识到,可以在没有一个或多个具体细节的情况下实施各种实施方式,或者可以使用其他的方法、部件、材料等来实施各种实施方式。在其他情况下,不再详细地示出或描述公知的结构、材料或操作以避免混淆。

为了接收音频数据作为输入(例如,语音命令),必须启用音频捕获设备并主动地聆听音频输入。然而,由于各种因素(例如,电池寿命、隐私顾虑等),大多数音频捕获设备无法不断地处理音频。因此,用户必须通过一些用户输入方法来激活语音命令模式。一种方法是按下设备上提示用户随后输入语音命令的按钮(例如,软件按钮或硬件按钮)。可替选地,可以使用触发词或短语来激活个人助理应用(例如,“okgoogle”、“heysiri”、“heycortana”、“alexa”等)。siri是苹果公司在美国和其他国家的注册商标。cortana是微软公司在美国和其他国家的注册商标。

通常,每个单独的命令需要唤醒词或触发短语。一些语音命令会导致对来自数字助理的问题的确认或澄清,但这仅适用于不完整的命令或需要更多信息的命令。对用户而言,这产生的技术问题是:即使用户连续地或在短期内发出多个命令,仍然需要他们不断地重复唤醒词或短语。这种对单个短语的不断重复引起用户与设备之间笨拙并且令人不愉快的交互。因此,需要以下解决方案:在大多数情境下所述解决方案方便得多,并且不抑制人们交谈的流畅自然。

因此,实施方式扩展了初始唤醒词会话以聆听可能跟随的音频数据(例如,语音命令)。可以将这些跟随的命令过滤成与初始命令本质上相似的命令。例如,这些命令可以在以下方面相似:它们包括相同的应用、相似的软件等。在一个实施方式中,可以基于预定时间周期(例如,30秒、1分钟等)和/或直到在接受最后一个命令或执行了与该命令相关联的动作之后在静态时间周期期间给出/接收总的预定数量命令为止,接受(一个或多个)次级命令。另外,只要先前的任务或命令是活动的,实施方式就可以接受附加命令。例如,如果实施方式正在给用户阅读当前的新闻,则用户可以请求关于正在阅读的特定新闻文章的进一步的细节(例如,通过说“告诉我关于这个故事的更多情况”)。

一个实施方式可以接收音频输入(例如,用户语音输入),并且对输入进行解析以识别激活提示或触发短语(例如,okgoogle)及命令。此外,实施方式可以基于所接收的命令来采取动作(例如,基于请求给出天气预报)。此外,实施方式可以接收不包含激活提示的附加音频输入(例如,另一用户语音命令)。对附加音频输入进行分析以确定附加音频输入与先前输入的音频输入之间是否存在关系。本文中详细讨论了可能的关系的示例。一旦确定了关系,则实施方式可以执行附加输入中所请求的动作。

参照附图可以最好地理解所示出的示例实施方式。下面的描述意在举例说明,并且仅示出了某些示例实施方式。

虽然可以在信息处理设备中利用各种其他电路、线路或部件,但是对于智能电话和/或平板计算机线路100而言,图1所示的示例包括例如在平板或其他移动计算平台中发现的片上系统设计。软件和(一个或多个)处理器被组合在单芯片110中。处理器包括如本领域公知的内部运算单元、寄存器、高速缓冲存储器、总线、i/o端口等。内部总线等取决于不同的供应商,但基本上所有外围设备(120)可以附接至单芯片110。线路100将处理器、存储器控制以及i/o控制器集线器全部组合到单芯片110中。此外,这种类型的系统100通常不使用sata或pci或lpc。公共接口例如包括sdio和i2c。

存在有(一个或多个)电力管理芯片130,例如电池管理单元bmu,电池管理单元bmu管理例如经由可再充电电池140供给的电力,可再充电电池140可以通过连接至电源(未示出)来再充电。在至少一个设计中,单芯片如110用于提供类似bios的功能和dram存储器。

系统100通常包括用于连接至各种网络(例如电信网络和无线因特网设备,如接入点)的wwan收发器150和wlan收发器160中的一个或更多个。另外,设备120通常包括例如音频输入设备,如将模拟音频处理成数字输入信号的麦克风。系统100通常包括用于数据输入和显示/呈现的触摸屏170。系统100通常还包括各种存储器设备,例如闪速存储器180和sdram(同步动态随机存储器)190。

图2示出了信息处理设备电路、线路或部件的另一示例的框图。图2中示出的示例可以与计算系统(例如由位于北卡罗来纳州莫里斯维尔的联想(美国)公司销售的thinkpad系列个人计算机或其他设备)相对应。根据此处的描述明显的是,实施方式可以包括图2中示出的示例的特征中的仅一些特征或其他特征。

图2的示例包括所谓的芯片组210(一组一起工作的集成电路或芯片、芯片组),芯片组210具有可以取决于制造商(例如intel、amd、arm等)而变化的架构。intel是英特尔公司在美国和其他国家的注册商标。amd是超微半导体公司在美国和其他国家的注册商标。arm是安谋公司(armholdingsplc)在美国和其他国家的未注册商标。芯片组210的架构包括核和存储器控制组220以及i/o控制器集线器250,该核和存储器控制组220和i/o控制器集线器250经由直接管理接口(dmi)242或链路控制器244交换信息(例如数据、信号、命令等)。在图2中,dmi242是芯片到芯片的接口(有时也被称为是“北桥”和“南桥”之间的链路)。核和存储器控制组220包括经由前端总线(fsb)224交换信息的一个或更多个处理器222(例如单核或多核)和存储器控制器集线器226;注意,组220的部件可以被集成在代替传统的“北桥”式架构的芯片中。一个或更多个处理器222包括现有技术中已知的内部运算单元、寄存器、高速缓冲存储器、总线、i/o端口等。

在图2中,存储器控制器集线器226与存储器240对接(例如,为可以被称为“系统存储器”或“存储器”的一类ram提供支持)。存储器控制器集线器226还包括用于显示设备292(例如crt、平板、触摸屏等)的低压差分信号(lvds)接口232。块238包括可以经由lvds接口232来支持的一些技术(例如,串行数字视频、hdmi/dvi、显示端口)。存储器控制器集线器226还包括可以支持独立显卡236的pci-express接口(pci-e)234。

在图2中,i/o集线器控制器250包括sata接口251(例如,用于hdd、sdd280等)、pci-e接口252(例如,用于无线连接282)、usb接口253(例如,用于设备284如数字转换器、键盘、鼠标、相机、电话、麦克风、存储器、其他连接设备等)、网络接口254(例如lan)、gpio接口255、lpc接口270(用于asic271、tpm272、超级i/o273、固件集线器274、bios支持275以及各种类型的存储器276,如rom277、闪存278和nvram279)、电力管理接口261、时钟发生器接口262、音频接口263(例如,用于扬声器294)、tco接口264、系统管理总线接口265以及可以包括bios268和启动代码290的spi闪存266。i/o集线器控制器250可以包括千兆以太网支持。

系统在通电时可以被配置成执行在spi闪存266内存储的用于bios268的启动代码290,此后,在一个或多个操作系统和应用软件(例如,存储在系统存储器240中)的控制下处理数据。操作系统可以存储在多种位置中的任何位置处,并且可以例如根据bios268的指令来访问。如本文中所述,设备可以包括与在图2的系统中示出的特征相比更少或者更多的特征。

信息处理设备线路,如在图1中或图2中所示出的示例,可以用于如平板电脑、智能电话、个人计算机设备等设备中和/或用于用户通常可以发出语音命令以执行特定动作的电子设备中。例如,图1中所示出的线路可以在平板电脑或智能电话实施方式中实现,然而,图2中所示出的线路可以在个人计算机实施方式中实现。

现在参照图3,在310处,实施方式可以接收音频输入。音频输入可以具有各种类型,例如以命令输入形式的人类语音。另外,可以从媒体设备(例如,无线电广播设备、电视机、计算机等)产生音频输入。在310处,当接收到音频时,实施方式可以对音频进行解析以确定音频是否包括激活提示或触发短语。激活提示或触发短语使得设备能够“唤醒”(例如,使得设备能够捕获并分析音频以执行关联命令)。通常,该唤醒周期短暂并且仅意在允许输入单个命令。因此,如果用户想输入多个命令,则需要他们重复特定短语或词来唤醒设备并进入活动语音处理模式,以基于所给出的命令采取每个后续动作。

在310处,实施方式可以识别所捕获的音频数据中的一个或更多个命令。因此,实施方式可以接收包括激活提示以及命令的音频输入(例如,“明天天气怎么样?”)。一旦实施方式确定所捕获的音频包括激活提示,在320处,它就可以基于所接收的关联命令来执行动作。例如,用户可以要求实施方式读取/显示电子邮件、读取/显示当前的新闻、读取/显示用户的约会日程等。虽然本文公开了各种示例动作,然而,应当理解,在320处,可以由电子设备执行的任何可想到的命令可以作为音频输入的一部分来接收并且作为命令来处理。

在320处,一旦已经执行了动作,在330处,实施方式就可以接收附加音频输入。与所接收的第一音频输入类似,附加音频可以包括至少一个命令。然后,在340处,实施方式确定附加音频输入与先前确定的命令之间是否存在关系。此关系可以采用多种形式如本文中所讨论的那些形式。

例如,在340处,实施方式可以基于初始音频输入与次级音频输入之间经过的预定时间量来确定关系存在。另外地或可替选地,预定时间量可以在当在320处执行动作时与当在330处接收第二音频输入(即,第二命令)时之间。例如,实施方式可以接收包括激活提示和第一命令的第一音频输入。如果在预定时间段(例如,10秒、30秒、1分钟等)内接收到了包括第二命令的第二音频输入,则即使还没有为第二命令提供唤醒提示,在360处,实施方式仍然可以基于所接收的第二命令来执行动作。然而,如果在330处在预定时间段外接收到了附加输入,则在350处实施方式可以不采取行动。

在340处,实施方式可以通过识别初始动作或在前动作与另一动作(即,基于附加音频输入中的次级命令的次级动作)之间的相关性或关联性来确定命令与附加输入之间存在关系。例如,如果用户请求实施方式打开他们的灯,则他们可以随后请求使灯变暗或变亮。使灯变暗的命令将由实施方式识别为与先前命令紧密相关或关联(在这种情况下,专题性地或上下文地)。从而,随后的命令将不要求附加激活提示。识别这种相关性或关联性大大提高语音命令的可用性。

在实施方式中,可以在先前动作的处理期间所接收的命令之间进行相关或关联。例如,用户可以请求全面的天气信息(例如,说“cortana,天气怎么样”),然后,当所请求的信息正被递送给用户时,实施方式可以接收并解析由用户进一步提供的音频输入。因此,如果在正递送信息时例如用户说“停”,则实施方式可以停止提供天气信息。可选地,实施方式可以结束唤醒周期直到此后接收到附加激活提示为止。可替选地,实施方式可以停止递送天气信息并且使得用户能够在无需激活提示(例如,唤醒词或短语)的情形下来输入附加语音数据。

另外,在340处所确定的关系可以基于通用短语或任务特定短语。例如,通用短语可以是术语如可以与其他命令一起使用的“停止”。因此,如果用户的初始命令涉及可以在一段时间内发生的动作(例如,报告新闻、阅读天气、阅读电子邮件等),则术语“停止”是与正在进行的动作一般相关或关联的术语。可替选地,在任务特定短语的情况下,例如在打开灯之后立即请求使灯变暗,则第一命令与第二命令之间存在特定相关性或关联性。因此,如果先前命令具有很强的专题相关,如打开灯的行为(例如,基于关键词并使用局部层级进行分析),则实施方式将仅采取关于“变暗”命令的行动。

在实施方式中,在340处识别的关系可以基于地理位置。因此,实施方式可以知道用户或设备在地理位置(例如,用户的家)内并且可以基于预期的命令来扩展唤醒周期。例如,如果实施方式检测到设备在用户家中,并且用户发出打开灯的命令,接着发出调节温度的命令,则实施方式可以基于地理位置来确定两个请求之间存在很强的相关性,原因是通常房主一回到家就会采取某些行动。可替选地,如果两个命令之间不存在地理联系,则不会确定出这两个命令关于彼此具有关系或相关性。

在实施方式中,在340处确定的关系可以基于一天中的时间。与上面的示例类似,如果实施方式确定时间为下午6:30,则实施方式可以例如基于默认规则和/或经由用户的输入历史来确定通常用户在每个工作日下午6:30回到家并且发出一个或更多个命令。因此,由于一天中的时间(例如,一天中用户回到家并随后调节与家里舒适相关的各种因素的时间),可以确定一系列命令如打开灯、调节温度和打开电视具有很强的关系。因此,实施方式可以作用于在缺少特定激活触发(例如唤醒词或短语)的情况下检测到的这些语音输入中的一个或更多个语音输入。

在340处确定的关系可以基于一个或更多个当前活动的应用。例如,如果用户请求实施方式播放特定媒体文件(例如,音乐、视频等),则这种实施方式可以预测与媒体播放应用相关的后续请求,如:开大/调小音量、暂停、跳过曲目/章节等。借助于进一步的示例,实施方式可以基于语音命令(例如,“cortana,播放汤姆佩蒂”)来播放音乐,并且然后在没有唤醒词(例如,激活提示)的情况下使得用户能够发出附加的相关命令(例如,“开大音量”、“跳过”、“我喜欢这个”、“暂停”“停止”等)。从而,与音乐或媒体回放相关的任何命令不需要唤醒词。如本文中所讨论的,另一实施方式可以在预定时间段内聆听与音乐相关的命令。

另外地或可替选地,关系可以基于一个或更多个最近活动的应用。借助于示例,如果用户在查看电子邮件之后立即发出阅读新闻的命令,则即使先前的命令关于对新闻的请求,实施方式仍然可以使得用户能够输入与电子邮件帐户相关的后续命令(例如,撰写、答复、删除等)。

可以使用个人语音识别。基于对个人的识别,例如,在310处,实施方式可以仅接受来自发出初始命令的人的命令。这样做,实施方式可以扩展可用时间以输入命令,同时还确保由单个用户发出命令。因此,通过语音过滤,实施方式可以在例如预定时间段内识别发出第一命令的个人并且从该用户接收后续命令。因此,在340处确定的关系基于在360处执行次级动作之前执行的语音识别算法。

在340处,实施方式还可以基于外部因素来确定关系。例如,实施方式可以仅接受用户是否正主动查看设备的命令。从而,如果在310处当设备接收第一音频时用户正在查看设备,则可以建立与用户是否继续查看或再次查看设备(例如,移动设备、计算机、智能助理等)的第二命令的关系。可替选地,如果用户在输入第二命令(即,在330处接收附加音频输入)之前转移目光,则在350处实施方式可以不采取行动。

除了本文中所讨论的通用相关性和特定相关性以外,实施方式可以基于历史用户数据来识别命令之间的关系。例如,实施方式可以存储或访问由用户输入的任何历史命令。因而,如果用户定期发出一系列不相关的命令,则实施方式可以随着时间进行学习并且基于所存储的历史数据来创建命令之间的关系。例如,如果用户在调节了房间中的亮度水平(例如,使灯变暗)之后立即调节电视机的音量(例如,调小音量),则即使这两个命令通常不相关或例如默认先前不相关,实施方式仍然可以创建两个命令之间的关系。

可以维持先前发出的命令的列表并用于识别用户过去已经做出跟随的命令的请求。因而,实施方式可以聆听通常跟随有其他命令(例如,由一般人群或由特定用户)的命令。例如,在请求播放媒体(例如,音乐、视频等)之后,用户通常可以例如基于媒体类型(例如,硬摇滚、古典音乐等)、设备应用的当前音量设置等立即或马上调节设备的回放音量。因而,实施方式可以基于媒体类型等来预测即将到来的音量控制命令(例如,开大或调小),并且扩展指令输入的时间段。另外地或可替选地,实施方式可以确定出(例如,基于历史用户输入随时间进行学习)默认关系是不必要的。例如,如果用户从未调节他们的音乐音量,则设备可以在播放音乐之后停止聆听跟随的命令。实施方式还可以允许在时间段内接收不相似的命令。不相似的命令可以使得用户能够给出一连串不相关的命令。可以学习、启用或过滤掉这些不相关的命令。

因此,如由示例实施方式和附图所示出的,实施方式提供了一种在音频捕获设备处接收音频输入的方法。这个初始音频输入通常包括激活提示和至少一个命令。此外,实施方式基于所接收的命令来执行动作。在随后的一些时刻,由实施方式接收附加音频输入,并且该实施方式确定是否需要新的激活提示。为了做出该确定,实施方式试图识别初始音频输入与次级输入之间是否存在关系。在本文最后讨论了可能的关系的示例。随后,基于该确定,实施方式将基于次级命令来执行动作或者如果不存在关系则不采取行动。

因此,本文中描述的各种实施方式表示通过改变处理音频输入的方式来改进与电子设备交互的技术。此改进还使得设备能够基于先前的用户动作随时间进行学习。因此,实施方式存储先前输入的用户命令的历史库,并且基于历史数据来创建特定命令之间的相关性。该相关性的创建使得用户能够更自然地讲话,并且以高效舒适的方式执行任务。

如本领域的技术人员将理解的,各个方面可以实施为系统、方法或设备程序产品。因此,各个方面可以采用完全硬件实施方式的形式或采用包括软件的实施方式的形式,这些形式在本文中可以全部统称为“电路”、“模块”或“系统”。此外,各个方面可以采用包含在一个或更多个设备可读介质中的设备程序产品的形式,所述一个或更多个设备可读介质包含有设备可读程序代码。

应当注意,本文中所描述的各种功能可以使用由处理器执行的存储在设备可读存储介质(例如非信号存储设备)上的指令来实现。存储设备可以是例如电子的、磁的、光学的、电磁的、红外线的或半导体的系统、装置或设备或者前述各项的任何适当的组合。存储介质的更多具体示例包括以下:便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪速存储器)、光纤、便携式压缩盘只读存储器(cd-rom)、光存储设备、磁存储设备,或前述各项的任何适当的组合。在本文献的上下文中,存储介质不是信号并且是“非暂时的”,包括除信号介质之外的全部介质。

可以使用任何适当的介质,包括但不限于无线、有线、光纤电缆、rf等或前述各项的任何适当的组合,来传输在存储介质上所包含的程序代码。

可以以一种或更多种编程语言的任何组合来编写用于执行操作的程序代码。程序代码可以完全在单个设备上执行、部分地在单个设备上执行、作为独立软件包部分地在一个设备上且部分地在另一设备上执行或完全在其他设备上执行。在一些情况下,可以通过任何类型的连接或网络(包括局域网(lan)或广域网(wan))来连接设备,或者可以通过其他设备(例如通过使用因特网服务提供商的因特网)、通过无线连接(例如近场通信)或通过硬线连接(如通过usb连接)来进行连接。

本文参照示出了根据各种示例实施方式的示例方法、设备和程序产品的附图来描述示例实施方式。应当理解,动作和功能可以至少部分地由程序指令来实现。可以将这些程序指令提供至设备的处理器、专用信息处理设备的处理器或其他可编程数据处理设备的处理器以产生机器,使得经由设备的处理器执行的指令实现指定的功能/动作。

值得注意的是,虽然在附图中使用了特定的块,并且已经示出了块的特定顺序,但这些都是非限制性示例。由于明确说明的示例仅用于描述的目的而不应被解释为限制,所以在某些情况下,可以组合两个或更多个块,可以将块分成两个或更多个块,或者可以根据需要将某些块重新排序或重新组织。

如本文所使用的,除非另外清楚地指明,否则单数“一个(a)”和“一个(an)”可以被解释为包括复数“一个或更多个”。

提出本公开内容是为了说明和描述的目的,而非意在是穷举或限制。对本领域普通技术人员而言,许多修改和变型是明显的。选择并描述了示例实施方式以解释原理和实际应用,并且使得本领域其他技术人员能够理解具有适于预期的特定用途的各种修改的各种实施方式的公开内容。

因此,尽管本文已经参照附图描述了说明性的示例实施方式,但要理解的是,这种描述不是限制性的,并且在不偏离本公开内容的范围或精神的情况下,本领域技术人员可以做出各种其他变化和修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1