用户专用的自动语音识别的制作方法

文档序号：2825879阅读：210来源：国知局

用户专用的自动语音识别的制作方法
【专利摘要】描述了一种多模式声音控制的用户接口。该用户接口适用于与一个或多个可能的说话者进行语音对话，并且包括广泛倾听模式，其不使用空间过滤，从可能的说话者接收语音输入；和选择性倾听模式，其使用空间过滤将语音输入限制到特定说话者。该用户接口响应于一个或多个切换提示，切换倾听模式。
【专利说明】用户专用的自动语音识别

【技术领域】
[0001]本发明涉及一种用于计算机系统的用户接口，更确切地，涉及一种使用自动语音识别的用户专用的、多模式的、声音控制的接口。

【背景技术】
[0002]在声音控制的设备中，通常使用一键通(push-to-talk，PTT)按钮来触发自动语音识别(ASR)。按下PTT按钮使得该系统对任何说出的词输入作出响应，而不考虑是谁发出的语音。在远距离的通话应用例如声控电视或计算机游戏控制台中，PTT按钮可以被激活词命令所替代。另外，可能会有多个用户潜在地想要进行声音控制。
[0003]通常ASR系统配备有用于克服干扰和噪音的信号预处理器。常常使用多个麦克风，特别是对于远距离通话接口，其中语音增强算法在空间上被操纵指向假定的说话者的方向(波束成形)。因此，来自于其它方向的干扰将被抑制。这对于所期望的说话者而言提高了 ASR性能，但是对于其他人而言降低了 ASR性能。因而，ASR性能依赖于说话者相对于麦克风阵列的空间位置，以及波束成形算法的操纵方向。

【发明内容】

[0004]本发明的实施例是针对采用至少一个硬件实现的计算机处理器的自动语音识别(ASR)系统的多模式声音控制的用户接口，以及使用这一接口相应的方法。该用户接口适用于与一个或多个可能的说话者进行语音对话，并且包括广泛倾听模式，其接收可能的说话者的语音输入而不进行空间过滤，以及选择性倾听模式，其使用空间过滤将语音输入限定为特定说话者。该用户接口响应于一个或多个切换提示切换倾听模式。
[0005]广泛倾听模式可能使用相关联的广泛模式识别词汇表，而选择性倾听模式使用不同的相关联的选择性模式识别词汇表。该切换提示能够包括来自于语音输入的一个或多个模式切换词，在语音对话中的一个或多个对话状态，和/或来自于可能说话者的一个或多个视觉提示。选择性倾听模式可以使用声学说话者位置和/或图像处理以用于空间过滤。
[0006]在选择性倾听模式，对于多个被选择的说话者的每个而言，用户接口能够同时并行操作。此外或可替换地，该接口可以被适应为在两个倾听模式下并行操作，此时接口在广泛倾听模式下接收来自房间内的任何用户的语音输入，与此同时在选择性倾听模式下接收仅仅来自于一个被选择的说话者的语音输入。
[0007]本发明的实施例还包括用于自动语音识别(ASR)的设备，其包括采用至少一个硬件实现的计算机处理器的语音控制的用户接口。该用户接口适用于与一个或多个可能的说话者进行语音对话。用户选择模块与用户接口进行通信，以用于基于可能的说话者的图像处理使用空间过滤来限制用户接口，以便仅响应来自于一个特定说话者的声音输入。
[0008]空间过滤可以进一步基于多个麦克风的选择性的波束成形。用户接口可以进一步适用于提供视觉反馈来指示特定说话者的方向和/或特定说话者的身份。图像处理可以包括执行可能说话者的视觉图像的手势识别和/或可能说话者的面部的视觉图像的面部识别。

【专利附图】

【附图说明】
[0009]图1示出了根据本发明的实施例的用于使用语音控制的用户接口的布置。
[0010]图2示出了根据本发明的实施例的用于用户专用语音控制的用户接口的状态图。
[0011]图3示出了使用声学和内容信息来选择给定说话者作为活跃用户。
[0012]图4示出了使用视觉信息来选择给定说话者作为活跃用户。
[0013]图5示出了使用视觉、声学和内容信息的结合来选择给定说话者作为活跃用户。
[0014]图6示出了具有顺序可交替的操作模式的声音控制接口的顺序布置。
[0015]图7示出了用于具有同步并行操作模式的声音控制接口的并行布置。

【具体实施方式】
[0016]本发明的实施例是针对用户专用ASR，其将语音控制功能限制在一个被选择的用户上，而不是恰巧在附近的任意用户。这可以基于，例如，用户说调用用户限制功能的特定的激活词。之后，该系统可以仍然专用于所指定的用户，直至特定对话结束或某些其它模式切换事件发生。在运行在用户专用模式时，该系统不响应来自于其它用户(干扰说话者)的任何说出的输入。
[0017]更确切地，本发明的实施例包括用户专用的、多模式的、语音控制的接口，其使用自动语音识别，具有两个不同种类的倾听模式:(I)广泛倾听模式，其响应于来自于任何方向的任何用户的语音输入；和(2)选择性倾听模式，其将语音输入限定到特定位置上的特定说话者。该接口系统可以基于不同的切换提示来切换模式:对话状态，某些激活词，或视觉手势。不同的倾听模式也可以使用不同的识别词汇表，例如，广泛倾听模式下的受限的词汇表和选择性倾听模式下的较大的识别词汇表。为了将语音输入限制为特定说话者，该系统可以使用声学说话者位置和/或视频处理单元来确定说话者位置。
[0018]本发明的实施例还包括用于自动语音识别(ASR)的布置，其被专用于特定用户，对其他任何用户不作出响应。使用来自于一个或多个摄像机的图像通过图像处理的单元检测出潜在用户。图像处理根据对一个或多个用户提示的检测来确定并选择专用用户，例如，手势识别，面部识别等等。基于该用户选择的结果，声学空间过滤器的操纵方向能够被控制，并持续依赖于正在发生的视觉信息。用户反馈(经由GUI)可以被给出来以标识方向和/或所选择的专用用户的身份，例如，指示系统的空间操纵方向。
[0019]根据本发明的实施例，图1示出了声音控制的用户接口 100布置。该声音控制的用户接口 100包括至少两个不同的操作模式。有广泛倾听模式，其中声音控制的用户接口100广泛地接收来自于房间101内的多个说话者102的任何一个的语音输入，而不进行任何的空间过滤。在广泛倾听模式中，声音控制的用户接口 100使用受限的广泛模式识别词汇表，其包括选择性模式激活词。当声音控制的用户接口 100检测到激活词，其进入选择性倾听模式，该模式使用扩展的选择性模式的识别词汇表，使用空间过滤将语音输入限制为房间101内的特定说话者102。例如，被选择的特定说话者可以使用接着对话过程的选择性倾听模式中的声音控制的用户接口 100，来控制一个或多个设备，例如电视机105和/或计算机游戏控制台106。
[0020]图2示出了用于操作声音控制的用户接口 100的状态图。从图2的左侧的广泛倾听模式开始，最左边的闭合圆弧示出了只要激活词未被检测出来并且特定说话者还没有被标识，那么声音控制的用户接口 100就停留在广泛倾听模式中。图2上部圆弧示出，当声音控制的用户接口 100检测到激活词已经被说出来并且特定说话者被成功地标识时，从广泛倾听模式到选择性倾听模式的转变就会出现。当在选择性倾听模式时，图2最右侧的闭合圆弧示出了，只要特定说话者位置已知，那么声音控制的用户接口 100就停留在选择性倾听模式中，直到和说话者的对话过程结束，或者一些其他事件将模式返回到广泛倾听模式，如跨越图2中的底部圆弧所不。
[0021]在选择性倾听模式中执行的对特定说话者的空间过滤可以基于内容信息与声学信息的组合，如图3中所示。当激活词在广泛倾听模式中被发现时，就会出现内容信息。当由接口执行声学说话者定位，以便从房间中的多个麦克风选择语音输入，并且对麦克风信号执行选择性的波束成形以便语音输入定位为特定说话者，此时会出现声学信息。
[0022]如图4中所示出的，还可以基于使用带有空间过滤的图像处理进入选择性倾听模式。一旦激活词在广泛倾听模式中被检测出来，接口使用来自于摄像机和/或视频处理引擎的视觉图像信息来确定看得见多少人，和他们相对于麦克风阵列的位置。该接口可以通过使用图像处理与手势识别一起来识别特定手势，并结合激活词来选择特定说话者。使用图像处理的实施例可以在即使没有命令被说出的情况下跟踪特定说话者的位置。并且如图5中所示出的，一些实施例可以使用声学、图像和内容信息的组合来执行空间过滤。
[0023]图6示出了在多模式声音控制的用户接口中的功能性框图，其可以在倾听模式之间顺序切换。在这一布置中，响应于在选择性倾听模式中特定说话者完成了与接口的语音对话，可以使用广泛倾听模式，从而接口可以在倾听模式之间顺序转换。其结果是，一次只有一个用户能够操作该接口。在广泛倾听模式中，接口中的控制模块使用模式选择开关来选择房间内的单个麦克风来接收来自于房间的任何人的语音输入。通过应用降噪(NR)，可以使用包括了选择性模式激活词的受限的广泛模式识别词汇表(识别模型的有限集合)来执行自动语音识别(ASR)。当ASR检测出激活词时，从ASR将反馈信号提供给控制模块。然后控制模块使用视觉信息和对话状态信息通过时间延迟估计(TDE)和用户特定波束成形(BF1, BF2等等)对麦克风阵列输入进行空间过滤，来保持接口专注于所选择的特定说话者，则该说话者被确定只要用户对话持续，则已经激活了选择性倾听模式。
[0024]图7示出了多模式声音控制的用户接口下的功能性框图，其在不同倾听模式下操作的同时能够并行处理用户语音输入。因而，该接口在广泛倾听模式下操作以便使用受限的广泛模式识别词汇表广泛倾听模式接收来自于房间内的任何用户的语音输入，与此同时，还可以在用于一个或多个特定说话者的选择性倾听模式下操作以便使用扩展的选择性倾听模式识别词汇表来接收语音输入。即使当一个使用者在选择的模式中已操作该系统，该接口对于其他使用者在广泛和/或选择性倾听模式中是开放的。因而，另一个使用者可以开启第二个选择性模式实例，举例来讲，来启动单独的对话或参加当前已经存在的对话(例如，用于计算机游戏)，而多个方向的感测波束可以朝向每一个说话者。这能够支持与多个说话者的对话，例如在问答比赛-游戏应用中。
[0025]依靠倾听模式，可以在ASR引擎中使用不同的声学模型，或者甚至是采用不同的ASR引擎。不管怎样，当切换倾听模式时，需要切换ASR语法。对于多个用户M中的一些而言，接口可以使用N = M波束，N < M波束或N= I波束。
[0026]当设备在选择性倾听模式并且只倾听特定说话者时，对于接口而言，与特定说话者通信是有用的。有一些不同的方法可以实现这一点。例如，视觉显示可以示出具有用户高亮显示的房间场景的示意图，以标识所选择的特定说话者的位置。或者更简单地，光条显示(light bar display)被亮度编码以便指示选择的特定说话者的空间方向。或者虚拟人可以被用于传送倾听模式反馈，作为与用户对话的一部分。
[0027]举例来讲，前述的有用的应用可以是，在控制电视或游戏控制台的特定背景中，基于带有广泛和选择性倾听模式的用户专用ASR，其中潜在用户和他们的空间位置由一个或多个摄像机的单元检测。初始时，接口系统处于广泛倾听模式中，潜在用户信息被提供给空间声音活动检测过程，其检查活跃声音的说话者位置。当广泛倾听模式检测到了模式切换提示，例如，激活词，此时空间声音活动检测过程提供关于是谁提供了那个切换提示的信息。之后，接口系统通过空间过滤(波束成形和/或盲源分离)切换到选择性倾听模式，并且将ASR专用/限定到那个用户。用户反馈也可以通过GUI被提供到倾听方向，从那时开始，由一个或多个摄像机跟随专用用户的空间位置。依靠对话状态或另一个切换提示，模式转移回到广泛倾听模式。
[0028]本发明的实施例可以全部的或部分的由任何常规计算机程序语言例如VHDL、SystemC、Verilog、ASM等来实现。本发明的其它的实施例能够作为预编程硬件元件，其它相关的元件，或者硬件和软件部件的组合的形式实现。
[0029]实施例的全部或部分可以作为供计算机系统使用的计算机程序产品来实现。这一实现可以包括一系列计算机指令，该指令要么被固定在有形介质上，例如计算机可读介质(例如，磁盘、⑶-ROM、ROM、或固定盘)，要么经由调制解调器或其它接口设备(例如通过介质连接到网络的通信适配器)被发送到计算机系统。该介质可以是有形介质(例如，光的或模拟通信线)或者使用无线技术(例如，微波，红外的或其它传输技术)实现的介质。这一系列计算机指令体现本文先前所描述的与系统有关的功能的全部或部分。本领域技术人员应当理解，这些计算机指令可以被写成多种编程语言以便能够与许多计算机架构或操作系统配合使用。进一步地，这些指令可以被存储于任何存储器设备中，例如半导体，磁的，光的或其它存储器设备，还可以使用任何通信技术，例如光的，红外的，微波，或其它传输技术被传输。可以预见，这一计算机程序产品可以作为带有附带打印的或电子文档(例如，套装软件)、预装有计算机系统(例如在系统ROM或固定盘)的可移动介质而分发，或者从服务器或电子公告板通过网络(例如，因特网或万维网)分发。当然，本发明的一些实施例可以作为软件(例如，计算机程序产品)和硬件两者的组合被实现。本发明的其它实施例仍然作为全部为硬件，或者全部为软件(例如，计算机程序产品)而实现。
[0030]尽管本发明的各种示例性实施例已经被公开，对于本领域技术人员而言显而易见的是:可以做出将实现本发明的一些优点的各种改变和修改，而不偏离本发明真实范围。
【权利要求】
1.一种用于自动语音识别(ASR)的设备，包括: 采用至少一个硬件实现的计算机处理器的多模式声音控制的用户接口，其中所述用户接口适用于与一个或多个可能的说话者进行语音对话，并且包括: a.广泛倾听模式，其不使用空间过滤，从所述可能的说话者接收语音输入；和 b.选择性倾听模式，其使用空间过滤，将语音输入限制到特定说话者；其中所述用户接口响应于一个或多个切换提示，切换倾听模式。
2.如权利要求1所述的设备，其中所述广泛倾听模式使用相关联的广泛模式识别词汇表，所述选择性倾听模式使用不同的、相关联的选择性模式识别词汇表。
3.如权利要求1所述的设备，其中所述切换提示包括来自于所述语音输入的一个或多个模式切换词。
4.如权利要求1所述的设备，其中所述切换提示包括在所述语音对话中的一个或多个对话状态。
5.如权利要求1所述的设备，其中所述切换提示包括来自于所述可能的说话者的一个或多个视觉提示。
6.如权利要求1所述的设备，其中所述选择性倾听模式使用声学说话者定位以用于所述空间过滤。
7.如权利要求1所述的设备，其中所述选择性倾听模式使用图像处理以用于所述空间过滤。
8.如权利要求1所述的设备，其中在选择性倾听模式中，对于多个被选择的说话者中的每一个而言，所述用户接口同时并行操作。
9.如权利要求1所述的设备，其中所述接口适用于在这两个倾听模式中并行操作，由此，所述接口在所述广泛倾听模式中接收来自于房间内任何用户的语音输入，与此同时在所述选择性倾听模式中，接收仅来自于一个被选择说话者的语音输入。
10.—种在非暂时性计算机可读介质中编码的、用于操作自动语音识别(ASR)系统的计算机程序产品，所述产品包括: 用于经由多模式声音控制的用户接口与一个或多个可能的说话者进行语音对话的程序代码，所述用户接口适用于: a.在广泛倾听模式中，不使用空间过滤，从所述可能的说话者接收语音输入；以及 b.在选择性倾听模式中，使用空间过滤，将语音输入限制到特定说话者；其中所述用户接口响应于一个或多个切换提示，切换倾听模式。
11.一种用于自动语音识别(ASR)的设备，包括: 采用至少一个硬件实现的计算机处理器的声音控制的用户接口，其中所述用户接口适用于与一个或多个可能的说话者进行语音对话；以及与所述用户接口进行通信的用户选择模块，所述用户选择模块用于基于对所述可能的说话者的图像处理，使用空间过滤来限制所述用户接口，以便仅响应来自于一个特定说话者的语音输入。
12.如权利要求11所述的设备，其中所述空间过滤进一步基于多个麦克风的选择性的波束成形。
13.如权利要求11所述的设备，其中所述用户接口进一步适用于提供视觉反馈以指示所述特定说话者的方向。
14.如权利要求11所述的设备，其中所述用户接口进一步适用于提供视觉反馈以指示所述特定说话者的身份。
15.如权利要求11所述的设备，其中所述图像处理包括执行所述可能的说话者的视觉图像的手势识别。
16.如权利要求11所述的设备，其中所述图像处理包括执行所述可能的说话者的面部的视觉图像的面部识别。
17.—种在非暂时性计算机可读介质中编码的、用于操作自动语音识别(ASR)系统的计算机程序产品，所述产品包括: 用于声音控制的用户接口的程序代码，所述用户接口适用于与一个或多个可能的说话者进行语音对话；以及用于与所述用户接口进行通信的用户选择模块的程序代码，所述用户选择模块用于基于对所述可能的说话者的图像处理，使用空间过滤来限制所述用户接口，以便仅响应来自于一个特定说话者的语音输入。
【文档编号】G10L15/22GK104488025SQ201280071506
【公开日】2015年4月1日申请日期:2012年3月16日优先权日:2012年3月16日
【发明者】T·沃尔夫, M·布克, T·豪利克, 苏哈迪申请人:纽昂斯通讯公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：T·沃尔夫;M·布克;T·豪利克;苏哈迪;
技术所有人：纽昂斯通讯公司;
我是此专利的发明人

上一篇：语音信号处理方法及装置以及使用其的助听器的制造方法
上一篇：用减少的带宽传送数据样本的方法