经由标识信息的语音识别分析的制作方法

文档序号：2824980阅读：248来源：国知局

专利名称：经由标识信息的语音识别分析的制作方法
技术领域：
本发明涉及语音识别技术，尤其涉及一种经由标识信息的语音识别分析的方法和系统。
背景技术：
语音识别技术允许计算设备的用户经由语音命令而非经由键盘或其他外围设备输入设备来作出输入。不同的语音识别系统共有的一个困难在于将预期语音输入与其他所接收的声音辨别开来，这些声音包括但不限于，背景噪声、背景语音、以及来自当前系统用户的不旨在成为输入的语音。提出了将预期语音输入与其他声音辨别开来的各种方法。例如，某些语音输入系统在接受任何语音并将其作为输入进行分析之前要求用户说出一个特定命令，诸如“开始收听”。然而，这些系统可能仍然易于受到随机地匹配所识别的语音模式并因此被解释为输入的背景噪声的影响。这种“假肯定”可能导致语音识别系统执行用户未期望的动作，或者甚至在没有用户在场的情况下执行动作。

发明内容
因此，本文公开了涉及使用身份信息来帮助避免在语音识别系统中发生假肯定语音识别事件的各种实施例。例如，一个所公开的实施例提供了一种操作语音识别输入系统的方法。该方法包括接收语音识别数据，该语音识别数据包括所识别的语音段、经由来自麦克风阵列的信号所确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据，并且还接收包括与位于图像传感器的视场中的每一个人的位置有关的视觉位置信息的图像数据。将声学位置数据与视觉位置数据进行比较来确定所识别的语音段是否源自图像传感器的视场中的人。该方法还包括基于所识别的语音段是否被确定为源自图像传感器的视场中的人来调整置信数据。提供本发明内容是为了以简化的形式介绍将在以下具体实施方式
中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于限定所要求保护的主题的范围。此外，所要求保护的主题不限于解决在本发明的任一部分中提及的任何或所有缺点的实现。

图1示出视频游戏环境形式的示例语音输入环境的一个实施例。图2示出包括语音识别输入系统的计算系统的一个实施例的框图。图3示出描绘了使用身份数据来分析语音输入的方法的一个实施例的流程图。图4示出描绘了使用身份数据来分析语音输入的方法的另一实施例的流程图。图5示出用于使用身份数据来分析语音输入的系统的一个实施例的框图。图6示出了深度图像的帧的一个实施例的一部分的示意性描绘。
具体实施例方式本公开涉及避免语音识别输入系统中的假肯定语音识别。此外，所公开的各实施例还可以在语音识别系统环境中存在多个用户的情况下帮助确保语音识别事件源自所期望的用户。例如，在多个用户正在玩知识竞赛(game show)主题的视频游戏并且该游戏要求特定人回答特定问题的情况下，所公开的各实施例可以帮助阻塞其他用户喊叫的回答。可以理解，可以使用该语音识别输入系统来实现对任意合适的设备的语音输入。各示例包括但不限于，交互式娱乐系统，诸如视频游戏控制台、数字录像机、数字电视机和其他媒体播放器以及将这些功能中的两个或更多进行组合的设备。图1示出交互式娱乐系统10形式的示例语音识别使用环境，该交互式娱乐系统 10可以用于播放各种各样不同的游戏、播放一个或多个不同的媒体类型、和/或控制或操纵非游戏应用程序。交互式娱乐系统10包括被配置成在显示器104上显示图像的控制台 102，显示器104被示为可以用于向一个或多个游戏玩家呈现游戏视觉形象的电视机。可以理解，图1中示出的示例实施例是出于说明的目的而呈现的，并且不旨在以任何方式进行限制。娱乐系统10还包括具有深度感测照相机和麦克风阵列的输入设备100。深度感测照相机可以用于在视觉上监视娱乐系统10的一个或多个用户，而麦克风阵列可以用于由接收玩家作出的语音命令。使用麦克风阵列而非单个麦克风允许从音频数据中确定关于声音(例如，玩家说话)的源的位置的信息。输入设备100所获取的数据允许玩家在不使用手持式控制器或其他远程设备的情况下作出输入。相反，语音输入、移动和/或其组合可以被娱乐系统10解释为可以用于影响娱乐系统10正在执行的游戏的控制命令。游戏玩家108的移动和语音输入几乎可以被解释为任何类型的游戏控制命令。例如，图1中示出的示例场景示出游戏玩家108正在玩正由交互式娱乐系统10执行的拳击游戏。游戏系统使用电视机104来在视觉上向游戏玩家108呈现拳击对手110。此外，娱乐系统10还在视觉上呈现游戏玩家108用移动来控制的玩家化身112。例如，游戏玩家108可以在物理空间中挥重拳来作为对玩家化身112在游戏空间中挥重拳的指令。娱乐系统10 和输入设备110可以用于识别和分析物理空间中游戏玩家108的重拳，从而使得该重拳可以被解释为使得游戏化身112在游戏空间中挥重拳的游戏控制命令。还可以使用语音命令来控制玩的各方面。此外，某些移动和语音输入可以被解释为用作除了控制游戏化身112之外的目的的控制命令。例如，玩家可使用移动和/或语音命令来结束、暂停或保存游戏，选择级别，查看高分，与朋友通信等。所示出的拳击场景是作为示例来提供的，但决不意味着以任何方式进行限制。相反，所示出的场景旨在展示可以在不背离本公开的范围的情况下应用于各种各样不同的应用程序的一般概念。图2示出了图1的实施例的框图。如上所述，输入设备100包括用于检测玩家运动的图像传感器，诸如深度感测照相机202，并且还包括检测来自玩家的语音输入的麦克风阵列204。深度感测照相机202可以利用用于确定照相机的视场中的目标对象(例如，玩家)的深度的任何合适的机制，包括但不限于结构化光机制。同样，麦克风阵列204可以具
5有任何合适数量和排列的麦克风。例如，在一个具体实施例中，麦克风阵列204可以具有四个麦克风，这四个麦克风在空间上被排列为避免来自源的声音实例在全部四个麦克风处进行破坏性干扰。在其他实施例中，输入设备100可以包括除了深度感测照相机之外的图像传感器。输入设备100还包括包含可由处理器208执行以执行各种功能的指令的存储器 206，这些功能与从深度感测照相机202和麦克风阵列204接收输入、处理这些输入、和/或将这些输入传递到控制台102有关。这些功能的各实施例将在下文中更详细地描述。控制台102同样包括其上存储有可由处理器212执行以执行与娱乐系统10的操作有关的各种功能的指令的存储器210，这些功能的各实施例将在下文中更详细地描述。如上所述，语音识别系统可能难以将预期语音输入与诸如背景噪声、背景语音 (即，不是源自当前用户的语音)等其他所接收的声音辨别开来。此外，语音识别系统可能还难以区分来自当前系统用户的、不旨在成为输入的语音。涉及用户发出诸如“开始收听” 等特定语音命令来发起语音识别会话的当前方法可能遭受其中背景噪声随机地匹配这种语音模式的假肯定。另一种方法涉及利用照相机来检测当前用户的凝视以确定来自用户的语音是否旨在作为语音输入。然而，该方法依赖于在系统使用期间用户处在预期位置，并且因此在用户四处移动、用户可能在照相机的视野之外、和/或没有用户在场的动态使用环境中可能无效。因此，图3示出描绘了用于操作语音识别输入系统的方法300的一个实施例的流程图。方法300包括在步骤302处接收语音识别数据。语音识别数据可以包括诸如所识别的语音段304、指示所识别的语音段的源的方向和/或位置的声学位置信息306、和/或表示所识别的语音段与其匹配的语音模式的匹配的确信度的置信值的置信数据308等数据。所识别的语音段304和置信数据308可以是各自从对麦克风阵列所接收的声音的分析来确定的，例如，通过经由数字音频处理将来自麦克风的信号组合成单个语音信号并随后执行语音识别分析。同样，声学位置信息306可以是经由对接收所识别的语音段的相对时刻的分析来从麦克风阵列的输出中确定的。用于这些过程中的每一个的各种技术是公知的。接着，方法300包括在312处接收图像数据。图像数据可以包括例如经处理的图像数据，该图像数据最初由深度感测照相机接收并随后被处理来标识图像中的人或其他对象。在某些实施例中，图像中的个别像素或像素组可以用元数据来标记，该元数据表示在该像素处成像的对象的类型(例如，“玩家1”)，并且还表示该对象相距输入设备的距离。该数据在图3中被示为“视觉位置信息”314。下面将更详细地描述这种图像数据的一个示例实施例。在接收到语音识别数据和图像数据之后，方法300接着包括，在316处，将声学位置信息和视觉位置信息进行比较，并且在318处，基于所识别的语音段是否被确定为源自图像传感器视场中的人来调整置信数据。例如，如果确定所识别的语音段不是源自视野中的玩家，则可以降低置信值，或者可以将第二置信值添加到置信数据，其中该第二置信值是被配置成(在这种情况下)传达所识别的语音段来自活动用户的较低置信水平的预期输入置信值。同样，在确定所识别的语音段的确源自视野中的玩家的情况下，可以增大置信值或使其保持不变，或者可以将预期输入置信值添加到置信数据来传达所识别的语音段来自活动用户的较高置信水平。
在任一种情况下，可以将所识别的语音段和经修改的置信数据提供给应用程序以供使用。通过使用该数据，应用程序可以基于经修改的置信数据来决定是接受还是拒绝所识别的语音段。此外，在确定所识别的语音段很可能不旨在成为语音输入的某些情况下，方法300可以包括拒绝所识别的语音段，并因此不将其传递给应用程序。在这种情况下，对所识别的语音段的这种拒绝可以被认为是将置信水平调整到低于最低置信阈值的水平。可以理解，以上给出的用于调整置信数据的特定示例是出于说明的目的而描述的，并且可以对置信值作出任何其他合适的调整。在某些情况下，可以使用除了声学位置信息和视觉位置信息之外的其他信息来帮助确定所识别的语音段旨在成为输入的置信水平。图4示出描绘了利用可以用于帮助确定所识别的语义段是否旨在成为语音输入的数据的各种示例的方法400的一个实施例的流程图。此外，图5示出适用于执行方法400的系统500的一个实施例。方法400包括在402处接收所识别的语音段和置信数据。如图5所示，这种信号可以作为来自音频处理流水线的输出来接收，该音频处理流水线被配置成经由模-数转换器(ADC)从麦克风阵列接收多个音频信号，如502处所指示的。所示出的音频处理流水线实施例包括由框504概括地示出的一个或多个数字音频处理阶段，并且还包括语音识别阶段 506。数字音频处理阶段504可以被配置成对数字化麦克风信号执行任何合适的数字音频处理。例如，数字音频处理阶段504可以被配置成移除噪声、将四个麦克风信号组合成单个音频信号、以及输出包括关于从其接收语音输入的方向和/或位置的信息的声学位置信息507。语音识别阶段506如上所述地可被配置成将从数字音频处理阶段504接收的输入与多个所识别的语音模式进行比较从而试图识别语音输入。语音识别阶段506随后可以将所识别的语音段以及每一所识别的语音段的置信数据输出到意图确定阶段508。此外，意图确定阶段508还可以从数字音频处理阶段504接收声学位置信息。可以理解，在某些实施例中，声学位置信息可以经由语音识别阶段506来接收或者接收自任何其他合适的组件。回头参考图4，方法400接着包括确定所识别的语音段是否源自图像传感器的视野中的玩家。该确定可以按任何合适的方式作出。例如，再次参考图5，来自深度感测照相机的图像数据可以由将这种视频处理执行为骨架跟踪的视频处理阶段510来接收。视频处理阶段510可以输出任何合适的数据，包括但不限于，包含从骨架跟踪分析中确定的关于每一像素处的对象的位置和深度的信息的合成深度图像。图6示出合成深度图像600的一个示例实施例的一部分中包含的数据的示意图。合成深度图像600包括多个像素，每一像素包括图像数据和包含经由骨架跟踪所确定的关于位于图像中的人的信息的相关联元数据。例如，第一像素602包括第一组元数据604。第一组元数据604从上到下被示为包括，像素索引(被示为[x，y]坐标)、指示图像中的人的身体部位的深度的深度值 (例如，与深度感测照相机相距的距离)、身体部位标识(此处被概括地示为“bp 4”或身体部位4)、以及玩家号(“P1”或玩家1)。此外，看到第二像素606包括第二组元数据608。将第一组元数据604和第二组元数据608进行比较，可以看到第一像素602和第二像素606 被标识为在与深度感测照相机相距不同的距离处成像不同的身体部位。因此，经处理的图像数据包括与深度感测照相机的视场中的每一个人的距离有关的视觉位置信息。
再次参考图4，在404处，可以将这种视觉位置信息与声学位置信息进行比较来帮助确定所识别的语音段是否源自深度感测照相机或其他图像传感器的视场中的玩家。如果确定所识别的语音段不是源自深度感测照相机的视场中的玩家，则方法400包括在406处确定所识别的语音段源自的人是否可以通过话音来标识。这可以按任何合适的方式来执行。例如，再次参考图5，交互式娱乐系统可以维护用户话音模式514的数据库(例如，可以要求系统的每一个新用户输入话音样本来允许系统维护用户的话音模式的记录)来允许通过话音对用户的后续标识。回头参考图4，如果确定所识别的语音段不是源自视野中的玩家并且说话者无法通过话音来标识，则方法400包括拒绝所识别的语音段，如408处所示。在该实例中，不将所识别的声音段传递给应用程序以供使用。另一方面，如果说话者可以通过话音来标识，则在510处修改置信数据来反映所识别的语音输入旨在成为输入的置信度的降低。可以理解，在说话者不在深度感测照相机的视场中并且不能通过话音来标识的其他实施例中，可以不拒绝所识别的语音段，但可以改为修改置信数据。返回到过程404，如果确定所识别的语音段源自深度感测照相机的视场中的人，则方法400包括在412处确定该人是否面向深度感测照相机。这可以包括，例如，确定视觉位置数据是否指示了该玩家的任何面部特征(例如，眼睛、鼻子、嘴巴、整张脸等)是可见的。这种确定可以是有用的，例如，用于在用户正与另一用户并排坐着并与其谈话(即，非活动用户作出的语音)和用户正在作出语音输入(即，活动用户作出的语音)之间进行区分。如果在412处确定用户未面向照相机，则方法400包括在414处调整置信数据来反映所识别的语音输入旨在成为输入的置信度的降低。另一方面，如果确定该用户正面向照相机，则不调整置信数据。可以理解，在其他实施例中，可以对置信数据作出除了此处描述的调整之外的任何其他合适的调整来反映从412处的确定所导致的不同的置信水平。接着在416处，确定所识别的语音段源自的人是否可以通过话音来标识。如上对过程406所描述的，这可以按任何合适的方式来执行，诸如通过咨询用户话音模式514的数据库。如果确定所识别的语音段不是源自视野中的玩家并且说话者不能通过话音来标识，则方法400包括在418处调整置信数据来反映所识别的语音输入旨在成为输入的置信度的降低。另一方面，如果确定用户正面向照相机，则不调整置信数据。可以理解，在其他实施例中，可以对置信数据作出除了此处描述的调整之外的任何其他合适的调整来反映从416 处的确定所导致的不同的置信水平。方法400接着包括在420处确定用户的语音输入是否包含所识别的关键词。该所识别的关键词可以是被认为是指示后续语音很可能旨在作为语音输入的词语或短语，并且可以将该所识别的关键词存储在数据库中，如图5中516处所指示的。如果在420处确定所识别的语音段领先于在预定时间窗口中接收的关键词，则方法400包括在422处调整置信数据。另一方面，如果确定在预定时间窗口中的关键词领先于所识别的语音段，则方法400 包括基于在接收到关键词和所识别的语音段之间经过的时间量来调整置信数据。例如，在某些实施例中，所应用的调整的大小可以遵循作为时间函数的衰减型曲线，从而使得该调整反映了随着在接收到关键词和接收到所识别的语音段之间经过的时间越多而渐进地减少的置信度。在其他实施例中，调整在本质上可以是二进制的或者步进式的，从而使得不对置信数据作出调整直到接收到关键词和接收到所识别的语音段之间经过的时间达到预定时间量。可以理解，依赖时间的调整的这些示例是出于说明的目的而描述的，并且不旨在以任何方式进行限制。还可以理解，图4中示出的过程的示例和次序是出于示例的目的而呈现的，并不旨在进行限制。在其他实施例中，对用户作出语音输入的意图的确定可以仅利用所示出的过程的子集和/或利用未示出的附加过程。此外，这些过程可以按照任何合适的次序来应用。可以明白，此处所描述的计算设备可以是被配置成执行此处所描述的程序的任何合适的计算设备。例如，计算设备可以是大型计算机、个人计算机、膝上型计算机、便携式数据助理(PDA)、机顶盒、游戏控制台、启用计算机的无线电话、联网计算设备，或其他合适的计算设备，并可以经由诸如因特网等计算机网络彼此连接。这些计算设备通常包括处理器以及相关联的易失性和非易失性存储器，并被配置成使用易失性存储器的各部分和处理器来执行存储在非易失性存储器中的程序。如此处所使用的，术语“程序”指的是可由此处所描述的一个或多个计算设备执行或利用的软件或固件组件，并且意味着包含单独的或各组可执行文件、数据文件、库、驱动程序、脚本、数据库记录等等。可以理解，可以提供其上存储有程序指令的计算机可读存储介质，该程序指令在由计算设备执行时使该计算设备执行上文所描述的方法并使得操作上述系统。应该理解，此处所述的配置和/或方法在本质上示例性的，且这些具体实施例或示例不是局限性的，因为多个变体是可能。此处所述的具体例程或方法可表示任何数量的处理策略中的一个或多个。由此，所示出的各个动作可以按所示顺序执行、按其他顺序执行、并行地执行、或者在某些情况下省略。同样，可以改变上述过程的次序。本发明的主题包括各种过程、系统和配置的所有新颖和非显而易见的组合和子组合、和此处所公开的其它特征、功能、动作、和/或特性、以及其任何和全部等效方案。
权利要求
1.一种在包括麦克风阵列和图像传感器的计算系统中操作语音识别输入系统的方法 (300)，所述方法包括接收(30 语音识别数据，所述语音识别数据包括所识别的语音段、经由来自所述麦克风阵列的信号确定的与所述所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据；接收(31 包括与位于所述图像传感器的视场中的每个人的位置有关的视觉位置信息的图像数据；将所述声学位置数据与所述视觉位置数据进行比较(316)来确定所述所识别的语音段是否源自所述图像传感器的所述视场中的人；以及基于所述所识别的语音段是否被确定为源自所述图像传感器的所述视场中的人来调整(318)所述置信数据。
2.如权利要求1所述的方法，其特征在于，调整所述置信数据包括降低所述识别置信值。
3.如权利要求1所述的方法，其特征在于，调整所述置信数据包括确定被配置成传达所述所识别的语音段是否来自活动用户的置信水平的预期输入置信值。
4.如权利要求1所述的方法，其特征在于，还包括基于所述所识别的语音段是否被确定为源自所识别的说话者来调整所述置信数据。
5.如权利要求1所述的方法，其特征在于，如果所述所识别的语音段被确定为不是源自所识别的说话者并且被确定为不是源自所述图像传感器的所述视场中的人，则调整所述置信数据包括拒绝所述所识别的语音段。
6.如权利要求1所述的方法，其特征在于，如果确定所述所识别的语音段源自所述图像传感器的所述视场中的人，则在随后确定所述人的脸部是否面向所述图像传感器，并且基于所述人的脸部是否面向所述图像传感器来调整所述置信数据。
7.如权利要求1所述的方法，其特征在于，还包括在接收所述所识别的语音段之前接收关键词的语音输入，并且其中调整所述置信数据包括基于在接收到所述关键词的语音输入和接收到所述所识别的语音段之间经过的时间量来调整所述置信数据。
8.如权利要求1所述的方法，其特征在于，所述图像传感器是深度感测照相机，并且其中接收包含视觉位置信息的图像数据包括接收包含与所述深度感测照相机的所述视场中的每个人的距离有关的信息的图像数据。
9.一种交互式娱乐系统000)，包括深度感测照相机O02)；包括多个麦克风的麦克风阵列(204)以及计算设备(102)，所述计算设备包括处理器(210)和其上包含有指令的存储器012)，所述指令可以由所述处理器执行以接收包括语音识别数据，所述语音识别数据包括所识别的语音段、经由来自所述麦克风阵列(204)的信号确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据；接收包括与位于所述深度感测照相机O02)的视场中的每个人的位置有关的视觉位置信息的图像数据；将所述声学位置数据与所述视觉位置数据进行比较以确定所述所识别的语音段是否源自所述深度感测照相机O02)的所述视场中的人；以及基于所述所识别的语音段是否被确定为源自所述深度感测照相机O02)的所述视场中的人来调整所述置信数据。
10.如权利要求9所述的交互式娱乐系统，其特征在于，所述指令可被执行来通过降低所述识别置信值来调整所述置信数据。
11.如权利要求9所述的交互式娱乐系统，其特征在于，所述指令可被执行来通过确定并包括被配置成传达所述所识别的语音段是否来自活动用户的置信水平的预期输入置信值来调整所述置信数据。
12.如权利要求9所述的交互式娱乐系统，其特征在于，所述指令还可被执行以确定所述所识别的语音段是否源自所识别的说话者，以及基于所述所识别的语音段被确定为源自所识别的说话者来调整所述置信数据。
13.如权利要求12所述的交互式娱乐系统，其特征在于，所述指令还可被执行以执行以下动作如果所述所识别的语音段被确定为不是源自所识别的说话者并且所述所识别的语音段被确定为不是源自所述深度感测照相的所述视场中的人，则拒绝所述所识别的语音段。
14.如权利要求9所述的交互式娱乐系统，其特征在于，所述指令还可被执行以确定所述所识别的语音段源自所述图像传感器的所述视场中的人，确定所述人的脸是否面向所述图像传感器，以及基于所述人的脸是否面向所述图像传感器来调整所述置信数据。
15.如权利要求9所述的交互式娱乐设备，其特征在于，还包括在接收所述所识别的语音段之前接收关键词的语音输入，并且其中调整所述置信数据包括基于在接收到所述关键词的语音输入和接收到所述所识别的语音段之间经过的时间量来调整所述置信数据。
全文摘要
本发明描述了一种经由标识信息的语音识别分析的方法和系统。所公开的各实施例涉及使用身份信息来帮助避免在语音识别系统中发生假肯定语音识别事件。一个实施例提供了一种方法，该方法包括接收语音识别数据，该语音识别数据包括所识别的语音段、经由来自麦克风阵列的信号所确定的与所识别的语音段的起源位置有关的声学位置数据、以及包括识别置信值的置信数据，并且还接收包括与图像中的每个人的位置有关的视觉位置信息的图像数据。将声学位置数据与视觉位置数据进行比较来确定所识别的语音段是否源自图像传感器的视场中的人，并且基于该确定来调整置信数据。
文档编号G10L15/00GK102136269SQ20111003116
公开日2011年7月27日申请日期2011年1月21日优先权日2010年1月22日
发明者A·M·瓦塞尔, C·克莱恩, D·霍金斯, D·麦克凯, J·弗莱克斯, M·S·德尼斯, T·莱瓦德申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J·弗莱克斯;D·霍金斯;C·克莱恩;M·S·德尼斯;T·莱瓦德;A·M·瓦塞尔;D·麦克凯
技术所有人：微软公司
我是此专利的发明人