语音-身体身份相关的制作方法

文档序号：2824983阅读：222来源：国知局

专利名称：语音-身体身份相关的制作方法
技术领域：
本发明涉及一种用于在多用户应用程序中将语音与用户相关联的系统和方法。
背景技术：
诸如计算机游戏和多媒体应用之类的系统已经演变到系统能够利用用户移动和口头通信作为对系统的输入的地步。此类自然系统可能连向多个用户，在此情况下迫使在个体之间作出区分。现有技术允许游戏或应用通过各种机制来标识视场内的用户，这些机制包括能够感测诸如大小、面部特征、衣着颜色等用户特征的三维深度相机。还存在语音识别技术以通过包括话筒阵列在内的各种机制来标识感知用户语音。传统上，这两种技术还未曾合作地使用过。在不用涉及用户方的特意装置的情况下自动将用户语音与身体相匹配将是令人信服的。例如，可能会有单独使用成像技术或单独使用音频技术，人的身份不明确的情况发生。在低成本的消费者系统中尤其如此。除了帮助明确用户外，音频与视觉身份的此类关联可被用于支持游戏或应用内的用户体验。

发明内容
本文描述了一种用于在多用户应用程序中将语音与用户相关联的系统和方法。该系统包括能够提供所述图像相机组件的视场中的一个或多个用户的深度图像的图像相机组件。该系统还包括话筒阵列，其能够接收该话筒阵列的范围内的音频。话筒阵列还能够将语音的源定位在第一容限内。实施例还包括与图像捕捉组件和话筒阵列两者通信且能够区别视场中的不同用户达到第二容限的计算环境。在实施例中，第一和第二容限有时可能妨碍在对来自图像相机的数据和来自话筒阵列的数据进行初始采样后将语音与用户相关联。然而，计算环境还执行对来自图像相机的数据和来自话筒阵列的数据的附加采样。这些附加采样允许将语音与用户相关联或者该些附加采样降低了语音与用户相关联的似然性。

图1A-1B示出伴随用户玩游戏的目标识别、分析和跟踪系统的示例实施例。图2示出了可在目标识别、分析和跟踪系统中使用的捕捉设备的示例实施例。图3A示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的示例实施例。图IBB示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的另一示例实施例。图4描绘用于将语音与身体相关联的示例方法的高层流程图。图5描绘用于标识视场内的一个或多个身体的流程图。图6描绘用于标识由本系统的话筒阵列所拾取的语音的流程图。图7描绘用于将语音与身体毫无疑义地相关联的实施例的流程图。图8A和8B—起描绘用于经由对语音和身体位置标识的多次采样将语音与身体相关联的实施例的流程图。
具体实施例方式现在将参照图IA到8B来描述本技术的实施例，其一般涉及一种用于随时间推移跟踪图像和音频数据以基于人体在多用户游戏或多媒体设置中的语音与身体的相关性来自动地标识人体的系统。一般而言，该系统包括捕捉设备，包括用于感测视场中诸如人之类的对象的一个或多个相机，以及用于感测诸如人的语音之类的音频的话筒阵列。相机能够确定视场中的对象是否是人，并且还能确定所辨识的人的物理特征，诸如骨关节位置。相机还能够确定视场中的人们彼此之间以及与捕捉设备的相对位置。话筒阵列能够确定所听到声音是否是语音，并且可不时地区别不同的语音。话筒也可以能够确定一检出语音与其他检出语音以及与话筒的相对位置。在图像和音频系统能够毫无疑义地确定给定语音属于视场中的给定用户身体的情况下，存储该语音-身体关联性。然而，可能发生在图像和音频采样之后系统不能建立单个毫无疑义关联性的情况。作为替代，系统标识所采样语音可能属于的一个或多个候选用户。在此实例中，本系统可采用各种因素来确定语音与身体是否高于预定阈值置信度 (“TCL”)地相关联。若是，则尽管并非毫无疑义，仍可返回并存储该语音-身体关联性以供未来采样使用。未来采样将或者强化该关联性，或者显示该关联性仍有疑意，在后一情形下可移除该关联性。最初参考图1A-2，用于实现本发明的技术的硬件包括目标识别、分析和跟踪系统 10，该系统可用于识别、分析和/或跟踪诸如用户A到D等一个或多个人类目标。目标识别、分析和跟踪系统10的各实施例包括用于执行游戏或其他应用程序的计算环境12，以及用于从游戏或其他应用程序提供音频和视觉表示的视听设备16。系统10还包括捕捉设备 20，包括一个或多个深度感知相机以及包括两个或更多个话筒的话筒阵列。捕捉设备20与计算环境12通信，以使得计算环境12可以部分地基于从捕捉设备20收到的信息来控制至视听设备16的输出。这些组件中的每一各都会在以下详细描述。如图IA和IB所示，在一示例实施例中，在计算环境12上执行的应用程序可以是多玩家游戏。基于接收自捕捉设备20的信息，计算环境12可使用视听设备16将每个用户 A-D的视觉表示提供作为玩家化身A' -D'。用户可以移进和移出视场。例如，图IA显示用户A-D，而图IB显示用户A-C。每个化身k’ -D'可以反映相应用户A-D的移动的方式在屏幕上移动。因此，用户在图IB中已经相对于他们在图IA中的位置进行了移动，以及用户D'的化身在图IB中不可见，因为用户D已经离开了视场。尽管对于本发明技术而言并不是关键点，用户A-D可以执行被在计算环境12上运行的软件引擎所识别的姿势，以使得在识别出该用户的姿势之际，用户的化身执行某个动作。尽管在图IA和IB的示例中示出了 4个用户，但应理解本发明技术可在诸实施例中在多于或少于4个用户的情况下工作。此外，本发明技术并不限于在游戏上下文中将语音与说话者相关联，而且也可用在希望基于人的语音与身体的关联性来标识此人的各种其他实例中。图2示出可在目标识别、分析和跟踪系统10中使用的捕捉设备20的示例实施例。在一示例实施例中，捕捉设备20可包括图像相机组件22。组件22被配置成经由包括例如飞行时间、结构化光、立体图像等任何合适的技术来捕捉视场中的三维视频图象。根据一实施例，图像相机组件22可将所计算的深度信息组织为“Z层”，即可与从深度照相机沿其视线延伸的Z轴垂直的层。关于可组成捕捉设备20的部分的相机的另外细节在共同待审的题为“GESTURE
TOOL(姿势工具)”的专利申请第_号和共同待审的题为“STANDARD GESTURES (标准
姿势)”的专利申请第_号中阐述，这些申请的每一个都通过整体引用结合于此。然
而，一般而言，如图2所示，图像相机组件22可捕捉深度图像，深度图像具有所捕捉的场景的二维0-D)像素区域，其中2-D像素区域中的每一像素可表示来自照相机的所捕捉的场景中的对象的长度，该长度可采用例如厘米、毫米等单位。图像相机组件22能够对在图IA 和IB中由射线Rl和R2表示的视场内的对象进行成像。如图2所示，根据一示例实施例，图像相机组件22可包括可用于捕捉场景的深度图像的顶光组件对、三维(3-D)照相机沈、和RGB照相机观。例如，在飞行时间分析中，捕捉设备20的顶光组件M可将红外光发射到场景上，然后可使用传感器(未示出)，使用例如3-D照相机沈和/或RGB照相机观，来检测来自场景中的一个或多个目标和物体的表面的反向散射光。根据另一实施例，捕捉设备20可包括两个或更多物理上分开的照相机，这些照相机可从不同角度查看场景以获得视觉立体数据，该视觉立体数据可被解析以生成深度信息。在任一实施例中，图像相机组件22能够确定视场内的人相对于彼此的方位，并能够计算视场中的每个人相对于捕捉设备20的角度。捕捉设备20可经由通信链路36向计算环境12提供由例如3-D照相机沈和/或 RGB照相机观捕捉的深度信息和图像，以及可由捕捉设备20生成的骨架模型。存在各种用于确定捕捉设备20所检测的目标或对象是否对应于人类目标的已知技术。例如，捕捉设备20可捕捉可包括人类目标的捕捉区域的深度信息。该深度图像然后可被分析来确定该深度图像是否包括人类目标和/或非人类目标。该深度图像的各部分可被泛色填充并与一模式进行比较来确定该目标是否可能是人类目标。如果该深度图像中的一个或多个目标包括人类目标，则可扫描该人类目标。骨架映射技术因而可用于确定该用户的骨架上的各个点，手、腕、肘、膝、鼻、踝、肩的关节，以及骨盆与脊椎相交之处。其他技术包括将图像变换成该人体的身体模型表示以及将图像变换成该人体的网格模型表示。骨架模型然后可被提供给计算环境12，使得计算环境可跟踪骨架模型并呈现与该骨架模型相关联的化身。捕捉设备20还可包括话筒阵列32，其包括两个或更多个话筒30。话筒阵列执行至少两项功能。话筒30接收也可由用户A-D中的一个或多个所提供的音频信号，以控制其化身A' -D'，影响其他游戏或系统度量，或者控制可由计算环境12执行的其他应用程序。话筒阵列32的第二项功能是便于标识用户，如下文所解释的。在所示实施例中，有两个话筒30，但应理解在其他实施例中话筒阵列可具有两个以上的话筒。在解析沿纵轴的相对位置并不是关键的实施例中，可以在共同的垂直面中 (即，在相同高度上)对准各话筒。然而，还应理解本发明技术可采用沿不同垂直线和水平线布置的两个到四个或者更多的相机。在此类实施例中，话筒阵列将能够采用沿垂直面和水平面两者的声学定位技术来定位一个或多个语音在三维空间中的位置。
阵列中的话筒30可以如图中所示地彼此靠近(诸如相隔一英尺)地定位。应理解，在其他实施例中，例如在邻近捕捉设备20的墙角处，话筒可以相距更紧，或者相隔更开。阵列中的话筒30可以彼此同步，且每个话筒可包括可以接收声音并将其转换成电信号的换能器或传感器。用于区分话筒所拾取的声音以确定这些声音中是否有一种或多种声音是人类语音的技术是已知的。话筒30可包括各种已知的滤波器，诸如高通滤波器，以衰减话筒30可能检出的低频噪声。在给定容限内，使用声学定位技术，阵列32还能够确定所感知语音相对于彼此的方位，并且能够演算每个语音源相对于话筒的角度。各种声学定位技术是已知的。一种实施例可采用抵达时间差(TDOA)技术，其第一步骤是确定不同话筒对之间的TDOA集合。艮口，对于话筒对集合中的每一对，确定声源信号在该对中的每个话筒处的抵达之间的相对时间差。例如，对应测量声源位置s的两个话筒i和j的TDOA可被确定为TDOAi, j = (I S-Hii | -1 Sij |) /c其中Hli是第i个话筒的位置，Hij是第j个话筒的位置，以及c是光速。TDOA技术还包括使用所确定的TDOA数据和话筒阵列几何来估计声源位置的第二步骤。此第二步骤可以通过各种已知方法来执行，这些已知方法包括例如最大似然方法、三角测量方法、球面交集方法、以及球面内插方法。TDOA方法是数种已知的可被用来定位感知语音的源的方法中的一种。其他方法包括基于受控波束成形器的技术以及基于高分辨率频谱估计的技术。关于用于声学定位的话筒系统的进一步细节可在例如题为“Methodand Apparatus for Passive Acoustic Source Localization for Video CameraSteering Applications (用于视频相机操控应用的无源声源定位的方法和装置)”的美国专利No. 6，826，284中，以及在由H. Wang和P. Chu在IEEE 国际会议声学、语音和信号处理(ICASSP)会刊(德国慕尼黑，1997年4月，第187-190页) 中发表的论文"Voice Source Localization for AutomaticCamera Pointing System In Videoconferencing (用于视频会议中的自动相机定位系统的声源定位)，，中找到。以上专利和论文通过引用全文包括于此。在技术允许使用单个话筒的声源定位达到给定容限的情况下，话筒阵列32可包括一个或多个话筒。在一示例实施例中，捕捉设备20还可包括可与图像相机组件22和话筒阵列32操作性地通信的处理器33。处理器33可包括可执行指令的标准化处理器、专用处理器、微处理器、或类似物，这些指令可包括用于接收深度图像、确定该深度图像中是否可能包括合适的目标、将该合适目标转换成该目标的骨骼表示或模型的指令、或任何其他合适指令。处理器33还可执行上述与声学定位有关的操作。捕捉设备20还可包括存储器组件34，其可存储可由处理器33执行的指令、3D相机或RGB相机所捕捉的图像或图像帧、来自话筒30的音频数据或任何其他合适的信息等。根据示例实施例，存储器组件；34可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、闪存、硬盘、或任何其他合适的存储组件。如图2中所示，在一个实施例中，存储器组件 34可以是与图像捕捉组件22、话筒阵列32以及处理器33通信的分开的组件。根据另一实施例，存储器组件34可被整合到处理器33、图像捕捉组件22和/或话筒阵列32中。如图2中所示，捕捉设备20可以经由通信链路36与计算环境12通信。通信链路36可以是包括例如USB连接、火线连接、以太网电缆连接等的有线连接和/或诸如无线 802. lib,802. llg、802. Ila或802. Iln连接等无线连接。根据一实施例，计算环境12可经由通信链路36向捕捉设备20提供可用于确定例如何时捕捉场景的时钟。来自捕捉设备20 的图像和音频数据也可以经由通信链路36被传达给计算环境12。图3A示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境的示例实施例。诸如以上参考图1A-2描述的计算环境12等计算环境可以是诸如游戏控制台等多媒体控制台100。如图3A所示，多媒体控制台100包括具有1级高速缓存102、 2级高速缓存104和闪存ROM 106的中央处理单元(CPU) 101。1级高速缓存102和2级高速缓存104临时存储数据并因此减少了存储器访问周期数，从而提高了处理速度和吞吐量。CPU 101可以设置成具有一个以上的核，以及由此的附加的1级和2级高速缓存102和 104。闪存ROM 106可存储在多媒体控制台100通电时在引导进程的初始化阶段加载的可执行代码。图形处理单元(GPU) 108和视频编码器/视频编解码器(编码器/解码器)114形成用于高速、高分辨率图形处理的视频处理流水线。数据经由总线从GPU 108输送到视频编码器/视频编解码器114。视频处理流水线将数据输出到A/V(音频/视频)端口 140以传输到电视机或其它显示器。存储器控制器110连接到GPU 108以方便处理器访问各种类型的存储器112，诸如但不局限于RAM。多媒体控制台100包括较佳地在模块118上实现的I/O控制器120、系统管理控制器122、音频处理单元123、网络接口控制器124、第一 USB主控制器126、第二 USB主控制器 1 和前面板I/O子部件130。USB控制器126和1 用作外围控制器142 (1)-142 (2)、无线适配器148、和外置存储器设备146 (例如闪存、外置⑶/DVD ROM驱动器、可移动介质等) 的主机。网络接口 1 和/或无线适配器148提供对网络(例如，因特网、家庭网络等)的访问并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不同的有线和无线适配器组件中任何一种。提供系统存储器143来存储在引导进程期间加载的应用程序数据。提供媒体驱动器144且其可包括DVD/CD驱动器、硬盘驱动器、或其它可移动媒体驱动器等。媒体驱动器 144对于多媒体控制台100可以内置或外置。应用程序数据可经由媒体驱动器144访问，以由多媒体控制台100执行、回放等。媒体驱动器144经由诸如串行ATA总线或其他高速连接(例如IEEE 1394)等总线连接到I/O控制器120。系统管理控制器122提供涉及确保多媒体控制台100的可用性的各种服务功能。音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的对应的音频处理流水线。音频数据经由通信链路在音频处理单元123与音频编解码器132之间传输。音频处理流水线将数据输出到A/V端口 140以供外置音频播放器或具有音频能力的设备再现。前面板I/O子部件130支持暴露在多媒体控制台100的外表面上的电源按钮150 和弹出按钮152以及任何LED(发光二极管)或其它指示器的功能。系统供电模块136向多媒体控制台100的组件供电。风扇138冷却多媒体控制台100内的电路。CPU 101、GPU 108、存储器控制器110、和多媒体控制台100内的各个其它组件经由一条或多条总线互连，包括串行和并行总线、存储器总线、外围总线、和使用各种总线架构中任一种的处理器或局部总线。作为示例，这种架构可以包括外围部件互连(PCI)总线、PCI-快速总线等。当多媒体控制台100通电时，应用程序数据可从系统存储器143加载到存储器112 和/或高速缓存102、104中并在CPU 101上执行。应用可呈现在导航到多媒体控制台100 上可用的不同媒体类型时提供一致的用户体验的图形用户界面。在操作中，媒体驱动器144 中包含的应用和/或其它媒体可从媒体驱动器144启动或播放，以向多媒体控制台100提供附加功能。多媒体控制台100可通过将该系统简单地连接到电视机或其它显示器而作为独立系统来操作。在该独立模式中，多媒体控制台100允许一个或多个用户与该系统交互、看电影、或听音乐。然而，随着通过网络接口 1 或无线适配器148可用的宽带连接的集成，多媒体控制台100还可作为较大网络社区中的参与者来操作。当多媒体控制台100通电时，可以保留设定量的硬件资源以供多媒体控制台操作系统作系统使用。这些资源可以包括存储器保留(例如，16MB)、CPU和GPU周期(例如， 5%)、网络带宽(例如，SlAs)等。因为这些资源是在系统引导时保留的，所以所保留的资源对应用而言是不存在的。具体地，存储器保留较佳地足够大，以包含启动内核、并发系统应用和驱动程序。 CPU保留较佳地为恒定，使得若所保留的CPU用量不被系统应用使用，则空闲线程将消耗任何未使用的周期。对于GPU保留，通过使用GPU中断来显示由系统应用生成的轻量消息(例如，弹出窗口)，以调度代码来将弹出窗口呈现为覆盖图。覆盖图所需的存储器量取决于覆盖区域大小，并且覆盖图较佳地与屏幕分辨率成比例缩放。在并发系统应用程序使用完整用户界面的情况下，优选使用独立于应用程序分辨率的分辨率。定标器可用于设置该分辨率，从而无需改变频率，也就不会引起TV重新同步。在多媒体控制台100引导且系统资源被保留之后，就执行并发系统应用来提供系统功能。系统功能被封装在一组在上述所保留的系统资源中执行的系统应用中。操作系统内核标识是系统应用线程而非游戏应用线程的线程。系统应用优选地被调度为在预定时间并以预定时间间隔在CPU 101上运行，以便为应用提供一致的系统资源视图。进行调度是为了把由在控制台上运行的游戏应用所引起的高速缓存分裂最小化。当并发系统应用需要音频时，则由于时间敏感性而异步调度音频处理给游戏应用。多媒体控制台应用管理器(如下所述)在系统应用活动时控制游戏应用的音频水平 (例如，静音、衰减)。输入设备(例如，控制器142(1)和142( )由游戏应用和系统应用共享。输入设备不是所保留的资源，但却在系统应用和游戏应用之间切换以使其各自具有设备的焦点。应用程序管理器较佳地控制输入流的切换，而无需知晓游戏应用程序的知识，并且驱动程序维护有关焦点切换的状态信息。相机26 J8和捕捉设备20可定义控制台100的附加输入设备。图:3B示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算环境220的另一示例实施例，该计算环境可以是图1A-2所示的计算环境12。计算系统环境220只是合适的操作环境的一个示例，并且不旨在对所公开的主题的使用范围或功能提出任何限制。也不应该将计算环境220解释为对示例性操作环境220中示出的任一组件或其组合有任何依赖性或要求。在某些实施例中，所描绘的各种计算元件可包括被配置成实例化本发明的具体方面的电路。例如，本公开中使用的术语电路可包括被配置成执行固件或开关的功能的专用硬件组件。在其他示例实施例中，术语“电路”可包括由具体化可操作来执行功能的逻辑的软件指令来配置的通用处理单元等。在电路包括硬件与软件组合的示例实施例中，实现者可编写实施逻辑的源代码且该源代码可被编译成可由通用处理单元处理的机器可读代码。因为本领域技术人员可以明白现有技术已经进化到硬件、软件或硬件/ 软件组合之间几乎没有差别的地步，因而选择硬件或是软件来实现具体功能是留给实现者的设计选择。更具体地，本领域技术人员可以明白软件进程可被变换成等价的硬件结构，而硬件结构本身可被变换成等价的软件进程。因此，对于硬件实现还是软件实现的选择是设计选择之一并留给实现者。在图;3B中，计算环境220包括计算机Ml，其通常包括各种计算机可读介质。计算机可读介质可以是能由计算机241访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。系统存储器222包括诸如ROM 223和RAM 260等易失性和/或非易失性存储器形式的计算机存储介质。基本输入/输出系统224 ￠10 包括如在启动时帮助在计算机Ml内的元件之间传输信息的基本例程，它通常储存在ROM 223中。RAM260 通常包含处理单元259可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非局限，图3B示出了操作系统225、应用程序226、其它程序模块227和程序数据228。计算机241还可以包括其他可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图3B示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器238，对可移动、非易失性磁盘邪4进行读写的磁盘驱动器239，以及对诸如CD ROM或其它光学介质等可移动、非易失性光盘253进行读写的光盘驱动器M0。可以在示例性操作环境中使用的其他可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于，磁带盒、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等等。硬盘驱动器238通常由不可移动存储器接口，诸如接口 234连接至系统总线221，磁盘驱动器239和光盘驱动器240通常由可移动存储器接口，诸如接口 235连接至系统总线221。以上讨论并在图;3B中示出的驱动器及其相关联的计算机存储介质为计算机241 提供了对计算机可读指令、数据结构、程序模块和其他数据的存储。在图3B中，例如，硬盘驱动器238被示为存储操作系统258、应用程序257、其他程序模块256和程序数据255。注意，这些组件可以与操作系统225、应用程序226、其他程序模块227和程序数据2 相同，也可以与它们不同。操作系统258、应用程序257、其他程序模块256和程序数据255在这里被标注了不同的标号是为了说明至少它们是不同的副本。用户可以通过输入设备，如键盘251和定点设备252(通常称为鼠标、跟踪球或触摸垫)向计算机241输入命令和信息。其他输入设备(未示出)可以包括麦克风、游戏杆、游戏手柄、碟形卫星天线、扫描仪等等。这些和其他输入设备通常由耦合至系统总线的用户输入接口 236连接至处理单元259，但也可以由其他接口和总线结构，诸如并行端口、游戏端口或通用串行总线(USB)连接。相机 26,28和捕捉设备20可定义控制台100的附加输入设备。监视器242或其他类型的显示设备也经由接口，诸如视频接口 232连接至系统总线221。除监视器以外，计算机还可以包括其他外围输出设备，诸如扬声器244和打印机对3，它们可以通过输出外围接口 233连接。计算机241可使用至一个或多个远程计算机，如远程计算机M6的逻辑连接在网络化环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、对等设备或其他常见的网络节点，且通常包括许多或所有以上相对于计算机241描述的元件，尽管在图3B中仅示出了存储器存储设备M7。图:3B中所示的逻辑连接包括局域网(LAN) 245和广域网(WAN049，但也可以包括其他网络。这样的联网环境在办公室、企业范围计算机网络、内联网和因特网中是常见的。当在LAN联网环境中使用时，计算机241通过网络接口或适配器237连接至LAN 2450当在WAN联网环境中使用时，计算机241通常包括调制解调器250或用于通过诸如因特网等WAN 249建立通信的其他装置。调制解调器250可以是内置或外置的，它可以经由用户输入接口 236或其他适当的机制连接至系统总线221。在网络化环境中，关于计算机 241所描述的程序模块或其部分可被储存在远程存储器存储设备中。作为示例而非限制，图 3B示出了远程应用程序248驻留在存储器设备247上。可以理解，所示的网络连接是示例性的，且可以使用在计算机之间建立通信链路的其他手段。现在将参照图4-8B的流程图描述用于基于与用户有关的感知图像数据与感知语音数据之间的关联性来标识用户的方法。图4是本发明技术的整体操作的高层流程图。应理解，本发明技术的操作可以由捕捉设备20内的处理器33、计算环境12内的处理器101、 259、或者这两个一起行动的组合来实施。在步骤300，本系统标识或者登记图像相机组件 22的视场内的身体(诸如举例而言用户A-D中的一个或多个)。此操作是在逐帧的基础上执行的，但是来自先前帧的信息，诸如背景信息，可以被高速缓存以加速处理。关于步骤300 的身体登记的进一步细节在下文参照图5的流程图来解释。在步骤302，本系统登记在话筒阵列32的范围内检出的语音。将存在其中本系统能够将语音毫无疑义地与特定身体相关联的实例。例如，话筒阵列32能够定位语音的源达到包括相对于图像捕捉设备20的特定角度或角度范围的容限，且图像相机组件22确定在该角度或角度范围处只有一个用户。在此类实例中，本系统能够将检出的人与检出的语音毫无疑义地相关联。关于步骤302和306的进一步细节在下文参照图6的流程图来阐述。另一方面，可能发生在图像和音频采样之后系统不能建立单个毫无疑义的关联性而是标识该语音可能所属的一个或多个候选用户的情况。例如，可能存在这样的两个用户这两个用户具有过于相近以致使用本系统的图像识别技术不能进行区分的的物理外貌。替换地或者补充地，话筒阵列可能只能确定语音来自视场中具有一个以上的人的区域。例如在其中使用消费者级别的硬件来捕捉图像和音频数据的情况下可能就是这样。在这种情形下，本系统可采用各种因素来构建指示该语音与给定用户相关联的置信度的置信度分数。尽管不是毫无疑义，但是这些因素可能导致高于阈值置信度的分数。若是如此，则高于阈值置信度的语音-身体关联被存储以用于未来采样。未来采样可以例如在未来采样排除了该语音可能属于的其他用户的情况下强化该关联。或者，未来采样可能显示该关联仍有疑意，在这种情形下可移除该关联。即使在语音被关联到身体之后，本发明技术的实施例可反复地再评估和再证实该语音-身体关联性的置信度(步骤31幻。评估、明确以及再证实置信度的过程在下文参照图8A-8B的流程图来描述。图5的流程图示出用于基于获得可允许系统将用户与其他用户区别开来的图像数据来登记用户的步骤。本系统可使用用于登记用户的各种准则，包括分析不同用户的多个骨骼参考点。一旦用户被标识，该信息就可被存储在例如存储器34内、和/或计算环境 12中的存储器中。然而，可能发生两个或两个以上的用户具有彼此相近到使得系统单独使用图像数据不能在他们之间进行区分的物理外貌的情况。如下文所解释的，此类用户可使用一时间段上的图像和语音数据的采样来消除歧义。相应地，在步骤320，本系统扫描视场内的人类用户(诸如举例而言一个或多个用户A-D)的视频帧。如上所指示的，当前技术允许将人类身体从可能处在视场内的其他对象中辨识出来。在步骤322，本系统确定是否已在视场内找到身体。若没有，则在步骤326中系统看视场内是否还有更多对象要扫描。假设有，则系统返回步骤320以扫描更多身体。另一方面，若在步骤322中找到身体，则本系统在步骤330中检查该身体是否存在于先前帧中。系统可考虑各种因素来作出此确定，包括当前帧和先前帧中身体之间的骨骼参考点或其他物理特性的匹配、以及在给定帧率的情况下当前帧中的身体位置是否已经从先前帧中检出的位置进行了移动。一旦在步骤330中确定所找到的身体存在于先前帧中，系统就返回步骤320以扫描更多身体。另一方面，若步骤330确定所找到的身体没有在先前帧中找到，则系统在步骤334 中检查所找到的身体是否匹配已经登记的身体。具体而言，系统可将描述当前帧中的身体的信息与来自存储器的关于先前已经被标识和登记的身体的信息相比较。若来自当前帧的身体先前没有被登记过，则在步骤338中系统将身体特征(即，骨骼特征和/或其他物理特性)存储在存储器中。在存储身体特征之后，在步骤344中系统将该匹配身体标记为被标识，并随后返回步骤320以扫描更多身体。另一方面，若在步骤334确定所找到的身体确实匹配已知的身体，则在步骤340中系统检查所找到的身体是否仅匹配一个已知身体。具体而言，所找到的身体可能具有与先前所标识和存储的身体的骨骼特征充分相近的骨骼特征。若在步骤340中系统确定所找到的身体仅匹配一个已知身体，则在步骤344中该找到的身体被标记为匹配该已知身体，且系统返回步骤320以扫描更多身体。替换地，若在步骤340中确定所找到的身体匹配一个以上的已知身体，则在步骤346中所找到的身体被标记为与模糊性相关联，且系统返回步骤320以扫描更多身体的帧。在步骤326中系统已经确定该帧中没有其他对象要扫描之后，系统在步骤350中更新当前帧的身体位置，并在步骤354中登记和存储所有的身体匹配。步骤3M还存储所发现的身体身份中的模糊性。如上所指示的，声学技术能够从可由话筒阵列所拾取的各种声音和背景噪声中过滤和辨识人类语音。与如上参照图5的流程图所描述的搜索及登记身体相并发地，系统还搜索和登记语音，如现在将参照图6所描述的。为了登记语音，系统采集包含足以与其他语音相区别地标识一语音的各种语素的语音丰富的数据。登记语音的过程始于确定所辨识出的语音是否能与可见身体相关联的步骤360。步骤360在下文参照图7的流程图进行更详细地描述。在步骤362，系统估计要登记的语音的源位置。如上所描述的，出于此目的可使用各种声源定位技术中的任何一种。实施例可在低成本的、面向消费者的系统中采用返回源位置加上或减去某个容限水平的声学定位技术。在步骤363中，系统确定该语音是否必定来自图像相机组件22的视场(即，图IA和 IB中所示的射线A和B之间)内的源。若不是，则系统在步骤364中确定该语音不与可见身体相关联。另一方面，若语音确实来自视场内，则系统在366中确定在该语音的所估计源处是否存在一身体。若没有，则系统在步骤364中确定该语音不与可见身体相关联。另一方面，若在该语音的所估计源处检测到一身体，则系统接着在步骤368中检查在该语音的可能源的范围内是否存在一个以上的身体。若是，则系统在步骤364中不能将该语音与可见身体相关联。另一方面，若系统通过步骤363、366和368中的所有检查，则系统能够在步骤 370中将语音毫无疑义地与一个可见身体相关联。返回到图6的流程图，若系统在360中不能将语音与可见身体相关联，则在步骤 372中该话语没有资格进行登记，并且在一些实施例中，系统将不使用该话语进行登记且不会将其与特定的人相关联。在实施例中，该话语仍可被系统用于口头指令或命令的语音识别。在步骤372中话语没有资格进行登记的实施例中，本系统可在步骤373中提示视场中的一个或多个用户讲话并执行一些物理动作。该物理动作例如可以是站在视场中但与其他用户分开。这样，除了接收语音数据外，系统还能够肯定地标识和登记该说话者，因为他正执行所请求的动作。这些物理动作可以是游戏或应用程序度量的部分，或者在游戏或应用程序度量之外。在其他实施例中可以省略步骤373。在被省略的情况下，由于登记的原因用户将体验到较少的侵扰，但登记的完成可能受支配于用户的偶然动作。另一方面，若在步骤360中确定该语音与可见身体相关联，则系统接下来在步骤 374中检查所标识的可见身体是否延续自先前登记话语。换言之，若系统在步骤360中将语音与一可见身体相关联，则系统在步骤374中检查来自先前帧的该身体是否是连续地移动到当前帧中在步骤360中所标识的身体的位置的。若在步骤374中确定语音在先前帧中所相关联的身体不是语音在当前帧中所相关联的身体，则系统可将先前相关性作为错误来处理。在此类事件中，系统在步骤376中关于步骤360中所标识的身体开始一新的语音登记过程。在步骤378中，话语随后被添加到该登记。在步骤380，系统检查登记是否完成。即，系统检查是否已经采集了足够的语音数据以允许系统毫无疑义地标识与其他语音区别开的给定语音。若没有，则话语不足以进行登记，但在实施例中，在步骤381中可被存储以供与未来话语一起使用从而一旦已采集了必要差异性的语音数据就建立登记。另一方面，若系统在步骤380确定登记完成，则系统在步骤382保存所登记的语音并在步骤384将所登记的语音与已知身体相关联并进行存储。系统随后返回关联到已知身体的已知语音。在其中登记在步骤380中未完成的实施例中，本系统可在步骤383中提示视场中的一个或多个用户讲话。系统的此动作可被掩盖作为游戏或应用程序度量的部分，或者可以在游戏或应用程序度量之外。在执行步骤383的情况下，可提示特定的被登记用户说出某些语音丰富的词或声音，以使得一旦说出，系统就能够关于该用户的已知身体来登记该用户的语音以用于稍后的话语。步骤383可被省略，在这种情况下，步骤380中的登记失败可导致如上所述地返回未知语音。如上关于图6所描述的本发明技术的操作登记并存储新的语音，并进一步确定该语音可与已知身体毫无疑义地相关联。如上所述，经常可能的情形是系统听到语音但不能将该语音毫无疑义地与单个身体相关联。相应地，本发明技术包括评估、明确、以及再证实语音-身体相关性的步骤。现在将参照图8A和8B的流程图来描述此过程的更详细的描述。一般而言，话筒阵列32听到发出声的语音，并且在检测到语音话语之时，执行以下关于图8A和8B所描述的步骤386-432。可能在相同的时间段内检测到一个以上的语音。本系统可对话筒阵列32能够分开和不同地感知的每个发出声的语音执行图8A和8B的步骤。该系统可每帧一次、或者每预定数目个帧一次地运行图8A和8B的步骤，以随时间不断地评估、明确和再证实语音-身体相关性。在步骤386，系统检查话语是否是所登记的语音。若不是，系统转到如上关于图6 所述的步骤360以登记该语音并看其是否与视场内的身体毫无疑义地相关联。在步骤386，若确定该语音是被登记的，则系统在步骤388中检查该语音是否具有与已知身体的在先匹配。若没有，则系统如下文关于图8B中的步骤416所述地确定在该语音与视场内的身体之间是否具有空间匹配。然而，若步骤388确定存在该语音与已知身体的在先匹配，则系统在步骤390中检查该已知身体是否在视场内可见。如否，则本系统在步骤394中检查在该发声的语音与视场内可见的身体之间是否有空间匹配。系统执行步骤 394以检查步骤388中检索到的该语音-身体关联是否正确。具体而言，在步骤394中若在该语音与可见身体之间存在匹配，但在步骤390中确定先前所标识的身体不可见，则系统确定在先语音-身体相关性可能不正确，且可能存在模糊性。系统注意到此模糊性并行进至下文描述的步骤404。步骤394例如可以如上文在图7中所描述地通过确定语音的相近源并看看在该相近源处是否存在身体来执行。若在步骤390中确定先前与该语音相匹配的身体并不可见且步骤394确认该语音与那时可见的身体并不匹配，则在步骤398中维持该在先关联并且系统返回伴随已知身体的已知语音。另一方面，若步骤390确定先前与该语音匹配的身体可见，则系统接着在步骤 400中检查在该语音与该已知身体之间的空间匹配是否是良好匹配，即空间匹配是否是毫无疑义的。步骤400例如可以如上文在图7中所描述地来执行。本系统保持对给定的语音-身体关联是否在数个不同的采样中保持有歧义的跟踪。若在数次不同的采样中检查语音-身体关联之后，系统不能通过该排除过程毫无疑义地确定该语音与该身体事实上相关联，则系统可认为该关系过于模糊而无需维持，并移除该关联。相应地，在步骤404，本系统计数给定的语音-身体关联多少次被发现有歧义。在步骤406，系统确定步骤404中的计数是否超过某一个歧义阈值。若是，则在步骤410中移除先前标识的关联，且系统返回已知语音但没有与一已知身体相关联。若步骤406中的计数未超过该歧义阈值，则系统在步骤408中维持该关联，并返回已知语音-身体关联。在实施例中，歧义阈值例如可以介于3和6之间。因此，若阈值被设为例如5，则如果系统不能在5次采样之后排除掉给定语音与身体间的关联的歧义，那么系统将移除该关联。在其他实施例中，歧义阈值可以小于3和高于6。以上描述了若步骤400中的空间匹配有歧义则系统怎么做。然而，若在步骤400 中确定空间匹配毫无疑义，则系统接着在步骤414中确定与该语音相匹配的身体先前是否被认为有歧义。若是，则系统更新该关联以移除该歧义，如下文参照图8B中的步骤430所解释的。另一方面，若在步骤414中确定所存储的语音-身体关联没有歧义，则系统在步骤 408中保持该关联，且系统返回伴随已知身体的已知语音。如上所述，步骤390及之后的步骤是在步骤388中确定语音具有与已知身体的在前关联的情况下执行的。然而，若在步骤388中确定该登记的语音没有与已知身体的在前匹配，则本系统执行图8B中的步骤416。步骤416尝试确定在该语音与视场内的一个或多个用户之间是否存在关联。可能发生步骤416能够毫无疑义地标识该语音必定属于的单个用户的情况。例如，系统可确定该语音来自视场内且在视场内只有单个人，如上文参照图7 所描述的。或者，尽管不是毫无疑义，但步骤416可标识可能与该语音相关联的一个或多个用户。为了作出此确定，本系统可采用各种因素，这些因素可被应用于达到得分置信度。一般而言，在考虑了这些因素时，如果语音可与身体高于阈值置信度地相关联，则存储并返回该语音-身体关联。在实施例中，可对得分作出贡献的因素可包括以下一个或多个。一种因素可以是所估计的语音源的位置与已知身体有多近。在身体就处在声学定位技术所估计的确切位置时，此因素将得到比在身体与语音的所估计位置有间距的实例下更高的分数。形成得分的部分的另一因素可以是在视场中有多少个身体。身体越多，语音与这些身体中的任何一个的相关性中将具有越少的置信度。相反，若视场中的仅有的一个人就是该语音先前所关联的人，则这将导致往往指示相关联的语音与身体之间优质的空间匹配的分数。对得分作出贡献的另一因素是所听到的语音的数目。此因素可降低或增加分数。例如，若存在许多声音，以使得有太多的噪声以致不能准确地确定正在考虑的语音的源，则这将趋向于降低该语音与所标识的身体的关联性的分数。另一方面，若除了所考虑的语音之外所听到的语音先前已经与其他用户相关联且这些用户在视场内，则此因素可增加衡量所考虑的语音与先前所标识的身体之间的关联性的分数。除了视场内的人数之外，人与所估计的该语音的源之间的接近度是影响得分的另一因素。若两个人或更多的人在所估计的源的附近，则这往往将降低分数，而在视场中有多个人但只是先前匹配的人在所估计的源的附近的情况下，这往往将促进得分。对得分作出贡献的另一因素是语音的源是否被估计成以视场为中心而不是靠近边缘。当估计一语音在视场边缘的附近时，该语音可能来自视场内先前匹配的人，或者来自视场之外的人。因此，人与被估计成位于视场中心的语音之间的空间匹配将导致比处在视场边缘的附近的情况更高的分数。本领域技术人员将领会可使用其他因素来得到指示在语音与身体之间是否具有关联性的分数。不同实施例可使用上述因素中的一个或多个来达到得分置信度。在上述因素中的一个或多个之外或者作为其替代，可使用其他因素。在实施例中，所使用的因素可被加权和量化，以使得在考虑了针对特定的语音-身体对所使用的因素时，可以获得数字分数。可以任意地选择阈值置信度，高于该阈值置信度的分数被认为是有意义的且足以存储该语音与身体之间的关联性。在于步骤416中得到毫无疑义的标识或得分置信度之后，系统在步骤420更新所作的任何关联性的证据(分数)。在步骤424，系统检查是否找到毫无疑义或者以其它方式获得了超过阈值置信度的分数的匹配。若没有，则系统返回没有找到匹配该已知语音的已知身体。另一方面，若在步骤4M确定找到一个或多个与该语音高于阈值置信度地相关联，则在步骤428中记录这些关联，且系统返回已知语音与至少一个已知身体相关联。如所指示的，步骤8A和8B的步骤随后可在多次采样中重复以使得通过排除过程关联性可就语音可能属于哪些身体而言变得毫无疑义，或者若在多次采样之后仍有歧义则可以移除关联。如上关于图8A所述的，若在步骤414确定所存储的身体身份没有歧义则在步骤 414之后执行步骤408。然而，若在步骤414确定所存储的身体身份是有歧义的，则本系统执行如图8B中所示的步骤430。具体而言，在步骤388、390和400中，确定语音与一个或多个已知身体具有关联性，这些已知身体之一是可见的，且与该已知身体的空间匹配是毫无疑义的。步骤414随后查看存储器以确定在存储中是否有一个以上与该语音相关联的身体。若是，则当前采样在步骤430中通过更新证据以显示语音与身体之间的毫无疑义的关联性来明确该关联性。即使在系统已经确定语音与用户毫无疑义地相关联之后，本系统仍允许在该关联中有可能的误差。具体而言，相同的语音与存储器中的另一用户毫无疑义地相关联、或者该用户与存储器中的另一语音毫无疑义地相关联是可能的由此，步骤432确定该歧义是否被解决。若是，系统返回伴随已知身体的已知语音。若没有，则系统返回已知语音，但没有相关联的已知身体。步骤8A和8B的步骤随后可在多次采样中重复以使得通过排除过程关联性可就语音可能属于哪些身体而言再次变得毫无疑义，或者若在多次采样之后仍有歧义则可以移除关联。使用上述系统，可在游戏、多媒体或其他多用户应用中将语音与身体相关联。尽管可能存在能够在单次采样中将语音与身体毫无疑义地相关联的系统，这些系统要求在大多数游戏、多媒体或其他基于消费者的应用不切实际的高成本精密系统。然而，不同于常规系统，本系统能够在所用装置无法在单次采样中确定此类关联的情况下作出可靠语音-身体关联。此外，已知的是系统始于被登记的用户。即，该组用户具有已知的被登记的身体特征和/或已知的被登记的语音。常规系统并不是在始于具有未知的身体特征和未知语音的用户的情况下来作出语音-身体关联的。本发明技术允许进行此类关联。尽管已经结合较佳方面按各附图所示描述了本发明，但要理解，可使用其它相似方面或者可对所述方面进行修改或添加来执行本发明的相同功能而不脱离本发明。因此，本发明应当不限于任何单一方面，而应按照所附权利要求书的宽度与范围来解释。例如，本文描述的各种过程可用硬件或软件、或两者的组合来实现。因此，所公开的各实施例的方法和装置或其某些方面或部分可采用在诸如软盘、CD-ROM、硬盘驱动器或任何其他机器可读存储介质等有形介质中具体化的程序代码(即，指令)的形式。当程序代码被加载到诸如计算机等机器并由其执行时，该机器变为被配置成实施所公开的各实施例的装置。除了此处明确阐述的具体实现之外，考虑此处所公开的说明书，其它方面和实现将对本领域的技术人员是显而易见的。说明书和所示实现旨在仅被认为是示例。
权利要求
1.在始于未知用户集合(A-D)的多用户应用程序中，一种标识用户与用户语音之间的相关性的方法，所述方法包括以下步骤(a)接收在多个时段上拍摄的视频捕捉组件的视场内的对象(A'-D')的多幅图像；(b)确定在所述步骤(a)中接收到的所述图像包括一个还是多个用户；(c)接收多个时段内话筒阵列的范围内的音频；(d)确定在所述步骤(c)中接收到的所述音频包括一个还是多个人类语音；以及(e)基于所述用户在不同图像中的所确定位置以及所述语音在不同时间的所确定源位置的多次采样来将所述步骤(d)中所标识的语音与所述视场内的所述一个或多个用户 (A-D)中的用户相关联。
2.如权利要求1所述的方法，其特征在于，所述步骤(e)包括通过从对所述多幅图像中的图像的检查确定所述一个或多个用户的位置来形成以及通过使用声源定位技术确定所述语音的位置来形成所述多次采样中的采样的步骤。
3.如权利要求1所述的方法，其特征在于，所述步骤(e)包括执行所述多次采样中的第一次采样以获得所述语音与所述用户之间的关联性的置信度，高于预定义阈值的置信度导致所述语音和所述用户在存储器中被关联在一起。
4.如权利要求3所述的方法，其特征在于，所述步骤(e)包括若所述多次采样中的后续采样减少了所述语音可能属于的可能用户的人数则所述置信度在所述后续采样中升高的步骤。
5.如权利要求4所述的方法，其特征在于，还包括在所述多次采样中排除了所述语音可能属于的所有其他用户之际将所述语音毫无疑义地与所述用户相关联的步骤。
6.如权利要求5所述的方法，其特征在于，还包括在所述语音与用户之间的所述关联性已经是毫无疑义地被关联在一起之后在所述多次采样中执行附加采样的步骤。
7.如权利要求3所述的方法，其特征在于，还包括若附加采样不能就所述语音属于哪个用户消除歧义或者若附加采样显示所述语音属于所述一个或多个用户中的第二用户则移除所述相关性的步骤。
8.如权利要求1所述的方法，其特征在于，所述步骤(e)包括执行所述多次采样中的第一次采样以导出所述语音和用户之间的关联的得分置信度，所述得分置信度是通过检查以下因素中的一个或多个来获得的i.语音源的所估计位置与所述一个或多个用户有多近； .所听到的语音的数目；iii.所述一个或多个用户与所述语音的所估计源的接近度；iv.所述语音的源是被估计以所述图像的视场为中心还是靠近所述视场的边缘。
9.如权利要求1所述的方法，其特征在于，所述确定在所述步骤(a)中接收到的所述图像包括一个还是多个用户的步骤(b)包括测量用户骨关节的至少部分的位置的步骤。
10.如权利要求9所述的方法，其特征在于，所述部分地基于所述语音的所确定源位置将在所述步骤(d)中标识的语音与用户相关联的步骤(e)包括通过抵达时间差来确定语音的源位置的步骤。
11.如权利要求1所述的方法，其特征在于，还包括检查所述用户的物理特征以将所述用户与其他用户区别开来以及检查所述语音的声学特质以将所述语音与其他语音区别开来的步骤。
12.一种用于在多用户应用程序中将语音与用户(A-D)相关联的系统，所述系统包括图像相机组件，其能够提供所述图像相机组件的视场中的一个或多个用户(A-D)的深度图像；话筒阵列，其能够接收所述话筒阵列的范围内的音频，所述话筒阵列能够将语音的源定位在第一容限内；以及与所述图像捕捉组件和话筒阵列两者通信的计算环境，所述计算环境能够区别所述视场中的不同用户达到第二容限，所述第一和第二容限有时妨碍在对来自所述图像相机的数据和来自所述话筒阵列的数据进行初始采样后将所述语音与所述一个或多个用户中的用户相关联，所述计算环境还执行对来自所述图像相机的数据和来自所述话筒阵列的数据的附加采样，所述附加采样允许将所述语音与所述用户相关联或者所述附加采样降低了所述语音与所述用户相关联的似然性。
13.如权利要求12所述的系统，其特征在于，在执行所述初始和附加采样的同时所述计算环境执行涉及所述一个或多个用户的游戏应用程序。
14.如权利要求12所述的系统，其特征在于，所述计算环境通过检测所述一个或多个用户的关节位置来区别所述视场中的不同用户。
15.如权利要求14所述的系统，其特征在于，所述话筒阵列使用两个话筒通过所述语音抵达所述两个话筒的时间差来定位所述语音的源。
全文摘要
本文描述了一种语音-身体身份相关。公开了一种用于随时间推移跟踪图像和音频数据以基于人在多用户游戏或多媒体设置中的语音与身体的相关性来自动地标识人的系统和方法。
文档编号G10L15/00GK102135882SQ20111003324
公开日2011年7月27日申请日期2011年1月24日优先权日2010年1月25日
发明者C·克莱恩, M·德尼斯, T·莱瓦德, 李劲宇申请人:微软公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M·德尼斯;T·莱瓦德;C·克莱恩;李劲宇
技术所有人：微软公司
我是此专利的发明人