用于语音识别系统的话音活动的视听检测的制作方法

文档序号：2821005阅读：191来源：国知局

专利名称：用于语音识别系统的话音活动的视听检测的制作方法
技术领域：
本发明一般涉及自动语音识别系统和方法，并且更具体地涉及自动语音识别系统和方法，其中仅响应于具有与语音发声(utterance)相关的频谱的声能和与语音发声相关的至少一个面部特征而启动仅对声音语音发声进行响应的自动语音识别器。
背景技术：
当前可利用的语音识别系统通过只应答具有与发声相关频谱的声能的存在和不存在来确定发声的开始和结束。如果与语音识别系统相关联的话筒处于音响噪声环境中，这种噪声环境例如包括除了其话音将被识别的讲话者之外的其他讲话者或被启动的机器，包含电话(特别是振铃电话)在内，这种噪声限制了系统性能。这种语音识别系统试图将音响噪声与它已学到的对于特定讲话者的字相关，导致该语音识别系统产生与其话音将被识别的讲话者的任何发声都无关的输出。另外，该语音识别系统以对其语音学习能力具有不利影响的方式来应答该音响噪声。
我们意识到，现有技术通过检测其语音将被识别的讲话者的声能和面部特征已经考虑到与音响噪声环境相关的一些问题。例如，Maekawa等人的美国专利5884257和Stork等人的美国专利5621858公开了响应讲话者的声能以及与该讲话者的发声相关的面部特征的话音识别系统。在Maekawa等人的专利中，利用包括光源和光检测器的视觉系统检测嘴唇运动。该系统包括通过检测讲话者嘴唇运动的强度和持续时间来推导出语音周期信号的语音周期检测器。该系统还包括话音识别系统和整体判断部分，其中该整体判断部分根据讲话者嘴唇的发声和移动中的声能来确定发声的内容。在Stork等人的专利中，利用摄像机检测嘴唇、鼻子和下巴的移动。响应于声能的频谱分析仪和响应于摄像机的位置矢量发生器的输出信号提供信号给语音分类器，该语音分类器被训练为根据频谱分析仪和位置矢量发生器的输出信号识别限制组的语音发声。
在Maekawa等人和Stork等人的两个专利中，与图像识别并行进行完全话音识别。因此，这些现有技术装置的话音识别处理可能表现出有点慢并且复杂以及要求大量的电量，以致于这些装置作为用于控制设备的遥控装置并不特别合适。

发明内容
根据本发明的一个方面，一种语音识别系统包括(1)声音检测器，用于检测讲话者的语音发声；(2)视觉检测器，用于检测与讲话者的语音发声相关的至少一个面部特征；和(3)处理装置，被连接来响应声音检测器和视觉检测器，以导出信号。该信号具有第一和第二值，分别指示讲话者发出和不发出语音发声，以致于第一值仅响应于声音检测器检测到一个有限的、非零声音响应、同时视觉检测器检测到与讲话者的语音发声相关的至少一个面部特征而被导出。仅在该信号具有第一值时，用于导出指示仅利用声音检测器检测的语音发声的输出的语音识别器被连接，以响应该声音检测器。
本发明的另一方面涉及利用仅响应于讲话者的语音发声的自动语音识别器来识别讲话者的语音发声的方法。该方法包括(1)检测具有与语音发声相关频谱的声能；(2)检测与讲话者的语音发声相关的至少一个面部特征；和(3)仅响应于检测到的具有与语音发声相关频谱的声能、同时与讲话者的语音发声相关的至少一个面部特征出现，才启动该自动语音识别器。
优选地，防止为响应任何以下之一而启动自动语音识别器(1)未检测到具有与语音发声频谱相关的声能，同时也未检测到与讲话者的语音发声相关的面部特征；(2)检测到具有与语音发声相关频谱的声能，但未检测到与讲话者的语音发声相关的面部特征；和(3)未检测到具有与语音发声相关频谱的声能，但检测到与讲话者的语音发声相关的至少一个面部特征。
在优选实施例中，每个语音发声的开始被保证地耦合到语音识别器。每个语音发声的开始通过以下步骤过程被保证地耦合到语音识别器(a)延迟语音发声，(b)识别每个语音发声的开始，和(c)响应于识别的每个语音发声的开始，将与每个语音发声的开始相关的延迟的语音发声耦合到语音识别器，并且此后顺序地将剩余的延迟的语音发声耦合到语音识别器。保证在语音发声完成时没有检测到的声能被耦合到语音识别器。通过以下步骤过程提供在语音发声完成时没有检测的声能被耦合到语音识别器的保证(a)延迟与语音发声相关的声能，(b)识别每个语音发声的完成，和(c)响应于识别的每个语音发声的完成，将在每个语音发声完成之后出现的延迟声能从语音识别器中去耦合。
在优选的设备实施例中，由环形缓冲器提供延迟，该缓冲器有效地被索引(index)，以使得在发声开始时被分段检测的声能和在发声结束时被分段检测的声能以及在发声开始和结束之间被分段检测的声能都耦合到语音识别器，以排除在发声开始之前的声能和在发声结束之后的声能。
在第一和第二实施例中的处理装置分别包括嘴唇运动和面部识别器。面部识别器最好设计为只响应于讲话者的面部相对于视觉检测器处于一个预定取向上才使此信号具有第一值。面部检测器还最好(1)检测和区分多个讲话者的面部，和(2)仅响应于具有识别面部的讲话者才使该信号具有第一值。
在第二实施例中，该处理装置还包括讲话者身份识别器，用于(1)检测和识别多个讲话者的语音模式，和(2)仅响应于具有识别的语音模式的讲话者，才使此信号具有第一值。
特别地结合附图考虑本发明的具体实施例的以下详细描述，本发明的上述和其它目的、特点和优点将变得清楚。

图1是根据本发明一个实施例的语音识别系统的优选实施例的方框图；和图2是图1的语音识别系统的修改部分的方框图。
具体实施例方式
现参照附图之中的图1，其中话筒10和摄像机12分别响应于频谱中包含讲话者的发声的声能和与讲话者的发声的至少一个面部特征(特别是嘴唇运动)相关的光能。话筒10和摄像机12分别导出电信号，这些电信号是这些话筒和摄像机被设计处理的频谱中入射到这些话筒和摄像机上的声能和光能的复制。
话筒10的电输出信号驱动模/数变换器14，该变换器又并行地驱动声能检测器电路16和语音分段器电路18。声能检测器16响应于变换器14的数字输出信号具有指示超过预定阈值的声能入射到话筒10的一个值而导出具有真值的双电平输出信号。对进入话筒10的讲话者的发声，语音分段器18导出被分为诸如音素的顺序语音分段的数字信号。
语音分段器18并行提供顺序语音分段到随机存取存储器(RAM)22和动态环形缓冲器24。RAM 22包括被连接以响应声能检测器16的双电平信号连接的使能输入端23。在响应能量检测器16导出真值中，如话筒10响应讲话者发声或环境噪声时出现的，启动RAM 22以响应语音分段器18的输出。当被使能时，RAM 22中的顺序存储位置(即，地址)被装载分段器18利用被连接到分段器输出端的RAM的数据输入导出的顺序分段。无论顺序分段是语音发声还是噪声，这都是真的。当分段器18正在导出这些分段时，RAM 22具有足够的容量来存储讲话者的典型发声的顺序语音分段，以致于一个特定发声的第一和最后分段或者噪声都被存储在RAM中的预定地址上。
动态环形缓冲器24包括足够大数量的级(stage)来存储分段器18为典型发声导出的顺序语音分段。因此，缓冲器24有效地连续记录和保持被提供给话筒10的最后几秒的声能。RAM 22及其相关的电路形成一个处理装置，该装置有效地索引动态环形缓冲器24，以指示何时正向话筒10讲话(talk into)的讲话者的发声的第一和最后分段出现。如果入射到话筒10上的声能与发声无关，动态环形缓冲器24不被有效地索引。为了保证以下情况(1)每个语音发声的开始被耦合到语音识别器，和(2)在完成每个发声时，语音识别器不再响应代表声能的信号，缓冲器24是延迟装置的一部分。
为了仅响应于正向话筒10讲话的讲话者的发声而执行缓冲器24的索引，在图1中所示的系统在声能入射到话筒10的同时检测与讲话者的语音发声相关的至少一个面部特征。图1的实施例的面部特征是嘴唇运动的检测。为此，摄像机12导出指示向话筒10讲话的讲话者的嘴唇运动的一个信号。摄像机12导出的嘴唇运动信号驱动嘴唇运动检测器26，该检测器26导出一个双电平信号，该双电平信号在嘴唇运动检测器26检测到讲话者的嘴唇正在运动时具有真值，而在嘴唇运动检测器26检测到讲话者的嘴唇不在运动时具有零值。
声能检测器16和运动检测器26的双电平输出信号驱动AND(与)门28，仅在检测器16和26两者均具有真值时，该门导出具有真值的双电平信号。因此，仅在话筒10和摄像机12都响应讲话者的语音发声时，AND门28才导出真值，而在所有其它时间，AND门28的输出具有零值，即非真值。
AND门28的输出信号并行驱动单触发(one shot)电路30和32。单触发电路30响应于AND门28的输出信号的前沿(即，响应于具有从零值到真值转换的门输出)而导出一个短时长脉冲。单触发电路32响应于AND门28的输出信号的后沿(即，响应于具有从真值到零值转换的门输出)而导出一个短时长脉冲。因此，仅在语音发声的开始和结束时，单触发电路30和32才分别导出短时长脉冲。如果(1)声能检测器16导出真值，而嘴唇运动检测器26导出零值，(2)嘴唇运动检测器26导出真值，而声能检测器16导出零值，或(3)检测器16或26两者都没有导出真值，单触发电路30和32不导出任何脉冲。
单触发电路30和32的输出脉冲作为写使能信号被提供到RAM 22的第一和第二预定地址。第一和第二地址分别用于分段器18为特定发声导出的第一和最后语音分段。因此，第一地址存储分段器18为特定发声导出的第一语音分段，而第二地址存储分段器为那个同一发声导出的最后语音分段。通过声能检测器16在语音发声期间给RAM使能输入端23提供真值，使能RAM 22，以响应分段器18导出的顺序分段和单触发电路30和32的输出信号。RAM 22响应于声能检测器16的输出从真值到零值的转换而分别将第一和第二地址的内容读出到比较电路34和36的输入端。
比较电路34和36被分别连接，以响应存储在RAM 22的第一和第二地址中的语音分段的内容和动态环形缓冲器24的输出，从而检测特定发声的第一和最后语音发声在环形缓冲器中的位置。具体地讲，在完成特定语音发声时，RAM 22(1)给比较电路34的一个输入端提供指示该发声的第一语音分段的语音内容的信号，和(2)给比较电路36的一个输入端提供指示该发声的最后语音分段的语音内容的信号。
当RAM 22利用指示该发声的第一和最后语音分段的语音内容的信号驱动比较电路34和36时，通过在声能检测器16的双电平输出的后沿上的转换，使能动态环形缓冲器24，以便在一个高频率(即，显著高于由话筒10换能各个分段的频率的一个频率)上顺序导出它存储的各个语音分段。为此，缓冲器24包括读出使能输入端37，被连接以响应检测器16导出的后沿转换。当被使能用于读出时，动态环形缓冲器24并行提供它导出的顺序语音分段给比较电路34和36的第二输入端。
仅响应于缓冲器24导出的语音分段与RAM22提供给比较电路34的第一分段是相同的，比较电路34才导出一个脉冲。仅响应于缓冲器24导出的语音分段与RAM22提供给比较电路36的最后分段是相同的，比较电路36才导出一个脉冲。门38具有分别为响应比较电路34和36的输出脉冲而连接的第一和第二控制输入端和为响应动态环形缓冲器24导出的顺序语音分段而连接的数据输入端。构造门38，以便为了响应比较电路34给该门的第一控制输入端提供一个脉冲，该门被打开，并且该门保持打开，直至由于比较电路36给该门的第二控制输入端提供一个脉冲而闭合该门为止。
当门38是打开的时，该门将动态环形缓冲器24提供到它的数据输入端的第一到最后语音分段传送到自动语音识别器40。自动语音识别器40可以是任何已知类型的，该识别器40仅响应代表声能的信号并且产生指示在讲话者正面对摄像机12时讲话者向话筒10讲话的语音发声的输出信号。自动语音识别器40的输出信号驱动输出装置42。输出装置42的例子是用于利用与发声相称的数字字母字符驱动计算机显示器的计算机字符发生器，或者是用于执行与发声相称的任务的机器。
图1的语音识别系统可以利用图2所示的装置进行修改，以使得在讲话者未看着摄像机12时，语音识别系统将不响应语音发声，并且它能够响应语音发声和多个讲话者的面部。表示在图2中的装置被连接以响应图1的声能检测器16的输出信号，并且替代嘴唇运动检测器26和AND门28。
图2的设备包括面部识别器50，响应于摄像机12的输出信号而被连接；和讲话者身份识别器52，响应于声能检测器16的输出信号而被连接。面部识别器50和讲话者身份识别器52连接到其它电路单元和语音识别器40，以便仅在讲话者面对摄像机12(即，相对于摄像机具有预定取向)时才启动语音识别器。因此，如果讲话者转身而未直接面对着摄像机12或者由于讲话者正在与某人交谈并且不希望他/她的声音被识别器40识别，则不启动识别器40。仅在面部识别器50和语音识别器52识别同一个人时，语音识别器40才被启动。在至少一个训练周期期间训练面部识别器50和语音识别器52，以识别不止一个人的面部和语音，并且仅在面部和语音被识别为同一个人的时，才启动语音识别器40。
为此，讲话者身份识别器52包括具有响应于模/数变换器14的语音信号输出而被连接的一个输入端和响应于声能检测器16的输出而被连接的第二输入端的存储器54，以使得在检测器16导出真值的同时存储器54存储讲话者的短期发声。在发声完毕时，存储器54提供指示该发声的数字信号到比较器56的一个输入端，该比较器具有响应于存储器58的第二输入端，存储器58存储指示已训练语音识别器40的多个讲话者的语音模式的数字信号。
响应于讲话者存储器54的输出信号与存储器58存储的语音模式之一匹配，比较器56导出一个真输出信号。比较器56为具有存储在存储器58中的语音模式的每个讲话者导出独立的真信号。在图2中，假设存储器58存储用于第一和第二不同讲话者的语音模式，从而比较器56包括分别提供给第一和第二讲话者的输出导线57和59。为了响应比较器56识别该讲话者具有与存储器58为第一和第二讲话者存储的语音模式相同的语音特征，比较器57分别馈送真值到输出导线57和59。
面部识别器50包括具有响应于摄像机12的输出而被连接的输入端的存储器60，以使存储器60存储利用摄像机12查看的图像的一帧。当完成该帧时，存储器60提供指示帧内容的数字信号到比较器62的一个输入端，该比较器具有响应于存储器64的第二输入端，该存储器64存储指示多个讲话者之中的每一个的面部模式的数字信号；当讲话者直接面对着摄像机12时，即当讲话者的面部相对于摄像机具有预定取向时，导出存储器64存储的面部模式。响应于存储器60的输出信号与存储器64存储的面部模式之一匹配，比较器62导出真输出信号。比较器62对于具有存储在存储器64中的面部图像的每个讲话者导出独立的真信号。在图2的例子中，存储器64存储用于第一和第二讲话者的面部图像，从而比较器64包括分别被提供用于第一和第二讲话者的输出导线66和68。为响应比较器64识别该讲话者具有一个面部图像与存储器60存储的用于第一和第二讲话者的面部图像之一相同，比较器62分别提供真值到输出导线66和68。
在每个讲话者的训练周期期间，每个讲话者朗读预定序列的字，并且讲话者直接面对着摄像机12。此时，讲话者存储器54被连接到存储器58的输入端，以使存储器58存储训练语音识别器40的多个讲话者之中的每一个讲话者的语音模式。同时，图像存储器60被连接到存储器64的输入端，以使存储器64存储训练语音识别器40的多个讲话者之中的每一个的面部图像。在每个讲话者的训练周期期间，语音分段器16的输出被馈送到语音识别器40的输入端，以使能该语音识别器来以本领域技术人员公知的方式学习每个讲话者的语音模式。
比较器56和62在导线57和66上的输出信号被馈送到AND门70的输入端，而在导线59和68上这些比较器的输出信号被馈送到AND门72的输入端。因此，仅响应于面部识别器50和语音身份识别器52两者都识别讲话者是直接面对着摄像机12的第一讲话者，AND门70才导出真值。类似地，仅响应于面部识别器50和语音身份识别器52两者都识别讲话者是直接面对着摄像机12的第二讲话者，AND门72才导出真值。AND门70和72导出被馈送到OR(或)门74的双电平信号，响应于根据其语音和面部特征识别第一讲话者或第二讲话者，该OR门导出真值。
以与AND门28的输出驱动单触发电路相同的方式，OR门74的输出信号驱动单触发电路。因此，按与图1实施例中将语音信号馈送到语音识别器40相同的方式，第一或第二讲话者的语音信号被馈送到语音识别器40。
为了使能图2的语音识别器40来识别两个讲话者，AND门70和72的输出被馈送到语音识别器40。语音识别器40响应于AND门70和72的输出而以本领域技术人员公知的方式来分析正确讲话者的语音。
虽然已经描述和说明了本发明的具体实施例，但应了解在不脱离后附权利要求书中所限定的本发明真正精神和范围情况下，具体说明和描述的实施例在细节方面可以进行各种改变。例如，分立电路部件可以利用编程的计算机来替代。
权利要求
1.一种语音识别系统，包括声音检测器(10)，用于检测讲话者的语音发声；视觉检测器(12，26)，用于检测与讲话者的语音发声相关的面部特征；处理装置(16，18，22，24，28，30，32，34，36，38)，响应于声音和视频检测器而被连接，用于导出一个信号，该信号具有分别指示讲话者发出语音发声和未发出语音发声的第一和第二值，以致于响应于声音检测器检测到有限的非零声音响应、同时视觉检测器检测到与讲话者的语音发声相关的至少一个面部特征而导出第一值；和语音识别器(40)，用于导出指示仅利用声音检测器检测到的语音发声的输出，该语音识别器被连接以响应该声音检测器，从而响应该信号具有第一值。
2.权利要求1的语音识别系统，其中该处理装置使该信号为响应以下任何一种情况而具有第二值(a)该声音检测器未检测到有限的、非零声音响应，同时该视觉检测器未检测到讲话者的语音发声；(b)该声音检测器检测到有限的、非零声音响应，而该视觉检测器未检测到讲话者的语音发声；和(c)该声音检测器未检测到有限的、非零声音响应，而该视觉检测器检测到讲话者的语音发声。
3.权利要求1或2的语音识别系统，其中该处理装置包括延迟装置(22，24，34，38)，用于保证每个语音发声的开始被耦合到该语音识别器。
4.权利要求1-3之一的语音识别系统，其中该处理装置包括延迟装置(22，24，34，38)，用于保证响应于每个语音发声的结束而从该语音识别器中去耦合该声音检测器。
5.权利要求3或4的语音识别系统，其中该延迟装置包括响应于该声音检测器而被连接的存储单元(24)，该存储单元包括用于存储该声音检测器的输出的顺序分段的多个级，该延迟装置使得存储语音发声开始的存储单元级的内容被初始地耦合到该语音识别器。
6.权利要求5的语音识别系统，其中该存储单元包括环形缓冲器(24)。
7.权利要求1-6之一的语音识别系统，其中该处理装置包括响应于该视觉检测器而被连接的面部识别器(60，62，64)。
8.权利要求7的语音识别系统，其中该面部识别器被安排为响应于讲话者面部相对于该视觉检测器处于预定取向上而使该信号具有第一值。
9.权利要求7或8的语音识别系统，其中该面部识别器被安排为(1)检测和区分多个讲话者的面部，和(2)响应于具有已识别面部的讲话者而使该信号具有第一值。
10.权利要求1-9之一的语音识别系统，其中该处理装置包括响应于该声音检测器而被连接的讲话者身份识别器(54，56，58)，该讲话者身份识别器被安排为(1)检测和区分多个讲话者的语音模式，和(2)响应于具有已识别语音模式的讲话者而使该信号具有第一值。
11.权利要求1-10之一的语音识别系统，其中该处理装置被安排为响应于该讲话者具有与同一讲话者的已识别语音模式相匹配的已识别面部而使该信号具有第一值。
全文摘要
一种仅对声音语音发声进行响应的自动语音识别器(40)仅响应于具有与语音发声相关的频谱的声能和与语音发声相关的至少一个面部特征而被启动。在一个实施例中，讲话者必须直接面对着摄像机(12)，并且多个讲话者的话音和面部特征必须匹配，才能启动自动语音识别器。
文档编号G10L15/24GK1623182SQ03802828
公开日2005年6月1日申请日期2003年1月29日优先权日2002年1月30日
发明者A·科梅纳雷兹, A·凯尔纳申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：A.科梅纳雷兹;A.凯尔纳
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

上一篇：指纹的有效存储器的制作方法
上一篇：用于噪声环境的话音活动检测器和验证器的制作方法