现场性的检测的制作方法

文档序号:20889510发布日期:2020-05-26 17:48阅读:168来源:国知局
现场性的检测的制作方法

本文所描述的实施方案涉及用于检测说话人的现场性(liveness)的方法和设备。作为一个实施例,现场性检测可以用于检测对语音生物测定系统(voicebiometricssystem)的重放攻击。

另外,本文所描述的实施方案涉及用于提高话语(speech)处理系统的鲁棒性的方法和设备。



背景技术:

生物测定系统越来越广泛地被使用。在语音生物测定系统中,用户通过在注册阶段期间提供他们的话语的样本来训练系统。在随后的使用中,系统能够在已注册用户和未登记的说话人进行辨别。语音生物测定系统原则上可以用于控制对各种服务和系统的访问权。

恶意方试图击败语音生物测定系统的一种方式是获得已注册用户的话语的录音,且回放该录音以试图冒充已注册用户以及获得对旨在限于已注册用户的服务的访问权。

这被称为重放攻击或欺骗攻击。

在面部识别或其他类型的生物测定系统中,该系统识别用户的特性。再次,恶意方试图击败这样的生物测定系统的一种方式是向系统呈现已注册用户的照片或视频录音。

另外,许多设备包括麦克风,所述麦克风可以用于检测周边声音。在许多情形中,周边声音包括一个或多个附近说话人的话语。可以以多种方式使用由麦克风所生成的音频信号。例如,代表话语的音频信号可以被用作话语识别系统的输入,以允许用户使用口语命令来控制设备或系统。

已经建议,可以通过传输超声信号来干扰这样的系统的操作,该超声信号当然对于设备的用户不可听,但是该超声信号被设备中的电子电路系统的非线性部件转换为音频带内的信号,且将被话语识别系统识别为话语。由于与海豚以超声音频带通信的类似性,有时这种基于超声波的恶意攻击被称为“海豚攻击”。



技术实现要素:

根据本发明的第一方面,提供了一种现场性检测的方法。该方法包括:接收话语信号;生成超声信号;检测所生成的超声信号的反射;检测所生成的超声信号的反射中的多普勒频移;以及,基于所检测到的多普勒频移来对所接收的话语信号是否指示说话人的现场性进行标识。基于所检测到的多普勒频移来对所接收的话语信号是否指示现场性包括确定所检测到的多普勒频移是否对应于话语发音速率(speecharticulationrate)。

根据本发明的另一方面,提供了一种配置用于执行第一方面的方法的系统。

根据本发明的另一方面,提供了一种包括这种系统的设备。该设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。

根据本发明的另一方面,提供了一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据第一方面的方法的指令。

根据本发明的另一方面,提供了一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,在由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据第一方面的方法。

根据本发明的第二方面,提供了一种检测说话人的现场性的方法,该方法包括:生成超声信号;接收包括所述超声信号的反射的音频信号;使用所接收的包括所述超声信号的反射的音频信号来检测说话人的现场性;监测周边超声噪声;以及,基于经反射的超声的水平和所监测到的周边超声噪声来调整接收所述音频信号的系统的操作。该方法可以在语音生物测定系统中使用,在这种情况下,检测说话人的现场性包括确定所接收的话语信号是否可能是重放攻击的产物。可以基于经反射的超声的水平和所监测到的周边超声噪声来调整所述语音生物测定系统的操作。

根据本发明的另一方面,提供了一种用于现场性检测的系统,该系统被配置用于执行第二方面的方法。

根据本发明的另一方面,提供了一种包括这种系统的设备。该设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。

根据本发明的另一方面,提供了一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据第二方面的方法的指令。

根据本发明的另一方面,提供了一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,在由处理器电路系统执行计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据第二方面的方法。

根据本发明的第三方面,提供了一种在设备中进行现场性检测的方法。该方法包括:接收来自语音源的话语信号;通过所述设备的换能器生成且传输超声信号;检测所传输的超声信号的反射;检测所生成的超声信号的反射中的多普勒频移;以及,基于所检测到的多普勒频移来对所接收的话语信号是否指示说话人的现场性进行标识。该方法还包括:获得关于所述设备的位置的信息;以及,基于关于所述设备的位置的信息来适配所述超声信号的生成和传输。

根据本发明的另一方面,提供了一种用于现场性检测的系统,该系统被配置用于执行第三方面的方法。

根据本发明的另一方面,提供了一种包括这种系统的设备。该设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。

根据本发明的另一方面,提供了一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据第三方面的方法的指令。

根据本发明的另一方面,提供了一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,在由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据第三方面的方法。

根据本发明的第四方面,提供了一种用于提高话语处理系统的鲁棒性的方法,所述话语处理系统具有至少一个话语处理模块,该方法包括:接收包括音频频率和非音频频率的输入声音信号;将所述输入声音信号分离成音频带分量和非音频带分量;对音频带内来自所述非音频带分量的可能干扰进行标识;以及基于所述识别来调整下游话语处理模块的操作。

根据本发明的另一方面,提供了一种提高话语处理系统的鲁棒性的系统,该系统被配置用于根据第四方面的方法进行操作。

根据本发明的另一方面,提供了一种包括这种系统的设备。该设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。

根据本发明的另一方面,提供了一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据第四方面的方法的指令。

根据本发明的另一方面,提供了一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,在由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据第四方面的方法。

附图说明

为了更好地理解本发明且示出如何实施本发明,现在将参考附图,在附图中:

图1例示了一个智能电话;

图2是例示智能电话的形式的示意图;

图3例示了正在执行重放攻击的一种情形;

图4是例示检测现场性的方法的流程图;

图5例示了包括用于检测现场性的系统的话语处理系统;

图6是例示检测现场性的方法的一部分的流程图;

图7例示了智能电话的多种可能使用;

图8是例示检测现场性的方法的一部分的流程图;

图9是例示检测现场性的方法的一部分的流程图;

图10是例示用于检测现场性的系统的一部分的框图;

图11例示了检测现场性的方法的结果;

图12例示了一个智能电话;

图13是例示智能电话的形式的示意图;

图14例示了一个话语处理系统;

图15例示了使用话语处理系统的效果;

图16是例示处理音频信号的方法的流程图;

图17是例示使用图16的方法的系统的框图;

图18是例示使用图16的方法的系统的框图;

图19是使用图16的方法的系统的框图;

图20是使用图16的方法的系统的框图;

图21是使用图16的方法的系统的框图;

图22是使用图16的方法的系统的框图;

图23是使用图16的方法的系统的框图;以及

图24是使用图16的方法的系统的框图。

具体实施方式

下面的描述阐述了根据本公开内容的示例实施方案。对于本领域普通技术人员而言,其他示例实施方案和实施方式将是显而易见的。此外,本领域普通技术人员将认识到,可以代替下面所讨论的实施方案或与下面讨论的实施方案相结合地应用多种等同技术,且所有这样的等同物应被认为是本公开内容所涵盖的。

通过实施例的方式,本发明的一个实施例参考本发明在智能电话中的使用来例示,但是应理解,可以在任何合适的设备中实施本发明,如下面更详细地描述的。

图1例示了一个智能电话110,该智能电话具有用于检测周边声音的麦克风112。在正常使用中,麦克风当然用于检测握持智能电话110的用户的话语。

智能电话110还具有两个扬声器114、116。当第一扬声器114保持在其用于进行语音呼叫的正常操作位置时,它位于智能电话110的顶部处,且被用于播放从该呼叫的远程方所接收的声音。

第二扬声器116位于智能电话110的底部处,且被用于回放来自本地源或远程源的媒体内容。因此,第二扬声器116被用于回放存储在智能电话110上的音乐或者与正在经由互联网访问的视频相关联的声音。

所例示的智能电话110还具有两个附加麦克风112a、112b。如果设备中存在附加麦克风,则所述附加麦克风可以设置在任何合适的位置处。在此所例示的设备中,一个麦克风112a位于设备的前面的顶端处,而另一麦克风112b位于设备的侧面的顶端处。

图2是例示智能电话110的形式的示意图。

具体地,图2示出了智能电话110的多个互连部件。应理解,智能电话110实际上将包含许多其他部件,但是下面的描述对于理解本发明是足够的。

因此,图2示出了上面所提及的麦克风112。在此所特定例示的实施方案中,智能电话110设置有多个麦克风112、112a、112b等。图2还示出了说话人114、116。

图2还示出了存储器118,该存储器实际上可以被设置为单个部件或多个部件。存储器118被设置用于存储数据和程序指令。

图2还示出了处理器120,该处理器实际上再次可以被设置为单个部件或多个部件。例如,处理器120的一个部件可以是智能电话110的应用处理器。

图2还示出了收发器122,该收发器122被设置用于允许智能电话110与外部网络通信。例如,收发器122可以包括用于经由wifi局域网和/或经由蜂窝网络建立互联网连接的电路系统。

图2还示出了音频处理电路系统124,用于根据需要对由麦克风112所检测到的音频信号执行操作。例如,音频处理电路系统124可以对音频信号进行滤波或执行其他信号处理操作。

音频信号处理电路系统还能够生成用于通过扬声器114、116所回放的音频信号,如下面更详细地讨论的。

图2还示出智能电话110可以包括一个或多个传感器126。在某些实施方案中,传感器可以包括以下的任何组合:陀螺仪、加速度计、接近传感器、光水平传感器(lightlevelsensor)、触摸传感器和摄像机。

在此所例示的实施方案中,智能电话110设置有语音生物测定功能且设置有控制功能。因此,智能电话110能够响应于来自已注册用户的口语命令来执行多种功能。生物测定功能能够区分来自已注册用户的口语命令和由一个不同的人说的相同命令。因此,本发明的某些实施方案涉及操作智能电话或具有某种语音可操作性的另一便携式电子设备,例如平板计算机或膝上型计算机、游戏控制台、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器等,其中在旨在执行口语命令的设备中执行语音生物测定功能。某些其他实施方案涉及在智能电话或其他设备上执行语音生物测定功能的系统,如果语音生物测定功能能够确认说话人是已注册用户,则智能电话或其他设备将命令传输至一个分立设备。

在一些实施方案中,虽然在智能电话110或靠近用户的其他设备上执行语音生物测定功能,但是使用收发器122将口语命令传输至远程话语识别系统,该远程话语识别系统确定口语命令的含义。例如,话语识别系统可以位于云计算环境中的一个或多个远程服务器上。然后,基于口语命令的含义的信号被返回至智能电话110或其他本地设备。在其他实施方案中,话语识别系统还位于设备110上。

哄骗语音生物测定系统的一种尝试是在所谓的重放攻击或欺骗攻击中播放已注册用户的语音的录音。

图3示出了正在执行重放攻击的情形的一个实施例。因此,在图3中,智能电话110设置有语音生物测定功能。在此实施例中,智能电话110至少暂时地拥有一个攻击者,该攻击者具有另一智能电话130。智能电话130已经被用来记录智能电话110的已注册用户的语音。使智能电话130靠近智能电话110的麦克风入口112,且回放已注册用户的语音的录音。如果语音生物测定系统不能够确定其所识别的已注册用户的语音是录音,则攻击者将获得对旨在仅由已注册用户可访问的一个或多个服务的访问权。

同时地或分立地,当智能电话110设置有基于摄像头的生物测定功能(例如,面部识别系统)时,攻击者可能使用智能电话130的显示器来显示已注册用户的照片或视频,以试图击败面部识别系统。

因此,本文所描述的实施方案试图执行现场性检测,例如,对说出所检测到的任何语音声音的人的存在进行检测。

图4是例示现场性检测的方法的流程图,例如在生物测定系统中使用,且在此所例示的实施例中被用于检测对语音生物测定系统的重放攻击,且图5是例示包括语音生物测定系统的话语处理系统的一个实施例中的功能块的框图。

具体地,在图4的方法的步骤150中,在图5中所示出的系统的输入170上接收信号。因此,输入170可以被连接至图1中所示出的麦克风112或图2中所示出的多个麦克风112、112a、112b等。

所接收的信号被传送至语音活动检测器(vad)172,该语音活动检测器(vad)172检测所接收的信号何时包含话语。

所接收的信号还被传送至关键字检测块174。如果语音活动检测器172确定所接收的信号包含话语,则关键字检测块174被激活,且关键字检测块174用于检测预定关键字在所检测到的话语中的存在。例如,在默认情况下,智能电话的话语处理系统以低功率模式操作,以反映设备的使用寿命的仅一小部分需要话语处理的事实。然后,通过用户说出预定关键字或短语,诸如“hellophone”,可以使话语处理系统退出低功率模式。

所接收的信号还被传送至说话人识别块176。如果关键字检测块174确定在所检测到的话语中存在预定关键字,则说话人识别块176试图确定说出预定关键字的人是否是设备的已登记用户和/或设备上的特定应用。已知合适的生物测定技术用于确定所接收的信号中存在的话语的说话人是否是已登记用户。

如果说话人识别块176确定说出预定关键字的人是设备的已登记用户和/或设备上的特定应用程序,则所接收的信号被传送至话语处理块178,话语处理块178可能存在于设备上,或可能远程地位于云中。然后,话语处理块178确定话语的内容。例如,如果话语包含命令,则话语处理块178生成合适的信号以用于使该命令起作用。

图5中所示出的系统包括一种机制,该机制用于执行现场性检测,从而用于检测所接收的包含话语的信号是否源自重放攻击,如图3中所例示的。

因此,在图4中所示出的方法的步骤152中,由图5中所示出的超声生成和传输块180生成且传输超声信号。超声传输块180可以一直操作。在其他实施方案中,超声传输块180仅当它在其输入182上接收使能信号时才操作。例如,当语音活动检测器172确定所接收的信号包含话语时,或者当关键字检测块174检测到存在预定关键字时,或者当说话人识别块176开始执行生物测定技术以确定说出预定关键字的人是否是已登记用户时,可以生成使能信号。

超声信号可以是单音调正弦波(singletonesinewave),或者可以使用其他配置,例如线性调频信号(chirpsignal)。出于可传输性的原因,可以将超声信号的频率选择为相对接近20khz,同时又要足够高以确保它是不可听的。

在图4中所示出的方法的步骤154中,检测所生成的超声信号的反射。

在图5中所示出的系统中,信号在输入184上被接收,且被传送至超声检测块186。例如,输入184可以被连接至图2中所示出的多个麦克风112、112a、112b等中的一个或多个,以接收通过它们所检测到的任何信号。

所接收的信号被传送至超声检测块186,超声检测块186可以例如包括一个或多个滤波器,用于选择具有与由超声传输块180所传输的超声信号的频率接近的频率的信号。所反射的超声信号的频率可能存在多普勒频移,但是多普勒频移不太可能远远超过100hz,因此超声检测块186可以包含一个滤波器,用于选择具有由超声传输块180所传输的超声信号的频率的100hz以内的频率的信号。

在图4中所示出的方法的步骤156中,所接收的由超声检测块186所检测到的超声信号被传送至多普勒检测块188,以检测所生成的超声信号的反射中的多普勒频移。因此,将所接收的经反射的超声信号与所生成的超声信号进行比较,以标识经反射的信号中的频率偏移,该频率偏移是由正在说话以生成所检测到的话语信号的人的移动表面(诸如脸部,尤其是唇部)的反射引起的。

在图4中所示出的方法的步骤158中,基于所检测到的多普勒频移来确定这些多普勒频移是否是生成所检测到的话语的人的现场性提供了很好的证据。

在图5中所示出的例示实施方案中,多普勒检测块188的输出被施加至相关块(correlationblock)190的一个输入。在输入170上所接收的音频信号被施加至相关块190的另一输入。在一个替代实施方案中,由语音活动检测块172所生成的信号被施加至相关块190的另一输入。相关块190的输出被施加至图5中所示出的确定块192。

如果通过相关块190发现在所生成的超声信号的反射中检测到多普勒频移的时段与在所接收的话语信号中标识话语内容的时段之间存在相关性,则指示所检测到的话语是通过现场的人移动他们的唇部以生成声音而生成的。如果相关性程度低,则针对此的一个可能原因是,所检测到的话语不是通过现场的人移动他们的唇部以生成声音而生成的。此的一种可能原因是,所检测到的话语实际上是由重放攻击生成的。

因此,确定块192产生输出信号,该输出信号包含关于说话人的现场性的信息,从而包含关于所检测到的话语是由重放攻击所生成的可能性的信息。在此所例示的实施方案中,此输出信号被施加至说话人识别块176,该说话人识别块176正在执行一个或多个语音生物测定过程,以确定说话人是否是该设备的已登记用户。然后,说话人识别块176可以将输出信号用作它用于确定说话人实际上是否是设备的已登记用户的若干因素中的一个因素。例如,可能存在一个或多个因素指示所检测到的话语是否是已登记用户的话语,以及可能存在一个或多个因素指示所检测到的话语是否可能来自于重放攻击。

在其他实施例中,现场性检测可以被用于其他目的,例如用于检测通过呈现已注册用户的静止图像或移动图像来击败面部识别系统的尝试。

如下面更详细地讨论的,生成超声信号的目的是在说话时检测说话人的面部(特别是唇部)的移动。为此,为了成功地操作,有利的是,可以基于关于设备的使用的信息来改变超声信号。

因此,如上面所描述的,图4中所示出的过程的步骤152涉及生成和传输超声信号。

图6是在一些实施方案中给出了关于此步骤的更多细节的流程图。具体地,在该方法的步骤1110中,该系统获得关于设备110的位置的信息。

例如,获得关于设备的位置的信息可以包括获得关于设备的取向的信息。例如,可以从设置为设备110中的传感器126的陀螺仪和/或加速度计获得关于设备的取向的信息。

作为一个替代方案,获得关于设备的位置的信息可以包括获得关于设备与语音源的距离的信息。例如,可以通过检测由麦克风112、112a、112b所生成的信号的水平来获得关于设备与语音源的距离的信息。例如,来自一个麦克风的较高的信号水平可以指示相比于一个或多个其他麦克风,语音源更靠近该麦克风。

作为另一替代方案,获得关于设备的位置的信息可以包括获得关于设备相对于假定的说话人的位置的信息。例如,可以从设置为设备110中的传感器126的一个或多个接近传感器获得关于设备相对于假定的说话人的位置的信息。还可以从设置为设备110中的传感器126的一个或多个光水平传感器获得关于设备相对于假定的说话人的位置的信息。还可以从设置为设备110中的传感器126的一个或多个触摸传感器获得关于设备相对于假定的说话人的位置的信息,以指示用户如何握持设备110。还可以从设置为设备110中的传感器126的摄像机获得关于设备相对于假定的说话人的位置的信息,该摄像机可以跟踪用户的面部相对于设备110的位置。

然后,在步骤1112中,该方法包括基于关于设备的位置的信息来适配超声信号的生成和传输。

适配超声信号的生成和传输可以例如包括调整超声信号的传输功率。作为另一实施例,当设备具有多个换能器114、116时,适配超声信号的生成和传输可以包括选择生成超声信号的一个或多个换能器,目的是超声信号应由靠近用户的口部的换能器生成,从而能够检测用户的唇部的移动。

例如,获得关于设备的位置的信息可以包括获得关于设备与语音源的距离的信息,且适配超声信号的生成和传输可以包括至少对于低于一特定限制的距离,调整超声信号的传输功率,其中设备距离语音源较远时使用较高的功率。此允许设备生成产生清晰可检测的反射的超声信号,而不会造成在设备靠近用户的耳朵时传输超声能量的风险。

作为另一实施例,获得关于设备的位置的信息可以包括获得关于多个扬声器换能器中的哪一个最靠近语音源的信息(例如,基于放置为靠近那些换能器的麦克风处的信号水平),且适配超声信号的生成和传输可以包括主要地或完全地从那个换能器传输超声信号。此允许设备从最靠近声音源的换能器生成超声信号,从而增大检测可用的反射信号的机会。

其他的可能性涉及说话人可以使用设备的特定方式。

因此,例如,当设备110是包括位于该设备的下端处的至少第一换能器116以及位于该设备的上端处的第二换能器114的移动电话时,基于关于设备的位置的信息来适配超声信号的生成和传输可以包括:如果关于设备的位置的信息指示正在以靠近通话模式(closetalkmode)使用设备110,则以相对低的功率传输来自第一换能器116的超声信号。靠近通话将被理解为,在电话被放置为邻近用户的脸部的侧面的情况下且在通信使用近距离耳机扬声器(例如,与“传统”电话听筒定位一样)的情况下使用电话。

例如,在此模式中,可以在1cm处以70db-90dbspl的水平传输超声信号。

如果例如加速度计指示设备110处于直立位置,且接近传感器检测到设备110靠近可能是用户的面部1120的表面被握持,如图7(a)中所示出的,则可以将关于设备的位置的信息视为指示是设备正以靠近通话模式使用。

更普遍地,基于关于设备的位置的信息来适配超声信号的生成和传输可以包括:如果关于设备的位置的信息指示正以总体竖直取向使用该设备,则传输来自第二换能器的超声信号。

作为另一实施例,当设备110是包括位于该设备的下端处的至少第一换能器116以及位于该设备的上端处的第二换能器114的移动电话时,基于关于设备的位置的信息来适配超声信号的生成和传输可以包括:如果关于设备的位置的信息指示用户正将设备110握持在他们的脸部1130的前面,其中下部麦克风112指向他们,即处于附近通话模式(neartalkmode)的“披萨片(pizzaslice)”型式,如图7(b)中所示出的,则以相对高的功率传输来自设备的下端处的换能器116的超声信号。

附近通话模式将被理解为电话被定位在用户的脸部的前面,以及可以使用近场扬声器和麦克风。此位置可能适用于视频通话的目的,例如使用软件产品,诸如microsoft的skypetm或apple的facetimetm。“披萨片”模式将被理解为附近通话模式的一种变体,但是将电话握持在相对水平的位置(以使得定位在电话的下端处的麦克风直接面向用户)。

例如,在此模式中,可以在1cm处以90db-110dbspl的水平传输超声信号。

如果例如加速度计指示设备处于水平位置,且由麦克风112所检测到的信号水平高于由麦克风112a、112b所检测到的信号水平,则关于设备的位置的信息可以被视为指示正以“披萨片”模式使用设备。

更普遍地,基于关于设备的位置的信息来适配超声信号的生成和传输可以包括:如果关于设备的位置的信息指示正以总体水平取向使用设备,则传输来自第一换能器的超声信号。

在附近通话模式的变体(其中用户将设备握持在他们的脸部的前面,例如以使得他们可以在说话时看到设备上的屏幕)中,基于关于设备的位置的信息来适配超声信号的生成和传输可以包括以相对高的功率传输来自设备的上端处的换能器114的超声信号或者来自设备两端处的换能器的超声信号。

作为另一实施例,基于关于设备的位置的信息来适配超声信号的生成和传输可以包括:如果关于设备的位置的信息指示正以远场模式(farfieldmode)使用设备,例如设备110被放置在距用户1142某一距离的表面1140上,如图7(c)中示出的,则阻止超声信号的传输。在此实施例中,关于设备的位置的信息可以指示该设备位于距声音的源超过一阈值距离(例如,50cm)的位置。

此是因为可以确定,仅当指示符是正靠近用户的脸部握持该设备时,检测说话人的唇部的移动对于使用才是足够可靠的。

如图5中所示出的,且如上面所描述的,多普勒检测块188的输出被施加至相关块190的一个输入。在输入170上所接收的音频信号被施加至相关块190的另一输入。相关块190确定在所生成的超声信号的反射中检测到多普勒频移的时段与存在话语的时段之间是否存在相关性。

目的是确认在所接收的所生成的超声信号的反射中检测到的任何多普勒频移的确来自于说话人的面部运动,而非其他移动物体的虚假反射的结果。

图8是例示在相关块190中所执行的方法的流程图。

首先,在步骤1150中确定,所检测到的多普勒频移是否与一般话语发音速率相对应。发音速率是在话语期间产生音节的速率,且已经发现,对于大多数话语,典型的发音速率在4hz-10hz的范围内。说话人的面部移动(例如,说话人的唇部、脸颊和鼻孔的移动)通常以相同的速率出现。因此,在步骤1150中,确定所检测到的多普勒频移是否与4hz-10hz的范围内的频率的面部运动相对应。

在步骤1152中,确定所检测到的多普勒频移是否与当前话语的发音速率相对应。

因此,在相关块190中提取包含在所接收的音频信号中的话语的发音速率。然后,确定所检测的多普勒频移是否与对应于那个所提取的发音速率的频率的面部移动相对应。

如果确定所检测到的多普勒频移与对应于那个所提取的发音速率的频率的面部移动相对应,则可以将此视为现场性的很好证据。

在另一可能的步骤中,在图8中所示出的方法的步骤1154中,确定在所生成的超声信号的反射中所检测到的多普勒频移与所接收的话语信号的话语内容之间是否存在相关性。

认识到,使用如本文所描述的超声的一个问题是可能存在周边超声噪声的干扰源。

因此,图9是例示在多普勒检测块188和相关块190中所执行的一种方法的流程图。

具体地,在步骤1170中,监测周边超声噪声的水平。然后,在步骤1172中,基于经反射的超声和所监测到的周边超声噪声的水平来调整语音生物测定系统的操作。

图10是示意性地例示多普勒检测块188和相关块190的操作的框图。图11例示了在不同操作阶段所获得的信号。

具体地,来自一个或麦克风112的信号被传送至低通滤波器1180,以用于隔离所检测到的信号的音频频率分量(例如,低于20khz)。在一个实施例中,所得到的音频信号被示出在图11(a)中。

在找出信号的绝对值的块1182中找出音频信号的信号水平。在相同的实施例中,所得到的包络信号被示出在图11(b)中。

来自一个或麦克风112的信号还被传送至高通滤波器1184,以用于隔离所检测到的信号的超声分量(例如,高于20khz)。这可能包含所生成的超声信号的想要的反射,但还可能包含干扰的周边超声噪声。

超声信号的水平由水平检测器1186确定。

然后,超声信号被传送至解调块1188,在解调块1188中,超声信号被降频转换至音频带,且找出任何经多普勒频移的反射。此是通过将所接收的超声信号与所生成和传输的超声信号进行混合来实现的。如果需要,可以在将所接收的超声信号传送通过带通滤波器之后进行降频转换,从而去除并非源自于所传输的信号的其他超声信号。另外,可以对混合步骤的输出进行低通滤波。

在一个实施例中所得到的信号被示出在图11(c)中。

在找出信号的绝对值的块1190中找出经多普勒频移的反射信号的信号水平。

因此,从图11中可以看出,在所生成的超声信号的反射中检测到的多普勒频移与所接收的话语信号的话语内容之间存在相关性。

为了获得鲁棒的结果,执行相关运算,如图10的块1192处所示出的。

然而,在执行相关之前,应注意,虽然音频信号实际上是说话人的面部移动的结果,但是经反射的超声信号中的多普勒频移将由面部移动的速度引起。因此,在一些实施方案中,或者对音频信号求微分(例如,通过传送通过以具有例如10hz-200hz的通带的带通滤波器、包络块或微分器形式的块1194),或者对超声信号求积分(例如,通过传送通过以泄露积分器(leakyintegrator)或具有例如10hz-200hz的通带的带通滤波器的形式的块1196)。

然后,相关器1192对信号执行逐帧互相关。如果相关结果rxy高于一个阈值,则确定在所检测到的多普勒频移和所接收的话语信号的话语内容之间存在足够的相关性,以得出存在现场说话人的证据的结论,从而话语可能不是由重放攻击引起的。如果不存在说话人的现场性的很好证据,则此可以指示所接收的话语信号可能是重放攻击的产物。

可以基于如由水平检测器1186所检测到的经反射的超声的水平以及所监测到的周边超声噪声来调整系统的操作。

例如,可以基于所监测到的周边超声噪声的水平来调整对关于所接收到的话语信号是否是重放攻击的结果的确定的依赖(reliance)。关于所接收的话语信号是否是重放攻击的结果的确定通常将基于一个以上的因素来做出。认识到,大的周边超声信号的存在将影响此系统的可靠性,因此,随着所监测到的周边超声噪声的水平增大,可以减小对该确定的依赖。更具体地,如果所监测到的周边超声噪声的水平超过第一阈值水平,则可以完全忽略相关性的结果,或者可以不执行相关。

对于较低的干扰水平,系统的操作的调整可以包括适配相关阈值(thresholdcorrelationvalue),该相关阈值在确定所检测到的多普勒频移和所接收的话语信号的话语内容之间是否存在足够的相关性时使用,以得出存在现场说话人的证据的结论。具体地,对于低的超声干扰水平,可以使用高的相关阈值。对于较高的超声干扰水平(仍低于上面所提及的第一阈值),可以使用较低的相关阈值,以将干扰的存在会自动减小从相关器1192所获得的相关值这一事实纳入考虑。

本文所描述的以下方法可以在各种设备和系统中实施。然而,为了易于解释一个实施方案,将描述一个例示性实施例,其中实施方式发生在智能电话中。

图12例示了一个智能电话210,该智能电话210具有用于检测周边声音的麦克风212。在正常使用中,麦克风当然用于检测靠近他们的脸部握持智能电话210的用户的话语。

图13是例示智能电话210的形式的示意图。

具体地,图13示出了智能电话210的多个互连部件。将理解,智能电话210实际上将包含许多其他部件,但是以下描述对于理解本发明是足够的。

因此,图13示出了上面所提及的麦克风212。在某些实施方案中,智能电话210设置有多个麦克风212、212a、212b等。

图13还示出了存储器214,该存储器214实际上可以被设置为单个部件或多个部件。存储器214被设置用于存储数据和程序指令。

图13还示出了处理器216,该处理器216实际上也可以被设置为单个部件或多个部件。例如,处理器216的一个部件可以是智能电话210的应用处理器。

图13还示出了收发器218,该收发器218被设置用于允许智能电话210与外部网络通信。例如,收发器218可以包括用于经由wifi局域网或经由蜂窝网络建立互联网连接的电路系统。

图13还示出了音频处理电路系统220,用于根据需要对由麦克风212所检测到的音频信号执行操作。例如,音频处理电路系统220可以对音频信号进行滤波或执行其他信号处理操作。

在此实施方案中,智能电话210设置有语音生物测定功能且设置有控制功能。因此,智能电话210能够响应于来自已注册用户的口语命令来执行多种功能。生物测定功能能够区分来自已注册用户的口语命令和由一个不同的人说的相同命令。因此,本发明的某些实施方案涉及操作智能电话或具有某种语音可操作性的另一便携式电子设备,例如平板计算机或膝上型计算机、游戏控制台、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器等,其中在旨在执行口语命令的设备中执行语音生物测定功能。某些其他实施方案涉及在智能电话或其他设备上执行语音生物测定功能的系统,如果语音生物测定功能能够确认说话人是已注册用户,则智能电话或其他设备将命令传输至一个分立的设备。

在一些实施方案中,虽然在智能电话210或靠近用户的其他设备上执行语音生物测定功能,但是使用收发器218将口语命令传输至远程话语识别系统,该远程话语识别系统确定口语命令的含义。例如,话语识别系统可以位于云计算环境中的一个或多个远程服务器上。然后,基于口语命令的含义的信号被返回至智能电话210或其他本地设备。

图14是例示设备210中的话语处理系统的基本形式的框图。因此,在麦克风212处所接收的信号被传送至话语处理块230。例如,话语处理块230可以包括:语音活动检测器;说话人识别块,用于执行说话人标识过程或说话人验证过程;和/或,话语识别块,用于对信号的话语内容进行标识。话语处理块230还可以包括信号调节电路系统,诸如前置放大器、模数转换电路系统等。

在这样的系统中,系统中可能存在非线性。例如,非线性可能在麦克风212中,或者可能在话语处理块230中的信号调节电路系统中。

此电路系统中的非线性的影响是,超声音调可能混音至音频带中。

图15对此进行了示意性例示。具体地,图15示出了在超声频率范围内(即,在频率>20khz处)的两个频率f1和f2处存在干扰信号的情形,所述干扰信号由于电路非线性而混音,以在音频频率范围内(即,在约20hz和20khz之间的频率处)的频率f3处形成信号。

图16是例示分析音频信号的方法的流程图。

在步骤252中,该方法包括接收包括音频频率和非音频频率的输入声音信号。

在步骤254中,该方法包括将输入声音信号分离成音频带分量(audiobandcomponent)和非音频带分量(non-audiobandcomponent)。非音频分量可以是超声分量。

在步骤256中,该方法包括对音频带内来自非音频带的可能干扰进行标识。

标识音频带内来自非音频带分量的可能干扰可以包括:确定非音频带分量的功率水平是否超过一个阈值,且如果非音频带分量的功率水平超过一个阈值,则对音频带内来自非音频带分量的可能干扰进行标识。

替代地,对音频带内来自非音频带分量的可能干扰进行标识可以包括比较音频带分量和非音频带分量。

将输入声音信号分离成音频分量和非音频分量(诸如,超声分量)使得可以对潜在有问题的非音频带分量的存在进行标识,所述潜在有问题的非音频带分量可能会导致音频带内的干扰。由于相对高水平的背景声音信号,诸如来自超声传感器设备或调制解调器的超声信号,可能会偶然存在这种有问题信号。替代地,有问题的信号可能由恶意动作者生成,以试图干扰或欺骗话语处理系统的操作,例如,通过生成由于电路非线性而混音以形成可能会被误解为话语的音频带信号的超声信号,或者通过生成干扰处理的其他方面的超声信号。

在步骤258中,该方法包括基于对可能干扰进行的所述标识来调整下游话语处理模块的操作。

话语处理模块的操作的调整可以采取对由话语处理模块所执行的话语处理的修改的形式,或者可以采取对施加至话语处理模块的信号的修改的形式。

例如,对由话语处理模块所执行的话语处理的修改可以包括在对可能干扰进行标识的时段期间,对话语信号的依赖减少(或为零),或者警告用户存在可能干扰。

例如,对施加至话语处理模块的信号的修改可以采取试图去除干扰的影响的形式。

图17是例示设备210中的话语处理系统的基本形式的框图。如图14中所示,在麦克风212处所接收的信号被传送至话语处理块230。再次,如图14中所示,话语处理块230可以包括:语音活动检测器;说话人识别块,用于执行说话人标识过程或说话人验证过程;和/或,话语识别块,用于对识信号的话语内容进行识标。话语处理块230还可以包括信号调节电路,诸如前置放大器、模数转换电路系统等。

如关于图14所提及的,系统中可能存在非线性。例如,非线性可能在麦克风212中,或者可能在话语处理块230中的信号调节电路系统中。

在图17的系统中,所接收的信号还被传送至超声监测块262,该超声监测块262将输入声音信号分离成音频带分量和非音频带分量(所述非音频带分量可以是超声分量),且对音频带内来自非音频带分量的可能干扰进行标识。

如果对可能干扰的源进行了标识,则可以适当地修改由话语处理模块所执行的话语处理。

图18是例示设备210中的话语处理系统的基本形式的框图。在图18的系统中,在麦克风212处所接收的信号被传送至超声监测块266,超声监测块266将输入声音信号分离成音频带分量和非音频带分量(所述非音频带分量可以是超声分量),且对例如由于麦克风212中的非线性所导致的音频带内来自非音频带分量的可能干扰进行标识。

如果对可能干扰的源进行了标识,则可以适当地修改所接收的信号,然后可以将经修改的信号施加至话语处理模块230。

如图14中所示,话语处理块230可以包括:语音活动检测器;说话人识别块,用于执行说话人标识过程或说话人验证过程;和/或,话语识别块,用于对信号的话语内容进行标识。话语处理块230还可以包括信号调节电路,诸如前置放大器、模数转换电路系统等。

图19是例示一些实施方案中的超声监测块262或266的形式的框图。

在此实施方案中,从麦克风212所接收的信号被分离成音频带分量和非音频带分量。所接收的信号被传送至低通滤波器(lpf)282,例如截止频率处于或低于~20khz的低通滤波器,该低通滤波器对输入声音信号进行滤波,以获得输入声音信号的音频带分量。所接收的信号还被传送至高通滤波器(hpf)284,例如截止频率处于或高于~20khz的高通滤波器,以获得输入声音信号的非音频带分量,当高通滤波器的截止频率处于或高于~20khz时,所述非音频带分量将是超声信号。在其他实施方案中,hpf284可以由带通滤波器(例如,具有从~20khz至~90khz的通带的带通滤波器)代替。再次,当带通滤波器的通带的低频端处于或高于~20khz时,输入声音信号的非音频分量将是超声信号。

输入声音信号的非音频带分量被传送至功率水平检测块2150,该功率水平检测块2150确定非音频带分量的功率水平是否超过一个阈值。例如,功率水平检测块2150可以确定峰值非音频带(例如,超声)功率水平是否超过一个阈值。例如,可以确定峰值超声功率水平是否超过-30dbfs(相对于满量程的分贝)。这样的超声水平可能是由恶意方的攻击导致的。无论如何,如果超声功率水平超过了该阈值,则可以标识此可能由于非线性而导致音频带中的干扰。

可以基于对电路中非线性的影响的知识来设置阈值。因此,如果已知非线性的影响是值a(nl),例如40db混音,则可以为音频基带中可能影响系统操作的功率水平设置一个阈值a(bb),例如30dbspl。

然后,处于或高于a(us)的超声信号会在音频带中引起问题,其中a(us)=a(bb)+a(nl),因为非线性会导致超声信号生成高于影响系统操作的阈值的基带信号。对于上面所给出的实施例,其中a(nl)=40db且a(bb)=30dbspl,此提供了用于超声功率水平的70db的阈值。

如果确定超声功率水平超过了该阈值,则功率水平检测块2150的输出可以是一个标记,该标记将在图16的方法的步骤258中被发送至下游话语处理模块,从而控制该下游话语处理模块的操作。

图20是例示一些实施方案中的超声监测块262或266的形式的框图。

在此实施方案中,从麦克风212所接收的信号被分离成音频带分量和非音频带分量。所接收的信号被传送至低通滤波器(lpf)282,例如截止频率处于或低于~20khz的低通滤波器,该低通滤波器对输入声音信号进行滤波,以获得输入声音信号的音频带分量。所接收的信号还被传送至高通滤波器(hpf)284,例如截止频率处于或高于~20khz的高通滤波器,以获得输入声音信号的非音频带分量,当高通滤波器的截止频率处于或高于~20khz时,所述非音频带分量将是超声信号。在其他实施方案中,hpf284可以由带通滤波器(例如,具有从~20khz至~90khz的通带的带通滤波器)代替。再次,当带通滤波器的通带的低频端处于或高于~20khz时,输入声音信号的非音频带分量将是超声信号。

输入声音信号的非音频带分量被传送至功率水平比较块2160。此将音频带分量与非音频带分量进行比较。例如,在这种情况下,对音频带内来自非音频带分量的可能干扰进行标识可以包括:测量音频带分量中的信号功率pa;测量非音频带分量中的信号功率pb。然后,如果(pa/pb)小于一个阈值限制,则可以标识此可能由于非线性而导致音频带中的干扰。

在那种情况下,功率水平比较块2160的输出可以是一个标记,该标记将在图16的方法的步骤258中被发送至下游话语处理模块,从而控制该下游话语处理模块的操作。更具体地,此标记可以向话语处理模块指示输入声音信号的质量对于话语处理是不可靠的。然后,可以基于已标记的不可靠质量来控制下游话语处理模块的操作。

图21是例示一些实施方案中的超声监测块262或266的形式的框图。

从麦克风212所接收的信号被分离成音频带分量和非音频带分量。所接收的信号被传送至低通滤波器(lpf)282,例如截止频率处于或低于~20khz的低通滤波器,该低通滤波器对输入声音信号进行滤波,以获得输入声音信号的音频带分量。所接收的信号还被传送至高通滤波器(hpf)284,例如截止频率处于或高于~20khz的高通滤波器,以获得输入声音信号的非音频带分量,当高通滤波器的截止频率处于或高于~20khz时,所述非音频带分量将是超声信号。在其他实施方案中,hpf284可以由带通滤波器(例如,具有从~20khz至~90khz的通带的带通滤波器)代替。再次,当带通滤波器的通带的低频端处于或高于~20khz时,输入声音信号的非音频带分量将是超声信号。

输入声音信号的非音频带分量可以被传送至块286(所述块286对于非线性对信号的影响进行仿真),然后被传送至低通滤波器288。

然后,由低通滤波器282所生成的音频带分量以及由块286和低通滤波器288所生成的经仿真的非线性信号被传送至比较块290。

在一个实施方案中,比较块290测量音频带分量中的信号功率,测量非音频带分量中的信号功率,且计算音频带分量中的信号功率与非音频带分量中的信号功率的比率。如果该比率低于一个阈值限制,则此被认为是指示输入声音信号可能包含过高的超声水平,而无法可靠地用于话语处理。在那种情况下,比较块290的输出可以是一个标记,该标记将在图16的方法的步骤258中被发送至下游话语处理模块,从而控制该下游话语处理模块的操作。

在另一实施方案中,比较块290检测非音频带分量的信号的包络,且检测信号的包络与音频带分量之间的相关性水平。检测相关性水平可以包括测量非音频带分量的所标识的信号包络与音频带分量的话语分量之间的时域相关性。在这种情形中,某一或所有音频带分量可能是由周边声音中的超声信号导致的,所述超声信号已经被麦克风212中的非线性降频变换至音频带中。此将导致与由滤波器284所选定的非音频带分量的相关性。因此,将超过一个阈值的这种相关性的存在被认为是音频带内可能存在非音频带干扰的指示。

在那种情况下,比较块290的输出可以是一个标记,该标记将在图16的方法的步骤258中被发送至下游话语处理模块,从而控制该下游话语处理模块的操作。

在另一实施方案中,块286对于非线性对信号的影响进行仿真,以提供经仿真的非线性信号。例如,块286可能试图对系统中的非线性建模,该非线性可能通过输入声音信号的非线性降频转换而产生干扰。由块286所仿真的非线性可以是二阶非线性和/或三阶非线性。

在该实施方案中,比较块290然后检测经仿真的非线性信号和音频带分量之间的相关性水平。如果相关性水平超过一个阈值,则确定音频带内可能存在由来自非音频带的信号所造成的干扰。再次,在那种情况下,比较块290的输出可以是一个标记,该标记将在图16的方法的步骤258中被发送至下游话语处理模块,从而控制该下游话语处理模块的操作。

图22是例示一些其他实施方案中的超声监测块266的形式的框图。

从麦克风212所接收的信号被分离成音频带分量和非音频带分量。所接收的信号被传送至低通滤波器(lpf)282,例如截止频率处于或低于~20khz的低通滤波器,该低通滤波器对输入声音信号进行滤波,以获得输入声音信号的音频带分量。所接收的信号还被传送至高通滤波器(hpf)284,例如截止频率处于或高于~20khz的高通滤波器,以获得输入声音信号的非音频带分量,当高通滤波器的截止频率处于或高于~20khz时,所述非音频带分量将是超声信号。在其他实施方案中,hpf284可以由带通滤波器(例如,具有从~20khz至~90khz的通带的带通滤波器)代替。再次,当带通滤波器的通带的低频端处于或高于~20khz时,输入声音信号的非音频带分量将是超声信号。

输入声音信号的非音频带分量可以被传送至块286(块286对非线性对信号的影响进行防治),然后被传送至低通滤波器288。

在图22中所示出的实施方案的情况下,在图16的方法的步骤258中,下游话语处理模块的操作的调整包括向下游话语处理模块提供经补偿的声音信号。

提供经补偿的声音信号的步骤可以包括从音频带分量中减去经仿真的非线性信号,以提供经补偿的输出信号,然后将经补偿的输出信号提供至下游话语处理模块。

在图22的实施方案中,由块286和低通滤波器288所生成的经仿真的非线性信号被传送至另一滤波器2100。

由低通滤波器282所生成的音频带分量被传送至减法器2102,且从音频带分量中减去另一滤波器2100的输出,从而从音频带信号中去除由超声信号的降频转换所引起的任何分量。另一滤波器2100可以是自适应滤波器,且在其最简单的形式中,它可以是自适应增益。另一滤波器2100被适配为使得在经补偿的输出信号中,已滤波的经仿真的非线性信号的分量被最小化。

所得到的经补偿的音频带信号被传送至下游话语处理模块。

图23是例示一些其他实施方案中的超声监测块266的形式的框图。

在上面所例示的实施方案中,来自麦克风212的信号可以是模拟信号,且来自麦克风212的信号会被传送至模数转换器以转换成数字形式,之后被传送至相应的滤波器。但是,为了便于例示,在假定模拟-数字转换不是导致超声信号混音至音频带中的非线性源的情况下,未在图中示出模数转换器。

然而,图23示出了模数转换不理想的情形,因此图23示出了从麦克风212所接收的信号被传送至模数转换器(adc)2120。

再次,将所得到的信号分离成音频带分量和非音频带分量。所接收的信号被传送至低通滤波器(lpf)282,例如截止频率处于或低于~20khz的低通滤波器,该低通滤波器对输入声音信号进行滤波,以获得输入声音信号的音频带分量。

通常,adc的带宽必须足够大,以能够处理所接收的信号的超声分量。然而,在任何实际adc中,都将存在adc的量化噪声开始上升的频率。这对允许进入非线性的频率设置了上限。因此,图23示出了adc2120的输出并非被传送至高通滤波器,而是被传送至带通滤波器(bpf)2122。通带的下端可以例如处于~20khz,通带的上端处于不包括被量化噪声破坏的频率的频率,例如~90khz。

与在其他实施方案中一样,输入声音信号的非音频带分量可以被传送至块286(块286对于非线性对信号的影响进行仿真),然后被传送至低通滤波器288。

在图23中所示出的实施方案的情况下,在图16的方法的步骤258中的下游话语处理模块的操作的调整包括向下游话语处理模块提供经补偿的声音信号。

在此所例示的实施例中,提供经补偿的声音信号的步骤可以包括从音频带分量中减去经仿真的非线性信号,以提供经补偿的输出信号,然后将经补偿的输出信号提供至下游话语处理模块。

因此,在图23中,由低通滤波器282所生成的音频带分量被传送至减法器2102,且从音频带分量中减去由块286和低通滤波器288所生成的经仿真的非线性信号。这试图从音频信号中去除由超声信号的降频变换所引起的任何分量。

所得到的经补偿的音频带信号被传送至下游话语处理模块。

图24是例示一些其他实施方案中的超声监测块266的形式的框图,其中麦克风212或其他地方的非线性是未知的(例如,非线性的幅度和/或2阶非线性和3阶非线性的相对强度)。在这种情况下,对于非线性进行仿真的步骤包括将非音频带分量提供至自适应非线性模块,且该方法包括控制自适应非线性模块,使得在经补偿的输出信号中,经仿真的非线性信号的分量被最小化。

因此,图24示出了所接收的信号被传送至低通滤波器(lpf)282,例如截止频率处于或低于~20khz的低通滤波器,该低通滤波器对输入声音信号进行滤波,以获得输入声音信号的音频带分量。

图24示出了所接收的信号被传送至带通滤波器(bpf)2122。通带的下端可以例如处于~20khz,通带的上端处于不包括被量化噪声破坏的频率的频率,例如~90khz。

在这些实施方案中,输入声音信号的非音频带分量可以被传送至自适应块2140,该自适应块2140对于非线性对信号的影响进行仿真。块2140的输出被传送至低通滤波器288。

如之前所述,在图16的方法的步骤258中的下游话语处理模块的操作的调整包括向下游话语处理模块提供经补偿的声音信号。

更具体地,在此所例示的实施例中,提供经补偿的声音信号的步骤可以包括从音频带分量中减去经仿真的非线性信号,以提供经补偿的输出信号,然后将经补偿的输出信号提供至下游话语处理模块。

因此,在图24中,由低通滤波器282所生成的音频带分量被传送至减法器2102,且从音频带分量中减去由块2140和低通滤波器288所生成的经仿真的非线性信号。此试图从音频带信号中去除由超声信号的降频转换所引起的任何分量。

所得到的经补偿的音频带信号被传送至下游话语处理模块。

在一个实施例中,可以在块2140中利用多项式p(x)来对非线性建模,其中误差从减法器2102的输出被反馈。

最小均方算法可以更新第m个多项式项pm如下:

pm→pm+μ·ε·xm

pm→pm+μ·(x-α)·xm

一个替代型式对误差信号进行滤波:

pm→pm+μ·λ{(x-α)·xm},

其中λ是滤波函数。

例如,可以使用简单的boxcar过滤器。

上面所描述的任何实施方案都可以用在两级系统中,其中第一级对应于图19中所示出的系统。换言之,对所接收的信号进行滤波,以获得输入信号的音频带分量和非音频带(例如,超声)分量。然后,确定非音频带分量中的信号功率是低于还是高于一个阈值。如果超声带中存在低的功率水平,则此指示不太可能出现由音频信号降频转换至音频带所产生的问题。如果超声带中存在较高的功率水平,则可能出现问题,因此执行上面参考图21、22、23或24所描述的进一步处理来确定是否可能发生干扰,且必要时采取缓解措施。例如,如果所测得的非音频带分量中的信号功率水平低于一个阈值水平x,则可以将输入声音信号标记为没有非音频带干扰,且如果所测得的非音频带分量中的信号功率水平高于一个阈值水平x,则可以比较音频带分量和非音频带分量,以对音频带内来自非音频带的可能干扰进行标识。

这允许低功率操作,因为仅在非音频带分量具有高于该阈值水平的信号功率的情形中才执行比较步骤。对于具有低于这一阈值的信号功率的非音频带分量,可以假定在用于下游话语处理的输入声音信号中将不存在干扰。

本领域技术人员将认识到,上文所描述的装置和方法的一些方面可以具体化为例如位于非易失性载体介质(诸如,磁盘、cd-rom或dvd-rom、程序化存储器诸如只读存储器(固件))上或位于数据载体(诸如,光学信号载体或电信号载体)上的处理器控制代码。对于许多应用,本发明的实施方案将被实施在dsp(数字信号处理器)、asic(专用集成电路)或fpga(现场可编程门阵列)上。因此,代码可以包括常规程序代码或微代码或例如用于设立或控制asic或fpga的代码。代码还可以包括用于动态地配置可重新配置的装置(诸如,可重新编程逻辑门阵列)的代码。类似地,代码可以包括用于硬件描述语言(诸如verilogtm或vhdl(超高速集成电路硬件描述语言))的代码。如本领域技术人员将理解,代码可以被分布在彼此通信的多个经耦合的部件之间。在适当的情况下,还可以使用在现场可(重新)编程模拟阵列或类似的设备上运行以配置模拟硬件的代码来实施所述实施方案。

注意,如本文中所使用的,术语模块应被用来指代可以至少部分地由专用硬件部件(诸如,自定义电路系统)实施的功能单元或功能块,和/或至少部分地由一个或多个软件处理器或在合适的通用处理器等上运行的适当的代码实施的功能单元或功能块。模块本身可以包括其他模块或功能单元。模块可以由不需要被协同定位且可以被设置在不同的集成电路上和/或在不同的处理器上运行的多个部件或子模块来提供。

实施方案可以在主机设备中实施,尤其是便携式主机设备和/或电池供电主机设备,诸如移动计算设备(例如,膝上型计算机或平板计算机)、游戏控制台、远程控制设备、家庭自动化控制器或家用电器(包括家用温度或照明控制系统)、玩具、机器(诸如,机器人)、音频播放器、视频播放器或移动电话(例如,智能电话)。

应注意,上文所提及的实施方案例示而非限制本发明,且在不偏离随附权利要求的范围的情况下,本领域技术人员将能够设计许多替代实施方案。词语“包括”不排除除了在权利要求中所列出的那些元件或步骤之外的元件或步骤的存在,“一”或“一个”不排除多个,且单个特征或其他单元可以实现权利要求中所记载的若干单元的功能。权利要求中的任何参考数字或参考标注不应被解释为对所述权利要求范围的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1