说话人辨识的制作方法

文档序号:22188851发布日期:2020-09-11 21:59阅读:100来源:国知局
说话人辨识的制作方法

本文所描述的实施方案涉及用于分析话音信号的方法和设备。



背景技术:

许多设备包括麦克风,所述麦克风可以被用来检测周边声音。在许多情况下,周边声音包括一个或多个附近说话人的话音。可以以多种方式使用麦克风所生成的音频信号。例如,代表话音的音频信号可以被用作话音识别系统的输入,从而允许用户使用口语命令来控制设备或系统。



技术实现要素:

根据本发明的一个方面,提供了一种说话人辨识的方法,包括:

接收代表话音的音频信号;

对所述音频信号执行第一语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音;以及

如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,则对所述音频信号执行第二语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音,

其中所述第二语音生物测定过程被选择为比所述第一语音生物测定过程更具有辨别力。

在一些实施方案中,所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的错误接受率。

在一些实施方案中,所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的错误拒绝率。

在一些实施方案中,所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的等错误率。

在一些实施方案中,与所述第二语音生物测定过程相比,所述第一语音生物测定过程被选择为相对低功率的过程。

在一些实施方案中,所述方法包括基于所述第二语音生物测定过程的结果来做出关于所述话音是否是已注册说话人的话音的判定。

在一些实施方案中,所述方法包括基于所述第一语音生物测定过程的结果和所述第二语音生物测定过程的结果的融合来做出关于所述话音是否是已注册说话人的话音的判定。

在一些实施方案中,所述第一语音生物测定过程选自以下过程:基于分析话音的长期频谱的过程;使用高斯混合模型的方法;使用梅尔频率倒谱系数的方法;使用主成分分析的方法;联合因子分析过程;因子分析器的绑定混合(tiedmixtureoffactoranalyzers)过程;使用机器学习技术(诸如,深度神经网络(dnns)或卷积神经网络(cnns))的方法;以及,使用支持向量机的方法。

在一些实施方案中,所述第二语音生物测定过程选自以下过程:使用高斯混合模型的方法;神经网络过程,联合因子分析过程;因子分析器的绑定混合过程;使用机器学习技术(诸如,深度神经网络(dnns)或卷积神经网络(cnns))的方法;x-vector过程;以及,i-vector过程。

在一些实施方案中,所述第二语音生物测定过程与所述第一语音生物测定过程是不同类型的过程。换言之,所述第一语音生物测定过程可以是选自上面的第一列表的过程,而所述第二语音生物测定过程可以是选自上面的第二列表的不同过程。

在一些其他实施方案中,所述第一语音生物测定过程和所述第二语音生物测定过程可能是相同类型的过程,但是其中所述第二语音生物测定过程被配置为比所述第一语音生物测定过程更具有辨别力。例如,所述第一语音生物测定过程和所述第二语音生物测定过程可以都使用高斯混合模型,其中所述第二过程使用更多的混合。更具体地,所述第一语音生物测定过程可以是16混合的高斯混合模型,而所述第二语音生物测定过程可以是4096混合的高斯混合模型。作为另一实施例,所述第一语音生物测定过程和所述第二语音生物测定过程可以都使用深度神经网络,其中所述第二过程使用更多的权重。在这两种情况下,可能用更多的数据来训练更具有辨别力的第二过程。

在一些实施方案中,在第一设备中执行所述第一语音生物测定过程,且在远离所述第一设备的第二设备中执行所述第二语音生物测定过程。所述第一设备可以包括可穿戴设备,诸如头戴式受送话器设备、智能眼镜设备、智能手表设备。所述第二设备可以包括主机设备,诸如移动电话或平板计算机。在一些实施方案中,所述第一设备可以被设置为编解码器(codec)设备或芯片的一部分,或者可以被设置为数字麦克风设备或芯片的一部分。在一些实施方案中,所述第二设备可以被设置为中央处理器(诸如,应用处理器)的一部分,或者可以被设置为专用生物测定处理器设备或芯片的一部分。具体地,所述第一设备可以被设置为位于产品(诸如,移动电话、平板计算机、智能扬声器或家庭自动化控制器)中的编解码器设备或芯片的一部分或者数字麦克风设备或芯片的一部分,而所述第二设备被设置为位于同一产品中的中央处理器(诸如,应用处理器)的一部分或者专用生物测定处理器设备或芯片的一部分。

在本发明的一个方面,提供了一种配置为执行所述第一语音生物测定过程的第一设备,且在本发明的另一方面,提供了一种配置为执行所述第二语音生物测定过程的第二设备。

在一些实施方案中,所述方法包括:将所述第二语音生物测定过程维持在低功率状态,以及如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,则激活所述第二语音生物测定过程。通过所述第一生物测定过程对所述第二生物测定过程进行功率选通(power-gated)。这可以允许所述第一生物测定过程在设备的相对低功率区域中操作,而所述第二生物测定过程可以被设置在例如位于应用处理器或类似物中的设备的相对高功率区域中。

在一些实施方案中,所述方法包括:响应于基于所述第一语音生物测定过程的局部完成而初始确定所述话音可能是已注册用户的话音,激活所述第二语音生物测定过程;以及,响应于基于所述第一语音生物测定过程的完成而确定所述话音不是所述已注册用户的话音,去激活所述第二语音生物测定过程。

在一些实施方案中,所述方法包括:

在所接收的音频信号中检测触发短语;以及

响应于检测到触发短语,对所接收的音频信号执行所述第一语音生物测定过程。

在一些实施方案中,所述方法包括:

在所接收的音频信号中检测语音活动;以及

响应于检测到语音活动,对所接收的音频信号的至少一部分执行所述第一语音生物测定过程。

在一些实施方案中,所述方法包括:

在所接收的音频信号中检测语音活动;

响应于检测到语音活动,执行关键字检测;以及

响应于检测到关键字,对所接收的音频信号的至少一部分执行所述第一语音生物测定过程。

在一些实施方案中,所述方法包括:

对整个所接收的音频信号执行所述第一语音生物测定过程。

在一些实施方案中,所述方法包括使用所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,作为对所接收的音频信号包括话音的指示。

在一些实施方案中,所述方法包括:

执行适于确定信号是否包含已注册用户的话音的语音生物测定过程的至少一部分,且在确定所述信号包含人类话音时生成输出信号。

在一些实施方案中,所述方法包括将相似度得分与第一阈值进行比较,以确定所述信号是否包含已注册用户的话音,且将所述相似度得分与第二较低阈值进行比较,以确定所述信号是否包含话音。

在一些实施方案中,所述方法包括在确定所述信号包含人类话音之后,能够确定所述信号是否包含已注册用户的话音。

在一些实施方案中,所述第一语音生物测定过程被配置为模拟处理系统,且所述第二语音生物测定过程被配置为数字处理系统。

根据一个方面,提供了一种说话人辨识系统,包括:

一个输入,用于接收代表话音的音频信号;

第一处理器,用于对所述音频信号执行第一语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音;以及

第二处理器,用于对所述音频信号执行第二语音生物测定过程,以尝试辨识所述话音是否是所述已注册说话人的话音,

其中如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,则启动所述第二语音生物测定过程,以及

其中所述第二语音生物测定过程被选择为比所述第一语音生物测定过程更具有辨别力。

在一些实施方案中,所述说话人辨识系统还包括:

缓冲器,用于存储所接收的音频信号,且如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音时,所述缓冲器用于将所存储的所接收的音频信号供应至所述第二语音生物测定过程。

在一些实施方案中,所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的错误接受率。

在一些实施方案中,所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的错误拒绝率。

在一些实施方案中,所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的等错误率。

在一些实施方案中,与所述第二语音生物测定过程相比,所述第一语音生物测定过程被选择为相对低功率的过程。

在一些实施方案中,所述说话人辨识系统被配置用于基于所述第二语音生物测定过程的结果来做出关于所述话音是否是已注册说话人的话音的判定。

在一些实施方案中,所述说话人辨识系统被配置用于基于所述第一语音生物测定过程的结果和所述第二语音生物测定过程的结果的融合来做出关于所述话音是否是已注册说话人的话音的判定。

在一些实施方案中,所述第一语音生物测定过程选自以下过程:基于分析话音的长期频谱的过程;使用高斯混合模型的方法;使用梅尔频率倒谱系数的方法;使用主成分分析的方法;联合因子分析过程;因子分析器的绑定混合过程;使用机器学习技术(诸如,深度神经网络(dnns)或卷积神经网络(cnns))的方法;以及,使用支持向量机的方法。

在一些实施方案中,所述第二语音生物测定过程选自以下过程:神经网络过程,联合因子分析过程;因子分析器的绑定混合过程;使用机器学习技术(诸如,深度神经网络(dnns)或卷积神经网络(cnns))的方法;以及,x-vector过程或i-vector过程。

在一些实施方案中,所述说话人辨识系统包括:

第一设备;以及

第二设备,

其中,所述第一设备包括第一处理器,且所述第二设备包括第二处理器。

在一些实施方案中,所述第一设备包括第一集成电路,且所述第二设备包括第二集成电路。

在一些实施方案中,所述第一设备包括专用生物测定集成电路。

在一些实施方案中,所述第一设备是附件设备。

在一些实施方案中,所述第一设备是听音设备(listeningdevice)。

在一些实施方案中,所述第二设备包括应用处理器。

在一些实施方案中,所述第二设备是电话听筒(handset)设备。

在一些实施方案中,所述第二设备是智能电话。

在一些实施方案中,所述说话人辨识系统包括:

触发短语检测器,用于尝试检测所接收的音频信号中的触发短语,

其中所述第一处理器响应于所述触发短语检测器,且被配置为响应于检测到触发短语而对所接收的音频信号执行所述第一语音生物测定过程。

在一些实施方案中,所述说话人辨识系统包括:

语音活动检测器,用于尝试检测所接收的音频信号中的人类话音,

其中所述第一处理器响应于所述触发短语检测器,且被配置为响应于检测到语音活动,对所接收的音频信号执行所述第一语音生物测定过程。

在一些实施方案中,所述第一处理器被配置为接收整个所接收的音频信号,以用于对所述整个所接收的音频信号执行所述第一语音生物测定过程。

在一些实施方案中,所述第一语音生物测定过程被配置为模拟处理系统,且所述第二语音生物测定过程被配置为数字处理系统。

在本发明的一个方面,提供了一种如上面所限定的第一设备,所述第一设备包括所述第一处理器。

在本发明的另一方面,提供了一种如上面所限定的第二设备,所述第二设备包括所述第二处理器。

根据本发明的另一方面,提供了一种设备,所述设备包括这种系统的至少一部分。所述设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。

根据一个方面,提供了一种用于在说话人辨识系统中使用的处理器集成电路,所述处理器集成电路包括:

一个输入,用于接收代表话音的音频信号;

第一处理器,用于对所述音频信号执行第一语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音;以及

一个输出,如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,所述输出用于将所述音频信号提供至一个分立的设备。

在一些实施方案中,所述处理器集成电路还包括:

缓冲器,用于存储所接收的音频信号,且如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,所述缓冲器用于将所存储的所接收的音频信号供应至所述输出。

在一些实施方案中,所述第一语音生物测定过程选自以下过程:基于分析话音的长期频谱的过程;使用高斯混合模型的方法;使用梅尔频率倒谱系数的方法;使用主成分分析的方法;使用机器学习技术(诸如,深度神经网络(dnns))的方法;以及,使用支持向量机的方法。

在一些实施方案中,所述第一语音生物测定过程被配置为模拟处理系统。

在一些实施方案中,所述处理器集成电路还包括反欺骗块,用于对所接收的信号执行一个或多个测试,以确定所接收的信号是否具有可以指示它产生自重放攻击的特性。

优选地,所述第一处理器或对所述音频信号执行所述第一语音生物测定过程的设备被配置为对所述音频信号执行欺骗检测过程,以辨识所述音频信号是否是重放攻击的结果,

其中通过所述欺骗检测过程的输出来对所述第一语音生物测定过程的输出进行选通,使得如果检测到欺骗攻击,则阻止所述第一语音生物测定过程启动所述第二语音生物测定过程。

在一个优选的方面,所述欺骗检测过程包括相对低功率的欺骗检测过程。在一个实施例中,所述欺骗检测过程涉及分析所接收的音频信号,以检测低频功率水平(例如,低于100hz的频率的功率水平)。如果所述低频功率水平低于一个阈值水平,则这可能指示所接收的音频信号是检测到扬声器播放信号所产生的声音而不是由活人生成的话音的结果。然后,可以将所接收的音频信号标记为欺骗。

根据一个方面,提供了一种用于在说话人辨识系统中使用的处理器集成电路,所述处理器集成电路包括:

一个输入,用于接收代表话音的音频信号;

第二处理器,用于对所述音频信号执行第二语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音,其中如果在一个分立的设备上所执行的第一语音生物测定过程初始确定所述话音是已注册用户的话音,则启动所述第二语音生物测定过程,以及

其中所述第二语音生物测定过程被选择为比所述第一语音生物测定过程更具有辨别力。

在一些实施方案中,所述处理器集成电路包括判定块,用于基于所述第二语音生物测定过程的结果来做出关于所述话音是否是已注册说话人的话音的判定。

在一些实施方案中,所述处理器集成电路包括判定块,用于基于在分立的设备上所执行的所述第一语音生物测定过程的结果与所述第二语音生物测定过程的结果的融合来做出关于所述话音是否是已注册说话人的话音的判定。

在一些实施方案中,所述第二语音生物测定过程选自以下过程:神经网络过程,联合因子分析过程;因子分析器的绑定混合过程;以及,i-vector过程。

在一些实施方案中,所述第二设备包括应用处理器。

根据本发明的另一方面,提供了一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据第一方面的方法的指令。

根据本发明的另一方面,提供了一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,当由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据第一方面的方法。

根据本发明的另一方面,提供了一种语音活动检测的方法,所述方法包括执行适于确定信号是否包含已注册用户的话音的语音生物测定过程的至少一部分,且在确定所述信号包含人类话音时生成输出信号。

所述方法可以包括将相似度得分与第一阈值进行比较,以确定所述信号是否包含已注册用户的话音,以及将所述相似度得分与第二较低阈值进行比较,以确定所述信号是否包含话音。

所述方法可以包括在确定所述信号包含人类话音之后,可以确定所述信号是否包含已注册用户的话音。

根据本发明的一个方面,提供了一种用于提供说话人验证(verification)输出的说话人验证方法,包括以下步骤:

接收包括话音的音频;

对所接收的音频执行说话人验证过程,所述说话人验证过程被配置为输出:

(i)说话人id得分,代表所接收的话音来自一个具体说话人的似然度,以及

(ii)声音分类,代表所接收的话音是一个具体的声学类别的似然度;

对所接收的音频执行音频校验(validation)过程,以生成所接收的音频是有效或是无效的输出,其中所述音频校验过程至少部分地基于来自说话人验证过程的声音分类;以及

基于所述音频校验过程的输出来对所述说话人验证过程的输出进行选通,以确保所述方法仅为所接收的有效音频提供说话人验证输出。

通过使用音频有效性检查以确认所接收的音频有效来对所述说话人验证输出进行选通,确保了说话人验证结果仅被用于并非来自重放攻击或欺骗攻击的音频,附加地或替代地,确保了在说话人验证中使用的所接收的音频来自同一说话人,而不是来自竞争(combative)攻击或跟随进入(tail-gating)攻击。通过在所述音频校验过程中使用来自所述说话人验证过程的声音分类输出,可以相应地使这种音频校验过程所需要的资源最小化,且减少相关的延时。

应理解,如果所述说话人id得分满足一预定条件(例如,说话人概率得分或对数似然比超过一预定概率阈值,或者说话人距离得分低于一预定距离阈值),则相应地所述说话人验证方法可以输出对所接收的音频是由所辨识出的说话人说出的指示。

在一方面,所述说话人验证输出包括基于由所述说话人验证过程所输出的说话人id得分,对所接收的音频是由所辨识出的说话人说出的指示。应理解,如果所述说话人id得分满足一预定条件(例如,说话人概率得分超过一预定概率阈值或对数似然比,或者说话人距离得分低于一预定距离阈值),则相应地所述方法可以基于所满足的条件来生成所述说话人验证输出。

在一个附加的或替代的方面,可以提供由所述说话人验证过程所输出的所述说话人id得分作为所述方法的所述说话人验证输出。还应理解,可以结合所述说话人id得分来输出对所辨识出的说话人的这种指示。

所述声音分类应被理解为对所接收的音频中存在的声学类别(例如,声音混合物、音位(phonemes)、音素(phones)、多元音素(senones)等)的指示。

在一个优选方面,所述音频校验过程附加地至少部分地基于来自所述说话人验证过程的说话人id得分。

优选地,执行音频校验过程的步骤包括:

基于所接收的音频和所述声音分类执行反欺骗(as)过程。

所述反欺骗过程包括确定对所述说话人验证方法的重放攻击或演示攻击(presentationattack)的概率。

在共同未决的美国专利申请号16/050593中可以找到使用所接收的音频和对话音中存在的声学类别的指示的反欺骗过程的实施例,该美国专利申请的内容通过引用纳入本文中。

此外,反欺骗过程可以包括:

基于超声功率水平的反欺骗系统,例如在共同未决的美国专利申请号62/571944、62/572016、15/980491中所描述的反欺骗系统,所述美国专利申请的内容通过引用纳入本文中;

基于磁功率水平的反欺骗系统,例如在共同未决的美国专利申请号16/020406、16/018795中所描述的反欺骗系统,所述美国专利申请的内容通过引用纳入本文中;

基于扬声器检测的反欺骗系统,例如在共同未决的美国专利申请号62/571959、62/585721、62/585660、62/571978、16/017072中所描述的反欺骗系统,所述美国专利申请的内容通过引用纳入本文中。

在执行多个不同的反欺骗过程的实施方案中,应理解,可以将这些不同的反欺骗过程的输出进行组合或融合,以提供反欺骗判定。在组合或融合输出的情况下,可以为不同过程的输出值提供不同的权重,以解释诸如使用情况或环境、设备特性等因素。

优选地,执行音频校验过程的步骤包括:

基于以下中的至少一个或多个的组合来执行说话人改变检测(scd)过程:说话人id得分;声音分类;所接收的音频。

优选地,所述scd过程是基于加时间窗的说话人id得分,诸如在共同未决的美国专利申请号16/122033中所描述的加时间窗的说话人id得分,该美国专利申请的内容通过引用纳入本文中。可以从对所接收的音频的逐帧评分所导出的统计数据来执行所述scd过程。

附加地或替代地,所述scd过程可以包括:

监测所接收的音频的基频或f0的改变;

监测由所述声音分类所辨识出的所接收的音频的声学类别的分布的改变;

监测由所述声音分类所辨识出的所接收的一个具体声学类别的音频的基频的改变;

重音跟踪(accenttracking);

情绪跟踪(emotiontracking);

任何其他合适的说话人改变检测方法,诸如(ajmera,jitendra&mccowan,lain&bourlard,herve.(2004).robustspeakerchangedetection.signalprocessingletters,ieee.11.649-651.10.1109/lsp.2004.831666)中所描述的。

所述scd过程限定用于处理所接收的音频的精确边界,且阻止所述说话人验证方法被竞争攻击或跟随进入攻击利用。

在执行多个不同的scd过程的实施方案中,应理解,可以将这些不同的scd过程的输出进行组合或融合,以提供scd判定。在组合或融合所述输出的情况下,可以为不同过程的输出值提供不同的权重,以解释诸如使用情况或环境、设备特性等因素。

在一些实施方案中,所述scd过程的输出可以被用作所述说话人验证过程的输入,其中所述scd过程的输出限定了所接收的音频中应当执行说话人验证过程的那部分。例如,如果所述scd过程逐帧地分析说话人得分以确定说话人改变的点,则scd输出可以限定待处理的帧的总范围以确定最终说话人id得分,因为已经确定了所有这些帧都是由同一说话人说出的。

优选地,所述方法还包括以下步骤:

缓存所接收的音频;以及

响应于对所述说话人验证过程的输出进行选通的步骤,输出有效的说话人识别输出和所缓存的音频。

通过将所接收的音频与有效的说话人识别输出一起输出,可以相应地执行对所接收的音频的进一步处理,且初始确定所接收的音频是一个具体说话人的音频。这样的附加处理可以包括所接收的音频的话音识别以在命令处理中使用,或者可以使用例如用于相对高安全性操作的更具有辨别力的说话人识别过程来处理所接收的音频。

优选地,执行说话人识别过程的步骤包括:

执行多个不同的说话人识别过程,以提供相应的多个说话人识别得分,以及

融合所述多个说话人识别得分,以提供所述说话人id得分。

通过执行许多不同的说话人识别过程且融合结果,可以相应地提供更精确的总体说话人id得分。

优选地,不同的说话人识别过程被选择为在这些途径之间具有低的相关性,从而由于所使用的过程之间低的互相关性,相应的说话人识别得分的融合提供了改善的或更精确的说话人id得分。

优选地,所述说话人识别过程包括以下中的一项或多项:

基于高斯混合模型(gmm)的方法;

基于联合因子分析(jfa)的方法;

基于跟踪说话人的基频的说话人识别过程,例如如在共同未决的美国专利申请号62/728421中所描述的,该美国专利申请的内容通过引用纳入本文中;

基于机器学习或深度神经网络的过程(ml-dnn)。

优选地,执行说话人识别过程的步骤包括以下步骤:

执行对所接收的音频的分类以辨识声音分类,所述声音分类辨识所接收的音频中存在的声学类别;以及

基于所辨识出的声音分类,对照所存储的由已注册说话人所产生的声学类别的模板对所接收的音频进行评分,以从已注册说话人中辨识所接收的音频的说话人。

所述评分可以包括距离计算、概率度量、对数似然比或在说话人识别中使用的任何合适的评分技术,例如,如在“fundamentalsofspeakerrecognition,”homayoonbeigi.isbn:978-0-387-77592-0中所描述的。

优选地,所述方法包括以下步骤:

对所接收的音频执行特征提取,且其中对所接收的音频的特征提取型式执行所述执行说话人识别过程的步骤。

优选地,响应于接收到触发信号(例如,关键字检测),执行所述执行说话人识别过程的步骤。

优选地,所述方法包括监测触发信号的步骤,例如执行语音关键字检测过程。

替代地,针对所有所接收的音频连续地执行所述执行说话人识别过程的步骤。

在这样的实施方案中,优选地,所述方法包括以下步骤:响应于触发检测(诸如,关键字检测),从所述说话人验证过程生成输出。

替代地,在这样的实施方案中,对所述说话人验证过程的输出进行选通的步骤基于或响应于触发检测,诸如关键字检测。

进一步,提供了一种说话人识别方法,包括以下步骤:

执行上面所描述的方法步骤中的至少一部分作为初级生物测定评分的一部分;以及

基于所接收的音频来执行次级生物测定评分,以提供第二说话人id得分,响应于所接收的来自所述初级生物测定评分的有效音频对说话人验证输出进行选通的步骤,执行所述次级生物测定评分,

其中所述次级生物测定评分被选择为不同于所述初级生物测定评分。

使用这样的两级生物测定评分系统允许所述初级生物测定评分是相对低功率的和/或始终开启(always-on)的解决方案,而所述次级生物测定评分可以是相对高功率的和/或偶尔触发的解决方案,或者通过所述初级生物测定评分来进行功率选通的解决方案。可以将所述第二说话人id得分输出为简单标记,以辨识理论上经验证的说话人,或者可以适当地将所述第二说话人id得分输出为概率值或距离度量。可以在共同未决的美国专利申请号15/877660中找到关于纳入这样的初级生物测定评分和次级生物测定评分的适当方法的进一步细节,该美国专利申请的内容通过引用纳入本文中。所述初级生物测定评分可以作为相对低功率的系统(例如,始终开启系统)的一部分来执行。

优选地,所述方法包括以下步骤:将来自所述初级生物测定评分的说话人id得分与所述次级生物测定评分的第二说话人id得分进行融合,以提供说话人认证结果。

优选地,所述说话人识别方法被配置为:

所述初级生物测定评分被选择为具有相对高的错误接受率(far)和相对低的错误拒绝率(frr)。

优选地,所述次级生物测定评分被选择为具有相对低的far。

通过选择具体的生物测定技术来提供这种性能,和/或通过将所述初级生物测定评分系统和次级生物测定评分系统调整到此效果,初级得分和次级得分的最终融合相应地产生具有经组合的低far和frr得分的鲁棒的说话人识别途径。

还提供了一种用于实现上面的方法的步骤的系统。

优选地,提供一种用于提供说话人验证输出的说话人验证系统,所述系统包括:

一个输入,用于接收包括话音的音频信号;

与所述输入耦合的说话人验证模块,所述说话人验证模块被布置为处理所述音频信号,以提供:

(i)说话人id得分,代表所接收的话音来自一个具体说话人的似然度,以及

(ii)声音分类,代表所接收的话音是一个具体的声学类别的似然度;

与所述输入和所述说话人验证模块耦合的音频验证模块,所述音频验证模块被布置为生成所接收的音频是有效或是无效的输出,所述输出至少部分地基于由所述说话人验证模块所提供的声音分类;以及

选通模块,被配置为基于所述音频验证模块的输出来对所述说话人验证模块的输出进行选通,以使得所述说话人验证系统仅为所接收的有效音频提供说话人验证输出。

在另一方面,提供了一种多级说话人验证系统,所述系统包括:

一个输入,用于接收包括话音的音频信号;

包括第一处理器的第一设备,所述第一设备包括上面所描述的说话人验证系统,所述第一设备被布置为基于所接收的音频信号来提供第一说话人验证输出;以及

包括第二处理器的第二设备,所述第二设备与所述第一设备耦合,所述第二设备被配置为基于所接收的音频信号执行次级生物测定评分,以提供第二说话人验证输出,且响应于接收到来自所述第一设备的第一说话人验证输出而执行所述次级生物测定评分,

其中所述次级生物测定评分被选择为比所述初级生物测定评分更具有辨别力、不同于所述初级生物测定评分或比所述初级生物测定评分更精确。

优选地,所述系统进一步包括融合模块,其中所述融合模块被布置为融合所述第一说话人验证输出和所述第二说话人验证输出,以提供经融合的说话人验证输出。

优选地,所述第一设备被设置为第一集成电路,且所述第二设备被设置为第二集成电路。在一些实施方案中,所述第一设备可以被设置为编解码器(codec)设备或芯片的一部分,或者数字麦克风设备或芯片的一部分。通过将所述第一设备设置在编解码器中或设置为数字麦克风的一部分,可以相应地在音频被系统接收时对音频执行第一生物测定过程,且可以降低由于转换损耗、带宽限制等所导致的音频失真的风险,和/或通过减少接收音频的点与执行第一生物测定过程的点之间的可能的攻击向量,减少对音频流的恶意攻击的风险。在一些实施方案中,所述第二设备可以被设置为中央处理器(诸如,应用处理器)的一部分,或者设置为专用生物测定处理器设备或芯片的一部分。

优选地,所述第一设备被设置为相对低功率的始终开启的设备,且所述第二设备被设置为相对高功率的偶尔触发的设备,优选地通过所述第一设备进行功率选通的设备。

优选地,所述第一设备与所述第二设备通信耦合。优选地,所述第一设备和所述第二设备被设置为同一系统的元件,例如移动电话或平板计算机的部件。

所述第一设备可以至少部分地经由无线连接与所述第二设备通信耦合。例如,所述第一设备可以被设置在头戴式受送话器系统中,所述头戴式受送话器系统与设置在主机系统(诸如,移动电话)中的所述第二设备无线地耦合。

在本发明的一个方面,提供了所述多级说话人验证系统的第一设备,其中所述第一设备设置有用于与所述第二设备有线连接或无线连接的输出。

在本发明的另一方面,提供了所述多级说话人验证系统的第二设备,其中所述第二设备设置有用于与所述第一设备有线连接或无线连接的输入。

在另一方面,所述第一语音生物测定过程可以被任何其他合适的生物测定过程(例如,耳朵生物测定过程)代替。应理解,以上细节可以等同地应用于所述第一语音生物测定过程被任何其他合适的生物测定过程代替的实施方案。

优选地,提供了一种用户辨识的方法,包括:

接收代表接近用户的耳朵所接收的声学响应的第一声学信号;

对所述第一声学信号执行耳朵生物测定过程,以尝试辨识所述声学响应是否指示已注册用户的耳朵;

接收代表话音的第二音频信号;以及

如果所述耳朵生物测定过程初始确定所述音频响应指示已注册用户的耳朵,则对所述第二音频信号执行语音生物测定过程,以尝试辨识所述话音是否是所述已注册用户的话音。

所述耳朵生物测定过程可以被用来对所述语音生物测定过程进行功率选通。所述耳朵生物测定过程将不同于所述语音生物测定过程,从而提供个体辨别结果。优选地,可以将所述耳朵生物测定过程的输出和所述语音生物测定过程的输出进行组合或融合,以提供用于辨识用户的输出。在这样的实施方案中,应理解,可以在诸如头戴式受送话器或耳机的设备中执行所述耳朵生物测定过程,而在同一设备中或者在经耦合的主机设备(例如,移动电话的电话听筒)中执行所述语音生物测定过程。替代地,可以在同一主机设备(例如,移动电话的电话听筒)中执行所述耳朵生物测定过程和所述语音生物测定过程。应理解,所述第一声学信号可以包括超声音频信号(例如,处于18khz至48khz的区域中)和/或可听音频信号。可以在共同未决的美国专利申请号16/118950中找到具有耳朵生物测定过程和语音生物测定过程这二者的系统以及附加地这些过程的输出被融合的系统的一个实施例,该美国专利申请的内容通过引用纳入本文中。

优选地,所述语音生物测定过程被选择为比所述耳朵生物测定过程更具有辨别力。从更具有辨别力来看,此可以包括所述语音生物测定过程更精确,或者需要更多处理资源来提供更精确的结果。

进一步,提供了一种用于用户辨识的系统,包括:

包括第一处理器的第一设备,所述第一设备被配置为接收代表接近用户的耳朵所接收的声学响应的第一声学信号,且还被配置为对所述第一声学信号执行耳朵生物测定过程,以尝试辨识所述声学响应是否指示已注册用户的耳朵,从而提供第一用户验证输出;以及

包括第二处理器的第二设备,所述第二设备与所述第一设备耦合,所述第二设备被配置为接收代表话音的第二音频信号,且进一步被配置为基于所述第二音频信号来执行语音生物测定过程,以提供第二用户验证输出,且所述第二设备响应于接收到来自所述第一设备的第一用户验证输出,执行所述语音生物测定评分,

其中所述语音生物测定评分被选择为不同于耳朵生物测定评分。

优选地,在上面所描述的方法中的任一个中,所述方法还包括以下步骤:

在初始确定之后,继续对所述音频信号执行所述第一语音生物测定过程,以提供所述话音是否是已注册用户的话音的进一步确定;以及

其中通过所述第一语音生物测定过程的进一步确定来对所述第二语音生物测定过程的输出进行选通。

通过在初始辨识说话人之后继续执行所述第一生物测定过程,相应地可以推测性地启动所述第二生物测定过程,之后所述第一生物测定过程做出关于所述话音是否是已注册用户的话音的进一步确定或最终确定。通过推测性地启动所述第二过程,相应地存在总体系统延时的相应减少。通过基于初级过程的进一步确定或最终确定来对所述第二过程的输出进行选通,相应地保留了整个系统的精确性。

优选地,在上面所描述的系统中的任一个中,所述系统被布置为:

包括所述第一处理器的第一设备被配置为在所述初始确定之后继续对所述音频信号执行所述第一语音生物测定过程,以提供所述话音是否是已注册用户的话音的进一步确定;以及

其中包括所述第二处理器的第二设备被配置为使得通过所述第一语音生物测定过程的进一步确定来对所述第二语音生物测定过程的输出进行选通。

附图说明

为了更好地理解本发明,且为了示出如何实施本发明,现在将参考附图,在附图中:

图1例示了一个示例智能电话;

图2是例示智能电话的形式的示例示意图;

图3是例示分析音频信号的方法的示例流程图;

图4是例示用于分析音频信号的系统的示例框图;

图5是例示用于分析音频信号的替代系统的示例框图;

图6是例示用于分析音频信号的替代系统的示例框图;

图7例示了图3的方法的示例使用;

图8例示了图3的方法的第二示例使用;

图9是例示用于分析音频信号的另一系统的示例框图;

图10是例示用于分析音频信号的另一系统的示例框图;

图11是例示用于分析音频信号的另一系统的示例框图;

图12是例示本发明的优选实施方式的示例框图;

图13是例示图12的系统的第一部分的一个实施方案的示例框图;

图14是例示图12的系统的第二部分的一个实施方案的示例框图;

图15是例示图12的系统的第三部分的一个实施方案的示例框图;

图16是例示由图12的系统所实施的方法的一个实施方案的示例流程图;

图17是用于顺序说话人验证系统和用于推测性启动说话人验证系统的系统输出的示例曲线图;

图18例示了根据另一实施方案的系统的一个实施方案;以及

图19例示了根据另一实施方案的系统的一个实施方案。

具体实施方式

下面的描述阐述了根据此公开内容的示例实施方案。对于本领域普通技术人员而言,其他示例实施方案和实施方式将是显而易见的。此外,本领域普通技术人员将认识到,可以代替下面所讨论的实施方案或与下面所讨论的实施方案结合地应用多种等同技术,且所有这样的等同物应被认为是本公开内容所涵盖的。

本文所描述的方法可以被实施在各种各样的设备和系统中。然而,为了易于解释一个实施方案,将描述一个例示性实施例,其中实施方式发生在智能电话中。

图1例示了包括该系统的设备的一个实施例,即智能电话10,该智能电话10具有用于检测周边声音的麦克风12。在正常使用中,麦克风当然用于检测靠近他们的脸部握持智能电话10的用户的话音。

图2是例示智能电话10的形式的示意图。

具体地,图2示出了智能电话10的多个互连部件。应理解,智能电话10实际上将包含许多其他部件,但是以下描述对于理解本公开内容的实施方案是足够的。

因此,图2示出了上面所提及的麦克风12。在某些实施方案中,智能电话10设置有多个麦克风12、12a、12b等。

图2还示出了存储器14,该存储器14实际上可以被设置为单个部件或多个部件。存储器14被设置用于存储数据和程序指令。

图2还示出了处理器16,该处理器16实际上再次可以被设置为单个部件或多个部件。例如,处理器16的一个部件可以是智能电话10的应用处理器。

图2还示出了收发器18,该收发器18被设置用于允许智能电话10与外部网络通信。例如,收发器18可以包括用于经由wifi局域网或经由蜂窝网络建立互联网连接的电路系统。

图2还示出了音频处理电路系统20,用于根据需要对由麦克风12所检测到的音频信号执行操作。例如,音频处理电路系统20可以对音频信号进行滤波,或执行其他信号处理操作。

在此实施方案中,智能电话10设置有语音生物测定功能且设置有控制功能。因此,智能电话10能够响应于来自已注册用户的口语命令来执行多种功能。生物测定功能能够在来自已注册用户的口语命令和由一个不同的人所说出的相同命令之间进行区分。因此,本公开内容的某些实施方案涉及操作智能电话或具有某种语音可操作性的另一便携式电子设备,例如平板计算机或膝上型计算机、游戏控制台、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器等,其中在旨在执行口语命令的设备中执行语音生物测定功能。某些其他实施方案涉及在智能电话或其他设备上执行语音生物测定功能的系统,如果语音生物测定功能能够确认说话人是已注册用户,则智能电话或其他设备随后将命令传输至一个分立的设备。

在一些实施方案中,虽然在智能电话10或靠近用户定位的其他设备上执行语音生物测定功能,但是使用收发器18将口语命令传输至远程话音识别系统,该远程话音识别系统确定口语命令的含义。例如,话音识别系统可以位于云计算环境中的一个或多个远程服务器上。然后,基于口语命令的含义的信号被返回至智能电话10或其他本地设备。

在其他实施方案中,在智能电话10或靠近用户定位的其他设备上执行语音生物测定功能的第一部分。然后,如下面更详细描述的,可以使用收发器18将信号传输至远程系统,该远程系统执行语音生物测定功能的第二部分。

例如,话音识别系统可以位于云计算环境中的一个或多个远程服务器上。然后,基于口语命令的含义的信号被返回至智能电话10或其他本地设备。

本文所描述的方法出于对用户话音的不同部分具有不同的特性的认识。

具体地,已知的是,话音可以被划分为浊音声音和清音声音或无声声音。浊音声音是说话人的声带振动的声音,而无声声音是说话人的声带不振动的声音。

现在已经认识到,浊音声音和清音声音具有不同的频率特性,且这些不同的频率特性可以被用来获得关于话音信号的有用信息。

图3是例示分析音频信号的方法的流程图,以及图4和图5是例示分析系统中的功能块的框图。

具体地,在图3的方法的步骤60中,响应于所检测到的声音,通过图4和图5中所示出的系统的麦克风12生成预期包含话音的音频信号。应理解,麦克风12可以由能够响应于所检测到的声音而提供音频信号的任何合适的音频收发器来提供。例如,这可以包括被配置作为麦克风操作的扬声器、被配置用于接收声音的表面音频收发器(surfaceaudiotransceiver)等。

例如,可以预期音频信号包含先前已在说话人识别系统中注册的特定说话人的话音。在那种情况下,所述方法的目的可以是确定说话的人是否确实是已注册说话人,从而确定是否应当执行由该人所说的任何命令。

由麦克风12所生成的信号被传送至预处理块80。通常,从麦克风12所接收的信号是模拟信号,且预处理块80包括用于将信号转换成数字形式的模数转换器。同样在预处理块80中,所接收的信号可以被划分成例如可能具有处于10ms至100ms范围内的长度的帧,然后被传送至语音活动检测块。然后,从预处理块80输出被认为包含话音的帧。在其他实施方案中,考虑了话音的不同声学类别。在那种情况下,例如,从预处理块80输出被认为包含浊音话音的帧。

在一些情况下,话音处理系统是触发依赖系统(trigger-phasesystem)。在这种情况下,确定所检测到的话音是否包含用户必须说出以将系统从低功率模式中唤醒的预定触发短语(诸如,“hellophone”等)。仅当已经检测到触发短语时,才从预处理块80输出被认为包含浊音话音的帧。因此,在此情况下,存在语音活动检测步骤;如果检测到语音活动,则启动语音关键字检测(触发短语检测)过程;以及,仅当检测到语音活动时且仅当检测到关键字(触发短语)时,才从预处理块80输出音频信号。

在其他情况下,话音处理系统不依赖于触发短语的使用。在这种情况下,从预处理块80输出被认为包含浊音话音的所有帧。

从预处理块80所输出的信号被传送至第一语音生物测定块(vbio1)82,且在图3所示出的过程的步骤62中,对音频信号执行第一语音生物测定过程。如语音生物测定过程的常规做法一样,在图3所示出的过程的步骤64中,此尝试辨识话音是否是已注册说话人的话音。

如果在第一语音生物测定块82中所执行的第一语音生物测定过程确定话音不是已注册说话人的话音,则过程转至步骤66,且结束。此后的任何话音都可以被忽略,直至当存在证据表明不同的人已经开始说话时为止。

从预处理模块80所输出的信号还被传送至缓冲器83,该缓冲器83的输出被连接至第二语音生物测定块(vbio2)84。如果在图3所示出的过程的步骤64中,第一语音生物测定过程已经临时或初始确定话音可能是已注册说话人的话音,则激活第二语音生物测定块84。

然后,在图3所示出的过程的步骤68中,对缓冲器83中所存储的音频信号执行第二语音生物测定过程。再次,此第二生物测定过程尝试辨识该话音是否是已注册说话人的话音。

在步骤68中所执行的第二语音生物测定过程被选择为比在步骤62中所执行的第一语音生物测定过程更具有辨别力。

例如,术语“更具有辨别力”可以意味着,第二语音生物测定过程被配置为具有比第一语音生物测定过程更低的错误接受率(far)、更低的错误拒绝率(frr)或更低的等错误率(eer)。

在一些实施方案中,在第一语音生物测定块82中所执行的第一语音生物测定过程被配置为具有相对高的错误接受率(far)和相对低的错误拒绝率(frr),而在第二语音生物测定块84中所执行第二语音生物测定过程被配置为具有相对低的far。例如,在第一语音生物测定块82中所执行的第一语音生物测定过程可以被配置为具有大于5%,例如8%-12%,特别是10%的far;以及可以被配置为具有小于3%,例如0.5%-2%,特别是1%的frr。例如,在第二语音生物测定块84中所执行的第二语音生物测定过程可以被配置为具有小于0.1%,例如0.005%-0.05%,特别是0.01%(1/10000)的far;以及可以被配置为具有大于3%,例如3%-8%,特别是5%的frr。

因此,与第二语音生物测定过程相比,第一语音生物测定过程可以被选择为相对低功率和/或相对低计算成本的过程。这意味着,第一语音生物测定过程可以对所有所检测到的话音运行,而较高功率和/或较高计算成本的第二语音生物测定过程可以保持在低功率或非活动状态,且仅当第一过程已经表明话音是已注册说话人的话音的概率高时才被激活。在一些其他实施方案中,在第一语音生物测定过程是适当的低功率过程的情况下,可以在不使用预处理块80中的语音活动检测块的情况下使用第一语音生物测定过程。在那些实施方案中,从预处理块80输出所有帧(或被认为包含明显信号电平的所有帧)。相比于对整个音频信号运行专用语音活动检测器且之后对音频信号中包含话音的帧运行第一语音生物测定过程,这适用于当认为第一语音生物测定过程对整个音频信号运行第一语音生物测定过程是更优选时。

在一些实施方案中,当第一语音生物测定过程已经完成且已经基于整体话音片段临时或初始确定话音可能是已注册说话人的话音时,激活第二语音生物测定块84。

在其他实施方案中,为了减少系统的延时,在第一语音生物测定过程已经完成之前,激活第二语音生物测定块84。在那些实施方案中,临时或初始确定可以基于话音片段的初始部分,或者替代地可以基于与整体话音片段有关的局部计算。此外,在这种情况下,如果通过第一语音生物测定过程最终确定话音是已注册说话人的话音的概率相对低,则去激活第二语音生物测定块84。

例如,第一语音生物测定过程可以是选自以下组的语音生物测定过程,该组包括:基于分析话音的长期频谱的过程,如英国专利申请no.1719734.4中所描述的;使用简单的高斯混合模型(gmm)的方法;使用梅尔频率倒谱系数(mfcc)的方法;使用主成分分析(pca)的方法;联合因子分析过程;因子分析器的绑定混合过程;使用机器学习技术(诸如,深度神经网络(dnns)或卷积神经网络(cnns))的方法;以及,使用支持向量机(svm)的方法;等等。

例如,第二语音生物测定过程可以是选自以下组的语音生物测定过程,该组包括:神经网络(nn)过程;联合因子分析(jfa)过程;因子分析器的绑定混合(tmfa);使用机器学习技术(诸如,深度神经网络(dnns)或卷积神经网络(cnns))的方法;以及,i-vector过程或x-vector过程;等等。

在一些其他实施方案中,第一语音生物测定过程和第二语音生物测定过程可以是相同类型的过程,但是第二语音生物测定过程被配置为比第一语音生物测定过程更具有辨别力。例如,第一语音生物测定过程和第二语音生物测定过程可能都使用高斯混合模型,其中第二过程使用更多的混合。更具体地,第一语音生物测定过程可以是16混合的高斯混合模型,而第二语音生物测定过程可以是4096混合的高斯混合模型。作为另一实施例,第一语音生物测定过程和第二语音生物测定过程可能都使用深度神经网络,其中第二过程使用更多的权重。在这两种情况下,可能用更多的数据来训练第二更具有辨别力的过程。

在一些实施例中,第一语音生物测定过程可以被配置为模拟处理生物测定系统,而第二语音生物测定过程可以被配置为数字处理生物测定系统。

图6是例示在那种情况下的分析系统中的功能块的框图。

如在图4和图5中,由麦克风12响应于所检测到的声音而生成预期包含话音的音频信号。

如之前,可以例如预期音频信号包含先前已在说话人识别系统中注册的特定说话人的话音。在那种情况下,该方法的目的可以是确定说话的人是否确实是已注册说话人,从而确定是否应当执行该人所说的任何命令。

由麦克风12所生成的信号被传送至第一语音生物测定块,该第一语音生物测定模块在此实施方案中是模拟处理电路(vbio1a)120,该第一语音生物测定模块是使用电阻器、电感器、运算放大器等构建的计算电路。此对音频信号执行第一语音生物测定过程。如语音生物测定过程的常规做法一样,此尝试辨识(如图3中所示出的过程的步骤64中)话音是否是已注册说话人的话音。

如果在第一语音生物测定块120中所执行的第一语音生物测定过程确定该话音不是已注册说话人的话音,则该过程结束。此后的任何话音都可以被忽略,直至当存在证据表明不同的人已经开始说话时为止。

分立地,由麦克风12所生成的信号被传送至预处理模块,该预处理模块至少包括模数转换器(adc)122,用于将信号转换成数字形式。预处理块还可以将所接收的信号划分成例如可能具有处于10ms至100ms范围内的长度的帧。

从包括模数转换器122的预处理块所输出的信号被传送至缓冲器124,该缓冲器124的输出被连接至第二语音生物测定块(vbio2)84。如果第一语音生物测定过程临时或初始确定该话音可能是已注册说话人的话音,则激活第二语音生物测定块84,且将缓冲器124中所存储的数据的相关部分输出至第二语音生物测定块84。

然后,对缓冲器124中所存储的音频信号的相关部分执行第二语音生物测定过程。再次,此第二生物测定过程尝试辨识该话音是否是已注册说话人的话音。

第二语音生物测定过程被选择为比第一语音生物测定过程更具有辨别力。

例如,术语“更具有辨别力”可以意味着,第二语音生物测定过程被配置为具有比第一语音生物测定过程更低的错误接受率(far)、更低的错误拒绝率(frr)或更低的等错误率(eer)。

模拟的第一语音生物测定过程通常将使用模拟计算电路系统,因此,与第二语音生物测定过程相比,模拟的第一语音生物测定过程通常将是相对低功率的过程。此意味着,第一语音生物测定过程可以对被认为包含明显的信号电平的所有信号运行,而不需要分立的语音活动检测器。

如上面所提及的,在一些实施方案中,当第一语音生物测定过程已经完成且已经基于整体话音片段临时或初始确定话音可能是已注册说话人的话音时,激活第二语音生物测定块84。在其他实施方案中,为了减少系统的延时,在第一语音生物测定过程已经完成之前,激活第二语音生物测定块84。在那些实施方案中,临时或初始确定可以基于话音片段的初始部分,或者替代地可以基于与整体话音片段有关的局部计算。此外,在这种情况下,如果通过第一语音生物测定过程最终确定话音是已注册说话人的话音的概率相对低,则去激活第二语音生物测定块84。

例如,第二语音生物测定过程可以是选自如下组的语音生物测定过程,该组包括:神经网络(nn)过程;联合因子分析(jfa)过程;因子分析器的绑定混合(tmfa);使用机器学习技术(诸如,深度神经网络(dnns)或卷积神经网络(cnns))的方法;以及,i-vector过程或x-vector过程;等等。

如上面参考图4、图5和图6所描述的,第一语音生物测定过程初始尝试辨识话音是否是已注册说话人的话音。如果该过程确定该话音是已注册说话人的话音的概率充分高,则第二语音生物测定过程尝试辨识该话音是否是已注册说话人的话音。

如图4中示出的,一种可能性是来自第二语音生物测定过程84的输出被传送至判定块86,该判定块86判定是否接受该话音是已注册说话人的话音。例如,第二语音生物测定过程84可以生成似然度得分,且判定块86可以将该似然度得分与一个阈值进行比较,其中该阈值潜在地基于所需的安全性水平来设置。因此,在低安全性的应用中,阈值可以被设置得低,确保低的错误拒绝率但是具有增大的错误接受率。在较高安全性的应用中,阈值可以被设置得高,确保低的错误接受率,但是具有增大的错误拒绝率。然而,如上文所述,第二语音生物测定过程84可能是相对高计算成本的过程,因此在任何情况下,错误接受率和错误拒绝率(或等错误率)的组合会更好,相比于从第一语音生物测定过程可以获得的错误接受率和错误拒绝率(或等错误率)的组合。

如图5和图6中示出的,一种替代的可能性是将来自第一语音生物测定过程82、120和来自第二语音生物测定过程84的输出都传送至融合和判定块90。在图6所示出的实施方案的情况下,取决于从模拟计算过程120所输出的结果信号的形式,此信号可以被传送至模数转换器(adc)126,以在将信号传送至融合和判定块90之前将该信号转换成数字形式。融合和判定块90组合来自两个过程的得分,且判定是否接受该话音是已注册说话人的话音。

例如,利用由第一语音生物测定过程82所生成的得分s1和由第二语音生物测定过程所生成的得分s2,经组合的得分st可以是这两个得分的加权和,即:

st=αs1+(1-α)s2。

替代地,融合和判定块90可以组合来自这两个过程的判定,且判定是否接受话音是已注册说话人的话音。

例如,利用由第一语音生物测定过程82所生成的得分s1和由第二语音生物测定过程所生成的得分s2,确定s1是否超出与第一语音生物测定过程82相关的第一阈值th1,以及s2是否超出与第二语音生物测定过程有关的第二阈值th2。然后,如果这两个得分都超过相应的阈值,则融合和判定块90可以判定接受该话音是已注册说话人的话音。

组合这两个生物测定过程的结果意味着,该判定可以基于更多的信息,因此可能的是,与分立地使用任一过程可以实现的等错误率相比,该判定实现更低的等错误率。

如上文所述,第一语音生物测定过程和第二语音生物测定过程都可以在诸如智能电话10的设备中执行。然而,在其他实施例中,第一语音生物测定过程和第二语音生物测定过程可以在分立的设备中执行。

例如,如图7中所示,可以在诸如智能电话10的设备中执行第一语音生物测定过程。然后,仅在第一语音生物测定过程已经临时或初始确定该话音可能是已注册说话人的话音的情况下,才可以使用收发器18将所接收的音频信号经由网络100传输至远程设备(例如,基于云的生物测定过程器102)。然后,可以在远程设备102中执行第二语音生物测定过程。

作为另一实施例,如图8中示出的,诸如头戴式受送话器110的附件或其他听音设备(诸如,一对耳塞)可以与诸如智能电话10的设备结合使用。在那种情况下,第一语音生物测定过程可以在诸如头戴式受送话器110的附件设备中执行。然后,仅在第一语音生物测定过程已经临时或初始确定话音可能是已注册说话人的话音的情况下,才可以将所接收的音频信号传输至智能电话10。然后,可以在智能电话10中执行第二语音生物测定过程。因此,仅当在附件设备中确定话音可能是已注册说话人的话音时,才可以激活附件设备中的无线传输电路系统,以将数据传输至主机设备。附件设备可以例如包括可穿戴设备,诸如头戴式受送话器设备、智能眼镜设备或智能手表设备。主机设备可以包括诸如移动电话或平板计算机的设备。

在其他实施方案中,可以在可能是可穿戴设备的第一设备中执行第一语音生物测定过程,而可以在可能是不同的可穿戴设备的第二设备中执行第二语音生物测定过程。例如,如果在第一设备(诸如,头戴式受送话器)中执行第一语音生物测定过程,且在第二设备(诸如,手表)中执行第二语音生物测定过程,其中第二设备具有更大的机载电池功率和/或更大机载计算能力,则第二设备有效地充当主机设备。

在一些情况下,第一语音生物测定过程本身可能在两个附件设备之间进行划分。例如,可以在第一附件设备(该第一附件设备可以是可穿戴设备(诸如,头戴式受话器))中执行第一语音生物测定过程的第一组成部分,而可以在第二附件设备(该第二附件设备可以是不同的可穿戴设备)中执行第一语音生物测定过程的第二组成部分。再次,此可以利用这两个设备中的不同量的电池功率和/或计算能力。第一语音生物测定过程的第一组成部分和第二组成部分的结果可以被融合或组合,以产生一个结果,其中仅在第一语音生物测定过程的组合结果导致临时或初始确定该话音可能是已注册说话人的话音的情况下,才将所接收的音频信号传输至智能手机10。

另外,即使当第一语音生物测定过程和第二语音生物测定过程这二者都在诸如智能电话10的设备中执行时,它们也可以在分立的集成电路中执行。

图9示出了分立的集成电路的一个实施例。图9总体上对应于图4,但是示出了预处理块80、第一语音生物测定过程82和缓冲器83被设置在第一集成电路140(例如,专用的低功率生物测定芯片)上。此芯片可以“始终开启”的方式操作,使得所有所接收的信号都被传送至第一生物测定过程82。在那种情况下,第一生物测定过程82可以充当语音活动检测器。替代地,可以响应于语音活动检测器(位于预处理块80内或者与第一集成电路140分立地)确定信号包含话音来激活第一生物测定过程82。在一些实施方案中,第一集成电路可以是编解码器,或者可以是数字麦克风设备或芯片的一部分,或智能编解码器或扬声器放大器芯片的一部分。

另外,第一集成电路140可以包含反欺骗块(anti-spoofingblock)142,用于对所接收的信号执行一个或多个测试,以确定所接收的信号是否具有如下特性:这些特性可以指示所接收的信号并非产生自对设备说话的用户,而是产生自已注册用户的语音录音被用来尝试获得对系统的非法访问的重放攻击。如果反欺骗块142的输出指示所接收的信号可能产生自重放攻击,则此输出可用来阻止第二语音生物测定过程被激活,或者可用来对来自第一集成电路140的输出进行选通。替代地,反欺骗块142的输出可以被传送至判定块86,以在它判定是否按照口语输入行动时使用该输出。应理解,反欺骗块142可以被布置为执行多个分立的反欺骗过程(如下文所描述的),所述多个分立的反欺骗过程的输出可以被融合在一起成为单个反欺骗输出。

同时,第二语音生物测定过程84和判定块86被设置在第二集成电路144(例如,高功率、高性能芯片(诸如,智能电话的应用处理器或其他处理器),或专用生物测定处理器设备或芯片)上。

图10示出了分立的集成电路的另一实施例。图10总体上对应于图5,但是示出了预处理块80、第一语音生物测定过程82和缓冲器83被设置在第一集成电路150(例如,专用低功率生物测定芯片)上。该芯片可以“始终开启”的方式操作,使得所有所接收的信号都被传送至第一生物测定过程82。在那种情况下,第一生物测定过程82可以充当语音活动检测器。替代地,可以响应于语音活动检测器(位于预处理块80内或者与第一集成电路150分立地)确定信号包含话音来激活第一生物测定过程82。

另外,第一集成电路150可以包含反欺骗块142,用于对所接收的信号执行一个或多个测试,以确定所接收的信号是否具有如下特性:这些特性可以指示所接收的信号并非产生自对设备说话的用户,而是产生自已注册用户的语音录音被用来尝试获得对系统的非法访问的重放攻击。如果反欺骗块142的输出指示所接收的信号可能产生自重放攻击,则此输出可以用来阻止第二语音生物测定过程被激活,或者可以被传送至融合和判定块90,以在它判定是否按照口语输入行动时使用该输出。

同时,第二语音生物测定过程84和融合与判定块90被设置在第二集成电路152(例如,高功率、高性能芯片(诸如,智能电话的应用处理器))上。

尽管在所描述的实施方案中,预处理块80被用来输出成帧的或经采样的数字信号以用于进一步处理,但是应理解,预处理块80可以附加地或替代地被配置为输出连续的数字信号,和/或来自麦克风12的模拟信号。应理解,预处理块80可以被配置为向不同的下游处理模块提供不同的输出信号。例如,预处理块80可以向第一语音生物测定过程82提供成帧的数字信号,且并行地向反欺骗块142提供用于反欺骗处理的流式连续模拟或数字信号。

图11示出了此功能划分的另一实施例。图11总体上对应于图6,但示出了第一语音生物测定过程120、模数转换器(adc)122、126和缓冲器124被设置在第一集成电路160(例如,专用低功率生物测定芯片)上。此芯片可以以“始终开启”的方式操作,使得所有所接收的信号都被传送至模拟的第一生物测定过程120。在那种情况下,第一生物测定过程120可以充当语音活动检测器。

此外,第一集成电路160可以包含反欺骗块142,用于对所接收的信号执行一个或多个测试,以确定所接收的信号是否具有如下特性:这些特性可以指示所接收的信号并非产生自对设备说话的用户,而是产生自已注册用户的语音录音被用来尝试获得对系统的非法访问的重放攻击。如果反欺骗块142的输出指示所接收的信号可能产生自重放攻击,则此输出可以用来阻止第二语音生物测定过程被激活,或者可以被传送至融合和判定块90,以在它判定是否按照口语输入行动时使用该输出。

同时,第二语音生物测定过程84以及融合与判定块90被设置在第二集成电路162(例如,高功率、高性能芯片(诸如,智能电话的应用处理器))上。

上面结合图9和图10提及,第一生物测定过程82可以充当语音活动检测器。类似地,结合图11提及,第一生物测定过程120可以充当语音活动检测器。语音生物测定可以用作语音活动检测器,因为这些过程之间存在相似度。语音生物测定过程通常将从所接收的语音中提取的特征与由从已注册用户的话音中提取的特征所组成的声纹进行比较。如果相似度得分超出一具体阈值,这意味着相似度足够高,则所接收的话音被认为是已注册用户的话音。如果通过第一语音生物测定过程确定该话音是已注册用户的话音,则此确定可以用作对所接收的音频信号包括话音的指示。

相似度得分也可以与一个下限阈值进行比较。如果相似度得分超过该下限阈值,则此条件通常不足以说明所接收的信号包含已注册用户的话音,但是可以说明所接收的信号确实包含话音。

类似地,可能的是,在确定所接收的信号确实包含语音之后,可能毫无疑问地确定所接收的信号包含已注册用户的话音。例如,在第一语音生物测定过程基于分析话音的长期频谱的情况下,可能必要的是,查看例如100帧信号来获得统计上鲁棒的频谱,该频谱可以被用来确定该频谱的特定特征是否是一个具体已注册说话人的特性。然而,已经可能的是,在较少的样本数目(例如,10帧-20帧)之后,确定该频谱是人类话音的频谱,而非是噪声源、机械声音等的频谱。

因此,在此情况下,在执行第一语音生物测定过程时,可以生成中间输出且将其用作语音活动检测信号。此中间输出可以被提供至系统中的任何其他处理块,例如以控制是否应当启用语音识别过程。

在本发明的另一方面,应理解,可以向第一集成电路140、150、160提供与特定麦克风12或音频收发器有关的信息,该电路与所述特定麦克风12或音频收发器耦合以接收音频信号。这样的信息可以包括关于设备性能(设备操作的非线性)的特性信息。这样的信息可以包括预加载的数据,所述预加载的数据可以在制造期间(即,当已知正在使用哪种特定的麦克风12或其他音频收发器时)被编程至第一集成电路140、150、160中。附加地或替代地,第一集成电路140、150、160可以设置有监测模块,该监测模块被配置为监测麦克风12的操作,以跟踪例如由于温度改变、设备磨损等造成的部件性能的任何操作漂移或变化。这种监测可以通过使用与麦克风12耦合的合适的电压或电流监测系统来实现。

这样的特性信息可以被用作电路140、150、160的相应处理模块的输入,使得可以在处理来自麦克风12的数据时考虑设备特定的信息。例如,第一生物测定过程82或反欺骗模块142可以考虑麦克风12中所存在的特性非线性,以确保针对任何设备特定的不规则性来校正这种模块82或142的相应输出。

在图9、图10和图11中的任何一个中,第一集成电路140、150、160可以与相应的第二集成电路142、152、162分立地设置。换言之,第一集成电路140、150、160中的任何一个都可以作为独立设备提供,然后该独立设备可以被连接至提供任何所需功能的任何其他设备。类似地,第二集成电路142、152、162中的任何一个都可以作为独立设备提供,然后该独立设备可以被连接用于接收来自提供所需信号的任何其他设备的输入。

数据的完整性

在上面所描述的多个实施例中,对一些代表话音的数据执行第一生物测定过程,且还可以执行第二生物测定过程。该目的是,如果执行第二生物测定过程,则应对与执行了第一生物测定过程相同的数据执行第二生物测定过程。为了确保是这种情况,还可以执行数据完整性过程。

总体而言,在用于执行第一语音生物测定过程的第一处理器处接收接收代表话音的数字数据。在图4和图5中以及在图9和图10中,此第一处理器是第一语音生物测定模块(vbio1)82。第一语音生物测定块82对数据执行生物测定过程,以尝试辨识话音是否是已注册说话人的话音。另外,第一语音生物测定块82生成消息认证码或消息认证证书(mac)。在一些实施方案中,仅在第一语音生物测定过程初始确定话音是已注册用户的话音时,第一语音生物测定块82才可以生成mac。如果第一语音生物测定过程初始确定该话音是已注册用户的话音,则第一语音生物测定块82可以向第二处理器发送信号以将其激活。此激活信号可以包括所生成的mac。

还可以在用于执行第二语音生物测定过程的第二处理器处接收代表话音的数字数据。在图4和图5以及图9和图10中,此第二处理器是第二语音生物测定模块(vbio2)84。如果第二语音生物测定块84被激活,则它对数据执行第二生物测定过程,以尝试辨识话音是否是已注册说话人的话音。第二语音生物测定块84可以由从第一语音生物测定块82所接收的激活信号来激活,且此激活信号还可以包括由第一语音生物测定块82所生成的消息认证证书(mac)。

在此情况下,第二语音生物测定块84还生成消息认证证书(mac)。然后,第二语音生物测定块84将它所生成的mac与它从第一语音生物测定块82所接收的mac进行比较。由于根据所接收的数据来计算每个mac,且由于第一语音生物测定块82和第二语音生物测定块84应当接收相同的数据,所以可以比较这两个mac,且期望的是,应当发现它们是相同的。如果发现它们是不同的,则此可能指示系统已经通过注入无效数据而遭受攻击,且认证过程可能被终止。

第一语音生物测定块82和第二语音生物测定块84如何生成和验证合适的mac的一个实施例是将所接收的数字数据传送至散列模块,该散列模块对合适的帧中的数据执行散列。散列模块可以例如根据如本领域技术人员将理解的已知的sha-256算法来确定散列值h,尽管其他散列函数也可能是合适的。

在第一语音生物测定块82中,可以使用签名模块(signingmodule)对散列值进行数字签名。签名模块可以应用已知的加密签名协议,例如,基于使用第一语音生物测定块82已知的私有密钥kprivate的rsa算法或椭圆曲线加密(ecc)的加密签名协议。

在一个实施例中,256位散列值h由散列模块计算,且签名模块将此值填充(pad)至更高位散列,例如2048位经填充的散列p,如本领域技术人员将理解的。使用私有密钥kprivate(d,n),消息认证证书(mac)(例如,2048位mac)是使用模幂运算(modularexponentiation)生成的,例如通过将p提高到d次幂取模n来生成mac:

mac=p^dmodn

在一个实施例中,指数d是32位字,且模n是2048位字。

然后,根据需要将mac传输至第二语音生物测定块84。mac可以用激活信号编码,或者可以简单地被添加至待以预定方式传输的激活信号,例如,作为相对于某一帧边界所限定的前2048位或后2048位。

当第二语音生物测定块(vbio2)84接收到mac时,它可以提取被用来生成mac的散列。可以将mac传送至加密模块,在该加密模块中,使用公共密钥kpublic(e,n)和相应的rsa或ecc算法,可以通过将mac提高到e次幂取模n来提取经填充的带签名的散列值ps。因此,可以将全域散列计算为:

ps=mac^emodn

第二语音生物测定块(vbio2)84还包括散列模块,该散列模块使用它从缓冲器83所接收的数据执行相同的散列和填充过程,如通过第一语音生物测定块(vbio1)82对它所接收的数据应用的那样。此过程针对所接收的数据来确定经填充的散列值pr。然后,可以比较两个经填充的散列值ps和pr,且如果两个经填充的散列值相同,则所生成的数据有效性信号指示数据是有效的,或者如果所述值不同,则指示数据是无效的。

所使用的算法和多个位长度的以上描述仅作为实施例,且取决于应用,可以使用不同的算法和/或位长度。在一些情况下,可能不需要填充散列值。应理解,上文的讨论集中在基于非对称密钥的签名,即公共密钥和私有密钥的使用。但是,签名可以附加地或替代地涉及某一对称签名,例如基于相互共享的秘密等的对称签名。

在另一方面,该系统可以被配置为执行推测性自动话音识别(asr),其中asr模块被用于识别所接收的音频中的话音,例如语音命令。为了确保asr模块对与由生物测定模块所验证的相同话音操作,可以采用数据完整性检查系统。这种系统的一个实施例是如在共同未决的美国专利申请号16/115654中所描述的,该美国专利申请通过引用纳入本文中。应理解,如下文所描述的,这种系统配置也可以用于推测性次级生物测定过程,其中asr模块可以由次级生物测定过程代替。

其他实施方案

现在关于图12-图16描述说话人验证系统和方法的实施方式。

在图12中,示出了说话人验证系统200,该说话人验证系统200从输入202(诸如,麦克风或用于接收音频信号的任何其他合适的接口或音频收发器)接收包括话音的音频。系统200包括说话人校验模块204和音频校验模块206。说话人校验模块204对从输入202所接收的音频执行初始说话人校验过程,且以说话人id得分和声音分类的形式提供输出,所述说话人id得分代表所接收的话音来自一个具体说话人的初始似然度,所述声音分类代表所接收的话音是一个具体声学类别的似然度。

音频校验模块206被配置为确定所接收的音频是有效的还是无效的。特别地,音频校验模块206被配置为检测所接收的音频是否全部来自单个说话人,和/或确定所接收的音频是真实的音频,还是欺骗攻击或重放攻击的产物,其中黑客或其他恶意行为者尝试哄骗说话人验证系统200。说话人校验模块204与音频校验模块206耦合,使得音频校验模块206至少部分地基于说话人校验模块204的输出来确定所接收的音频是有效的还是无效的。具体地,音频校验模块206的输出至少部分地基于代表所接收的话音是一个具体声学类别的似然度的声音分类,该声音分类由说话人校验模块204输出。通过在音频校验过程中使用从说话人验证过程所输出的声音分类,相应地可以使这种音频校验过程所需的资源最小化,且减少相关联的延时。

音频校验模块206的输出被用于判定选通模块208中,使得仅在以下情况下允许说话人验证系统200的输出:(a)当说话人校验模块204初始确定所接收的话音是已注册说话人的话音时,以及(b)当音频校验模块206已经确定所接收的音频是有效时。因此,音频校验模块206的输出被用来在选通模块208处对说话人校验模块204的输出进行选通。通过使用用于确认所接收的音频是有效的音频有效性检查来对说话人验证的输出进行选通,确保了说话人验证结果仅被用于并非来自重放攻击或欺骗攻击的音频,附加地或替代地,确保了在说话人验证中使用的所接收的音频来自同一说话人,而非来自竞争攻击或跟随进入攻击。

在说话人于初始语音触发和后续命令之间改变时出现竞争话音攻击(例如,说话人1:“你好,计算机”,说话人2:“给我点一个啤酒”)。跟随进入话音攻击出现在第二说话人将附加命令附加到来自第一说话人的有效命令的末尾时(例如,说话人1:“你好,计算机,给我点一个比萨饼”,说话人2:“还有一个啤酒”)。

判定选通模块208的输出可以被用作次级生物测定系统的输入,例如,如上面的实施方案中所描述的第二集成电路144、152、162的输入。就此而言,判定选通模块208的输出可以仅仅是相对更具有辨别力的次级生物测定评分过程的触发,或者判定选通模块208的输出可以包括来自说话人校验模块204的说话人id得分,该说话人校验模块20可以与之后的生物测定模块融合,如上面所描述的。

说话人验证系统200可以设置有触发检测模块210,该触发检测模块210被布置为在检测到合适的触发时初始化该说话人验证系统200的至少一部分。这样的触发可以包括在所接收的音频中检测到的语音关键字,例如,触发短语(诸如,“你好,计算机”或类似短语)。附加地或替代地,触发检测可以接收来自其他来源的输入,例如可以指示用户与说话人验证系统200交互的系统输入(诸如,按钮按压、接近度检测、光学传感器等)。在图12的实施方案中,触发检测模块210与说话人校验模块204耦合,使得响应于检测到合适的触发来初始化说话人校验模块204的至少一部分,但是应理解,触发检测模块210可以附加地或替代地与音频校验模块206或判定选通模块208耦合,其中响应于检测到合适的触发来初始化这些模块的至少一部分。

在一个附加方面,说话人验证系统200可以设置有音频缓冲器212,该音频缓冲器212被布置为对从输入202所接收的音频进行缓冲。这样的缓冲器212可以如上面的实施方案中所描述的那样使用,其中可以将所缓存的音频提供至下游生物测定模块,以用于进一步处理。可以通过选通模块208来控制来自系统200的缓冲器212的输出,使得仅在确定所接收的音频是有效时且在说话人校验模块204已经确定所接收的音频包括来自已注册用户的话音时,才发送数据以用于进一步处理。通过将所缓存的音频连同有效的说话人识别输出一起输出,相应地可以在初始确定所接收的音频是一个具体说话人的音频的情况下,执行对所接收的音频的进一步处理。这样的附加处理可以包括识别所接收的音频以在命令处理中使用,或者,可以使用例如用于相对高的安全性操作的更具有辨别力的说话人识别过程来处理所接收的音频。

在一些实施方案中,音频校验模块206的输出可以被用作说话人校验模块204的输入,如下面更详细地描述的。

图13示出了说话人校验模块204的示例实施方式,该说话人校验模块204布置为从输入202接收包括话音的音频。模块204包括特征提取模块214,该特征提取模块214被配置为对所接收的音频执行特征提取操作。然后,音频的特征提取型式被传送至分类器模块216,该分类器模块216被布置为对所接收的音频执行分类,以辨识在所接收的音频中存在什么类型的声音。分类可以使用任何合适的分类过程(例如,高斯混合模型(gmm)过程)来执行,或者可以利用机器学习过程(在机器学习过程中,已经训练了神经网络来识别声音类别)。分类器模块216将输出指示所接收的音频中存在的声音的适当声音分类,所述声音分类可以被用于后续说话人识别评分中,如下面所描述的。另外,声音分类被设置为来自说话人校验模块204的输出222,该输出222可以被用作音频校验模块206的输入,如上面所描述的。

应理解,声音分类可以被设置为指示所接收的音频中存在的声学类别,例如声音混合物、音位、音素、多元音素等。

因此,声音分类提供关于所检测到的声学类别在总体所接收的音频内的分布的信息。此也可以被称为混合模型。由分类器216所生成的声音分类提供关于话音中所存在的声音的信息,而且提供关于说话的人的身份的信息,因为由说出特定声音的第一个人的话音所产生的最大可能的混合物将不同于由说出相同声音的第二个人的话音所产生的最大可能的混合物。因此,最大可能的混合物的改变可以对应于说话人改变。也可以对照针对具体说话人所获得的混合模型对混合进行评分来使用该混合物。

声音分类可以逐帧生成,或者可以在一组帧中生成。例如,一组具体的帧可能对应于一个音位,尽管言语中的每一音位的长度将取决于发音速度,且分类辨识出哪些最大可能的混合物对应于该音位。

在说话人校验模块204中,声音分类被传送至评分或距离模块218,该评分或距离模块218用来基于所确定的声音分类,对照代表不同的已注册说话人的一系列所存储的说话人模型220,对所接收的音频进行评分。评分可以包括计算所接收的音频的话音与已注册说话人的话音的距离的距离度量,所接收的音频的话音是已注册说话人的话音的概率度量,或者所接收的音频的话音是已注册说话人的语音的对数似然比。可以使用任何合适的措施来执行评分,例如,基于联合因子分析(jfa)的方法;基于跟踪说话人的基频的说话人识别过程(例如,如在共同未决的美国专利申请号62/728421中所描述的,该美国专利申请通过引用纳入本文中);基于机器学习或基于深度神经网络的过程(ml-dnn);等等。

一旦已经完成了评分,说话人校验模块204被配置为输出说话人id得分,所述说话人id得分代表所接收的话音来自一个具体说话人的似然度。说话人id得分被提供作为输出224,该输出224可以被用作如上面所描述的音频校验模块206的输入。在如上面所提及的存在多个已注册说话人从而存在多个所存储的说话人模型220的情况下,评分或距离模块218可以输出分立的得分,所述得分代表所接收的话音来自那些已注册说话人的相应似然度。说话人id得分可以进一步被用作输出204a,该输出204a被用作判定选通模块208的输入。应理解,说话人校验模块206可以包括任何合适的说话人识别系统,例如,如在“fundamentalsofspeakerrecognition”,homayoonbeigi.isbn:978-0-387-77592-0中所描述的。

在一些实施方案中,说话人校验模块204可以被配置为并行执行多个不同的说话人识别过程,且组合或融合不同过程的输出来提供说话人id得分。优选地,所述多个不同的过程被选择为在所述方法之间具有低的互相关性,这转变为鲁棒且精确的说话人id输出。

图14示出了音频校验模块206的示例实施方式,该音频校验模块206被布置为从输入202接收包括话音的音频。另外,音频校验模块206接收如由说话人校验模块204所计算出的声音分类222和说话人id得分224作为输入。

音频校验模块被布置为确定输入202处所接收的音频是否是有效的。在音频校验模块206中,设置了反欺骗模块226和说话人改变检测模块228。

反欺骗模块226被布置为接收声音分类222和输入音频202,且确定对说话人验证系统的重放攻击或演示攻击(例如,通过使用重放的音频或合成的音频来模仿说话人)的概率。

可以在共同未决的美国专利申请号16/050593中找到反欺骗处理的一个实施例,该反欺骗处理使用所接收的音频以及对话音中所存在的声学类别的指示,该美国专利申请通过引用纳入本文中。

此外,反欺骗过程可能包括:

基于超声功率水平的反欺骗系统,例如在共同未决的美国专利申请号62/571944、62/572016、15/980491中所描述的反欺骗系统,所述美国专利申请的内容通过引用纳入本文中;

基于磁功率水平的反欺骗系统,例如在共同未决的美国专利申请号16/020406、16/018795中所描述的反欺骗系统,所述美国专利申请的内容通过引用纳入本文中;

基于扬声器检测的反欺骗系统,例如在共同未决的美国专利申请号62/571959、62/585721、62/585660、62/571978、16/017072中所描述的反欺骗系统,所述美国专利申请的内容通过引用纳入本文中。

对于执行不同的反欺骗过程的情况,应理解,可以将这样不同的反欺骗过程的输出进行组合或融合来提供反欺骗判定。在组合或融合输出的情况下,可以为不同过程的输出值提供不同的权重,以解释诸如使用情况或环境、设备特性等因素。

说话人改变检测模块228被布置为接收输入音频202、声音分类222和说话人id得分224,且基于所接收的输入的某一组合来确定所接收的音频中说话人的改变。

一方面,说话人改变检测模块228被配置为基于加时间窗的生物测定说话人id得分来实施说话人改变检测过程,诸如在共同未决的美国专利申请号16/122033中所描述的那样,该美国专利申请通过引用纳入本文中。

附加地或替代地,说话人改变检测模块228可以被布置为基于以下来实现说话人改变检测过程:

监测所接收的音频的基频或f0的改变;

监测从所述声音分类中所辨识出的所接收的音频的语音或亚语音声学类别(phoneticorsubphoneticacousticclasses)的分布的改变;

监测从声音分类中所辨识出的所接收的一个具体声音类别的音频的基频的改变;

重音跟踪;

情绪跟踪;或者

任何其他合适的说话人改变检测方法,诸如在(ajmera,jitendra&mccowan,lain&bourlard,herve.(2004).robustspeakerchangedetection.signalprocessingletters,ieee.11.649-651.10.1109/lsp.2004.831666)中所描述的,其通过引用纳入本文中。

通过对所接收的音频执行精确的说话人改变检测(或scd),阻止了说话人验证系统被所谓的竞争攻击或跟随进入攻击利用。在执行多个不同的scd过程的实施方案中,应理解,可以将这种不同的scd过程的输出进行组合或融合来提供scd判定。在组合或融合输出的情况下,可以为不同过程的输出值提供不同的权重,以解释诸如使用情况或环境、设备特性等因素。

在一些实施方案中,且如图12中示出的,音频校验模块206的输出可以被用作说话人验证模块204的输入。这样的配置可以用于说话人验证模块204正以始终开启模式操作的实施方案,以确保对所接收的音频的正确部分执行说话人验证过程。例如,音频校验模块206的输出可以被用来重置说话人校验模块204的操作。

例如,scd模块228的输出可以被用作说话人校验模块204的输入,其中scd处理模块228的输出在所接收的音频中应当执行说话人验证过程的那部分上设置边界。例如,如果scd模块228被配置为在逐帧音频的基础上分析说话人得分来确定说话人改变的点,则scd输出可以限定待处理的音频帧的总范围,以确定最终说话人id得分,如已经由scd模块228确定所有这些帧都是由同一说话人说出的。在一些方面,在检测到所接收的音频中的说话人的改变时,scd模块228的输出可以被用来重置说话人校验模块204的操作。

在另一实施例中,除了辨识对系统的恶意攻击之外,反欺骗模块226还可以辨识可能影响所接收的音频的精确处理的非恶意环境条件。例如,所接收的音频信号中存在的相对高水平的超声波(例如,来自超声波运动传感器的相对高水平的超声波)会导致说话人校验模块204的失真或不精确输出。因此,来自反欺骗模块226的输出可以被用作说话人校验模块204的输入,以在所接收的音频被认为产生安全且精确的说话人校验输出的部分上设置边界。最典型地,这将意味着,在跟随进入话音攻击的情况下,仅对意向说话人的话音执行说话人校验过程。然而,反欺骗模块226和说话人校验模块204可以被配置为使得在重放攻击的情况下,仅对意向说话人的现场话音执行说话人校验过程。另外,在检测到所接收的“不安全”的音频的情况下,反欺骗模块226的输出可以被用来重置说话人校验模块204的操作。

可以例如使用与门230将反欺骗模块226的输出和说话人改变检测模块228的输出进行组合或融合,以提供对所接收的音频是否有效的指示。然后,这种指示可以被音频校验模块206输出为输出206a,以用于在判定选通模块208中使用。

在替代实施方案中,应理解,音频校验模块206的输出206a可以包括反欺骗模块226的输出和说话人改变检测模块228的输出这二者,且其中可以在判定选通模块208中执行这样的输出的融合或组合,以提供音频有效性结果。

另外,对于音频校验模块206的输出被用作说话人验证模块204的输入的实施方案,应理解,说话人验证模块204的输入可以包括经组合或经融合的输出206a,和/或包括反欺骗模块226和说话人改变检测模块228的个体输出(在图14中分别示出为输出226a和228a)的某一组合。

图15提供了判定选通模块208的一个实施方案的例示,该判定选通模块208接收说话人校验模块204的输出204a和音频校验模块206的输出206a。判定选通模块208包括说话人有效性检查232,该说话人有效性检查232检查是否已经从所接收的来自扬声器有效性模块204的输出204a的音频中辨识出说话人,且进一步包括音频有效性检查234,该音频有效性检查234检查所接收的来自音频有效性模块206的输出206a的音频是否有效。如果这两个检查都通过,则判定选通模块208包括功率选通或融合模块236,该功率选通或融合模块236被布置为生成输出信号208a。判定选通模块208的输出208a可以包括简单的启用信号,以允许下游处理系统的功率选通,如上面所描述的。另一方面,输出208a可以包括由说话人校验模块204所初始辨识的说话人的指示符。附加地或替代地,输出208a可以包括说话人id得分204a,该说话人id得分204a可以被用在如上面所描述的后续得分融合操作中。输出208a可以进一步包括音频校验模块206的输出206a,该输出206a可以被设置为所接收的音频的有效性的单个指示符,或者该输出206a可以包括与特定的反欺骗或说话人改变检测得分有关的分立的输出。提供这种得分可以允许反欺骗和/或说话人改变检测过程的进一步下游处理。应理解,判定选通模块208的输出208a可以被用作说话人验证系统200的输出信号。

在一个优选的实施方案中,且如上面所描述的,说话人验证系统200的输出可以与次级生物测定系统(例如,如上面的实施方案中所描述的第二集成电路144、152、162)结合使用,其中说话人验证系统200被设置为初级生物测定系统(例如,设置为如上面的实施方案中所描述的第一集成电路140、150、160)。初级生物测定评分可以被执行作为相对低功率的系统(例如,诸如移动电话头戴式受送话器的设备或设备附件内的始终开启系统或低功率岛)的一部分。因此,初级生物测定评分可操作用于对次级生物测定评分进行功率选通,该次级生物测定评分可以被设置为相对高功率的系统(例如,具有相对高处理功率的设备应用处理器或专用生物测定芯片)的一部分。优选地,初级系统和次级系统被选择为对所接收的音频执行不同的生物测定评分。

在一个优选的实施方案中,说话人识别系统被配置为使得:

初级生物测定评分被选择为具有相对高的错误接受率(far)和相对低的错误拒绝率(frr);以及

次级生物测定评分被选择为具有相对低的far和相对高的frr。

具有这种评分方法的配置,生物测定得分的任何后续融合将导致具有低far和低frr的组合得分。

图16提供了由图12-图15中示出的系统所实施的说话人验证方法的一个实施方案的流程图。

在开始时(步骤300),该方法接收包括话音的音频(步骤302)。作为由说话人校验模块204执行的第一步,执行对所接收的音频进行分类(步骤304),以辨识在所接收的音频中存在的声学类别或声音混合物。应理解,此步骤可以包括从所接收的音频中提取特征。

在分类之后,基于所存储的说话人模型(步骤308)执行说话人识别(步骤306),以至少从所接收的音频中初始地辨识说话人。说话人识别(步骤306)产生说话人id得分,该说话人id得分可以包括该话音是一个特定的已注册说话人的话音的概率或似然度。说话人id得分然后可以被用作说话人校验模块204的输出204a(步骤310)。

与说话人校验模块204的操作并行,音频校验模块206被布置为执行如下步骤:基于所接收的音频和所辨识出的音频分类来执行反欺骗检查(步骤312),和/或基于所接收的音频、所辨识出的音频分类和/或说话人id得分来执行说话人改变检测检查(步骤314)。在所示出的实施方案中,将反欺骗检查(步骤312)和说话人改变检测检查(314)这二者的输出进行组合,以提供音频校验模块206的输出206a(步骤316)。

在判定选通检查处将由步骤310和312所产生的输出进行组合(步骤318),该判定选通检查检查针对所接收的音频已经辨识出说话人,以及检查所接收的音频是有效的。在步骤320处,如果通过了这种检查,则可以相应地生成输出(步骤322),该输出可以被用于功率选通和/或进一步的下游处理,如上面所描述的。如果在320处未通过检查,则系统可以返回至接收音频。

应理解,系统可以被配置为基于上面所描述的方法的个体步骤来提供进一步的输出。例如,如果反欺骗模块辨识出正在发生欺骗攻击或重放攻击,则系统可以向用户生成警告,或者可以起到限制设备访问的作用,直到进一步的授权检查通过为止。另外,如上面所描述的,对所接收的音频中的说话人改变检测的检测可以促使系统基于针对特定说话人所接收的总体音频来生成输出,该说话人改变设置用于处理音频的边界,以从所接收的音频中辨识说话人。

上面所描述的系统可以设置有附加的安全措施,以阻止恶意访问潜在的敏感数据。在一个优选实施例中,系统可以被配置为基于多个模块的输出来清除或擦除任何数据缓冲器的内容。例如,在反欺骗模块检测到正在发生欺骗攻击或重放攻击的情况下,系统可以被布置为擦除音频缓冲器或任何其他缓冲器的内容,以阻止对任何敏感数据的访问。

在上面所描述的系统中,应理解,个体生物测定评分系统、说话人识别系统、反欺骗系统和/或说话人改变检测系统可以包括多个不同的相应评分系统,其中可以将这种系统的输出进行组合或融合来提供单个输出。

在本发明的另一方面,为了减少系统的总体延时,第一生物测定过程的输出可以被用来推测性地启动第二生物测定过程。具体地,一旦第一生物测定过程的输出已经达到指示第一生物测定过程已经临时识别出已注册用户的第一阈值,就可以启动第二生物测定过程的推测性开始。例如,第一生物测定过程的输出可以包括所接收的话音是已注册说话人的话音的概率估计,其中由于第一生物测定过程可用的所接收的语音的持续时间更长,所以这种概率估计是正确的置信度随着时间的推移而增大。

图17中提供了这种实施方案如何操作的一个实施例。

在图17中,在400处指示了所接收的包括话音的音频的一个实施例,响应于所接收的语音,随时间的推移绘制了多个生物测定过程的输出的实施例。当配置在纯顺序系统中时,a1是基于第一生物测定过程的说话人验证过程的输出,而b1是基于第二生物测定过程的说话人验证过程的输出。当配置在允许第二生物测定过程的推测性启动的系统中时,a2是基于第一生物测定过程的说话人验证过程的输出,而b2是基于第二生物测定过程的说话人验证过程的输出。

对于顺序系统,在开始时间t0处接收包含话音命令(“好的,计算机,今天的天气如何?”)的音频样本400,其中在时间t1之后跟踪对音频400所执行的第一生物测定过程的说话人验证过程的输出a1。第一生物测定过程继续,直至输出在时间t2处达到阈值p1为止,指示已经辨识出一个具体的用户。如上面所描述的,通过第一生物测定过程对用户的初始辨识被有效地用来对第二生物测定过程进行功率选通。因此,在时间t3之后,跟踪第二生物测定过程的说话人验证过程的输出a2。第二生物测定过程继续,直至输出在时间t4处达到阈值p2,从而指示第二生物测定过程已经从所接收的音频中辨识出用户。如上面所描述的,这种辨识可以与第一生物测定过程的输出组合或融合,和/或可以被用来触发对所接收的音频的进一步下游处理或允许所辨识出的用户授权访问特征或服务。

在允许推测性启动第二生物测定过程的系统中,第一生物测定过程的说话人验证过程与以前一样继续进行,产生输出a2。但是,一旦输出a2在时间t5处达到阈值水平p3(阈值p3小于阈值p1),系统就被配置为在紧接t5之后的时间t6处启动第二生物测定过程的推测性处理,该推测性处理由从t6处开始的输出b2指示。在所示出的实施方案中,阈值p3被选择为等于指示一概率水平的阈值,该概率水平等于已经辨识出一个具体用户的p1的60%,但是应理解,可以选择其他阈值水平,例如p1的50%、p1的75%等。

第二生物测定过程的说话人验证过程与以前一样继续进行,直至达到用于安全辨识用户的限定阈值p2。然而,由于在较早的时间t6处推测性启动第二次生物测定过程,因此可以在时间t7处达到p2,这比顺序系统所花费的总体时间t4快了时间δt。时间差δt代表通过使用这种推测性启动过程所减少的系统的总体延时。

对于推测性启动的使用实例,应理解,如果第一生物测定过程的输出a2稍后在时间t2处指示所接收的音频不是来自先前所临时辨识出的用户,和/或如果第一设备的音频校验模块指示所接收的音频400是无效的(例如,由于欺骗检测或说话人改变检测),则第一设备可以被配置为指示第二设备的第二生物测定过程在时间t2处停止任何进一步的处理,且清除或重置提供给第二生物测定过程的任何缓冲器或缓存,以用于未来使用。

应理解,在第一生物测定过程已经运行了时间t5(指示达到阈值p3的时间)而非整个时间t2(达到阈值p2的时间)之后,推测性地启动第二生物测定过程将导致基于相对弱的第一生物测定过程(有效地具有相对高的far和相对低的frr的过程)启用对第二过程进行功率选通,其中在时间t2处提供所接收的音频的更确信的说话人校验。

应理解,可以针对上面所描述的实施方案中的任一实施方案来实施上面的推测性启动的使用实例,例如其中由vbio1模块82、vbio1a模块120或说话人校验模块204执行针对第一生物测定过程的说话人验证过程,以及由适当的vbio2模块84执行针对第二生物测定过程的说话人验证过程。

还应理解,上面关于预处理模块80的评论可以等同地应用于图12-图16的实施方案,即,预处理模块可以被用来将多个不同的信号提供至系统的不同处理模块,例如经采样的或成帧的数字信号、连续流式数字信号、连续流式模拟信号。因此,说话人校验模块204,音频校验模块206和/或触发检测模块210可以在它们相应的处理系统中利用所述多个不同信号中的一个或多个。

另外,应理解,图12-图16的实施方案可以进一步包括以关于输入202的预定特性信息形式的附加输入数据,和/或被配置为监测输入202的操作特性的监测系统。校验模块204、音频校验模块206和/或触发检测模块210的处理模块可以在它们相应的过程中利用这种设备特定的数据,以解释设备特定的特性和非线性。

在另一方面,尽管上面所描述的实施方案利用第一语音生物测定过程作为第一评分系统,但是应理解,第一语音生物测定过程可以由任何其他合适的生物测定过程(例如,耳朵生物测定过程)代替。对于具有耳朵生物测定过程的实施方案,应理解,系统可以设置有多个麦克风或音频收发器,其中至少一个麦克风或音频收发器被配置为输出代表接近用户的耳朵的音频响应的音频信号。

这种耳朵生物测定过程可以被用来对语音生物测定过程进行功率选通。耳朵生物测定过程将不同于语音生物测定过程,从而提供个体有辨别力的结果。优选地,可以将耳朵生物测定过程的输出和语音生物测定过程的输出进行组合或融合,以提供用于辨识用户的输出。在这样的实施方案中,应理解,可以在诸如头戴式受送话器或耳机的设备中执行耳朵生物测定过程,而在同一设备中或者在经耦合的主机设备(例如,移动电话的电话听筒)中执行语音生物测定过程。替代地,可以在同一主机设备(例如,移动电话的电话听筒)中执行耳朵生物测定过程和语音生物测定过程。应理解,第一音频信号可以包括超声音频信号和/或可听范围内的音频信号。可以在共同未决的美国专利申请号16/118950中找到具有耳朵生物测定过程和语音生物测定过程这二者的系统以及附加地这些过程的输出被融合的系统的一个实施例,该美国专利申请的内容通过引用纳入本文中。

图18例示了这种系统的实施方案。

具体地,图18示出了说话人验证系统500,该说话人验证系统500从输入502(诸如,高分辨率麦克风)接收包括话音的音频。系统500包括第一设备504和第二设备506。

如先前所描述的,第一设备504可以是附件设备(诸如,头戴式受送话器或其他可穿戴设备),而第二设备506是主机设备(诸如,智能电话或其他合适的设备)。在其他实施方案中,第一设备504和第二设备506是位于例如诸如智能电话的产品内的分立集成电路。可以彼此独立地供应第一设备504和第二设备506。第一设备的形式不取决于第二设备的形式,且第二设备的形式不取决于第一设备的形式。

第一设备504有些相似于图12中所例示的设备,且在上面进行了更详细的描述。因此,第一设备504包括第一生物测定校验模块508和音频校验模块510。

第一生物测定校验模块508与输入和/或输出模块512连接,且执行初始用户校验过程,该初始用户校验校验过程产生用户id得分形式的输出,该输出代表用户是一个具体的已注册用户的初始似然度。通常,第一生物测定校验模块508可以用任何合适的生物测定(诸如,视网膜扫描、指纹扫描、耳朵生物测定和语音生物测定)来操作。另外,第一生物测定校验模块508可以用合适的生物测定的任何组合来操作,其中将由不同生物测定所生成的得分进行组合或融合,以产生代表用户是一个具体的已注册用户的初始可能性的用户id得分。输入和/或输出模块512包括合适的输入和/或输出,以与第一生物测定校验模块508一起使用。例如,当第一生物测定校验模块508用视网膜扫描或指纹扫描来操作时,输入和/或输出模块512包括摄像机;当第一生物测定校验模块508用耳朵生物测定来操作时,输入和/或输出模块512包括麦克风和扬声器;以及,当第一生物测定校验模块508用语音生物测定操作时,输入和/或输出模块512至少包括麦克风。

更具体地,在一个实施方案中,第一生物测定校验模块508是耳朵生物测定校验模块。当启动第一生物测定过程时,信号从第一生物测定校验模块508发送至输入/输出模块512,导致在用户的耳朵区域中生成测试声学信号。测试声学信号可以方便地是超声信号,例如处于18khz至48khz的范围内。因此,输入/输出模块512可以包括扬声器,例如位于用户所佩戴的耳机中的扬声器。

输入/输出模块512还可以包括麦克风,该麦克风例如再次位于用户所佩戴的耳机中,且被定位成使得它可以在已经通过与用户的耳朵的交互而被改型之后检测该测试声学信号。

然后,将由麦克风所检测到的信号供应至第一生物测定校验模块508以进行分析。具体地,将由与用户的耳朵的交互所引起的声学信号的改型与一个或多个已注册用户的耳朵模型进行比较,然后第一生物测定校验模块508生成一个或多个对应的用户id得分,所述用户id得分代表该用户是该已注册用户的初始似然度。

同时,音频校验模块510被配置为确定所接收的音频是有效的还是无效的。特别地,音频校验模块510被配置为检测所接收的音频是否全部来自单个扬声器,和/或确定所接收的音频是真实的音频,还是欺骗攻击或重放攻击的产物,其中黑客或其他恶意行为者尝试欺骗说话人验证系统500。如参考图14所描述的,音频校验模块510可以包括反欺骗模块和/或说话人改变检测模块。

音频校验模块510的输出被用于判定选通模块514中,使得仅在以下情况下允许第一设备504的输出:(a)当第一生物测定校验模块508初始确定用户是已注册用户时,以及,(b)当音频校验模块510已经确定所接收的音频有效时。因此,音频校验模块510的输出被用来在选通模块514处对第一生物测定校验模块508的输出进行选通。

因此,仅在允许第一设备504的输出时,才启用第一设备504和第二设备506之间的链接,该链接可以是有线链接或无线链接。

通过使用用于确认所接收的音频有效的音频有效性检查来对第一生物测定验证的输出进行选通,确保了最终说话人验证结果仅被用于并非来自重放攻击或欺骗攻击的音频,附加地或替代地,确保了在说话人验证中使用的所接收的音频来自同一说话人,而并非来自竞争攻击或跟随进入攻击。

判定选通模块514的输出可以被用作第二设备506的输入,且更具体地是说话人校验块516的输入,该说话人校验块516用相对更具有辨别力的次级生物测定评分过程来操作。特别地,次级生物测定过程可以是语音生物测定过程。判定选通模块514的输出可以包括来自第一生物测定校验模块508的用户id得分,该用户id得分可以与第二生物测定校验模块516的输出融合,以产生总体说话人验证输出518。

由说话人校验块516所执行的语音生物测定过程可以被配置为比由第一生物测定校验块508所执行的耳朵生物测定过程或其他生物测定过程更具有辨别力。

系统500可以例如在第一设备504中设置有触发检测模块520,该触发检测模块520被布置为在检测到合适的触发时初始化第一生物测定校验系统508。这样的触发可以包括在所接收的音频中检测到的语音关键字,例如,触发短语(诸如“你好,计算机”或类似短语)。附加地或替代地,触发检测可以接收来自其他来源的输入,例如可以指示用户与说话人验证系统500的交互的系统输入(诸如,按钮按压、接近度检测、光学传感器等)。在其他实施方案中,触发检测模块520本身可以包括“轻权重”生物测定模块,该生物测定模块是低功率的但是相对不具有辨别力的生物测定。

例如,仅在由触发检测模块520所执行的生物测定过程指示已注册的用户可能正在讲话时,才可以启动由第一生物测定校验块508所执行的生物测定过程。例如,由触发检测模块520所执行的生物测定过程可以包括确认所检测到的话音的主要频率成分(例如,当检测到预定触发短语时)是否与预期的已注册用户一致。

在另一方面,系统500可以例如在如图18中所示出的第一设备504中(尽管它可以在第二设备506中或在诸如智能电话的设备中)设置有音频缓冲器522,该音频缓冲器522被布置为缓存从输入502所接收的音频。这样的缓冲器522可以如上面的实施方案中所描述的使用,其中可以将所缓存的音频提供至第二生物测定模块516,以用于进一步处理。可以通过选通模块514来控制缓冲器522的输出,以使得仅在确定所接收的音频有效时且在第一生物测定校验模块508已经确定用户是已注册用户时,才发送数据以用于进一步处理。通过在输出524上将所缓存的音频连同有效的说话人识别输出一起输出,可以在初始确定所接收的音频是一个具体说话人的音频的情况下,执行对所接收的音频的进一步处理。这样的附加处理可以包括对所接收的音频的话音识别以在命令处理中使用,或者可以使用例如用于相对高安全性操作的更具有辨别力的说话人识别过程来处理所接收的音频。

应理解,上面所描述的实施方案的细节也可以被应用至第一语音生物测定过程被任何其他合适的生物测定过程而不必是耳朵生物测定过程代替的实施方案。

在本发明的另一方面,系统可以被配置为允许基于第一生物测定过程的输出来局部访问设备的服务、功能或所存储的数据,而仅基于第二次生物测定过程的输出才允许完全访问所有服务、功能或所存储的数据。例如,在具有用于语音命令处理的推测性自动话音识别(asr)的实施方案中(其中可以与第一生物测定过程并行地执行asr,以辨识用户语音命令,从而辨识用户),可以基于第一生物测定过程的输出来启用对相对低安全性或低敏感度的服务或应用的访问,且可以在asr处理已经辨识出与这种服务有关的适当命令之后执行与这种服务有关的命令。

例如,移动电话设备可以允许基于第一生物测定过程的输出来执行与操作音乐服务或信息查询(诸如,气象预报应用)有关的命令。然而,当命令涉及相对高安全性或高敏感度的服务(例如,银行应用、个人数据等)时,则仅在第二生物测定过程已经提供了肯定的用户辨识后,才能启用访问或执行命令。

基于第一生物测定过程允许与一些应用有关的命令的这种推测性执行可以起到减少延时且提供设备的改善的用户交互的作用,同时为相对敏感的应用保留相对高的安全性要求,其中只要维持了高安全性访问级别,用户可能不太关心响应性。

在本发明的另一方面,系统可以被配置为在第一设备和第二设备之间提供不同的带宽或采样率。

系统可以被配置为使过程之间的采样率变化。例如,在自动话音识别(asr)过程中所使用的话音可能比在语音生物测定过程中所使用的话音具有更低的带宽要求,在与高精确性的反欺骗过程相比时,在语音生物测定过程中所使用的话音本身可能具有更低的带宽要求。优选地,可以向asr过程提供具有大约8khz的采样率的音频信号,可以向语音生物测定过程提供具有大约16khz的采样率的音频信号;以及,可以向反欺骗处理提供具有大约192khz的采样率的音频信号。

图19例示了这种系统的一个实施方案。

具体地,图19示出了说话人验证系统401,该说话人验证系统401从输入402(诸如,能够生成诸如192khz的高采样率的信号的高分辨率麦克风)或用于接收音频信号的任何其他合适的接口或音频收发器来接收包括话音的音频。系统401包括第一设备404和第二设备406。

如之前所描述的,第一设备404可以是附件设备(诸如,头戴式受送话器或其他可穿戴设备),而第二设备406是主机设备(诸如,智能电话或其他合适的设备)。在其他实施方案中,第一设备404和第二设备406位于例如诸如智能电话的产品内的分立集成电路。可以彼此独立地供应第一设备404和第二设备40。第一设备的形式不取决于第二设备的形式,且第二设备的形式不取决于第一设备的形式。

第一设备404通常类似于图12中所例示的设备,且在上面进行了更详细的描述。因此,第一设备404包括说话人校验模块408和音频校验模块410。说话人校验模块408对从输入402所接收的音频执行初始说话人校验过程,且提供说话人id得分和声音分类形式的输出,所述说话人id得分代表所接收的话音来自一个具体说话人的初始似然度,所述声音分类代表所接收的话音是一个具体声学类别的似然度。

音频校验模块410被配置为确定所接收的音频是有效的还是无效的。具体地,音频校验模块410被配置为检测所接收的音频是否全部来自单个说话人,和/或确定所接收的音频是真实的音频,还是欺骗攻击或重放攻击的产物,其中黑客或其他恶意行为者尝试欺骗说话人验证系统401。说话人校验模块408与音频校验模块410耦合,使得音频校验模块410至少部分地基于说话人校验模块408的输出来确定所接收的音频是有效的还是无效的。具体地,音频校验模块410的输出至少部分地基于代表所接收的话音是一个具体声学类别的似然度的声音分类,所述声音分类由说话人校验模块408输出。通过在音频校验过程中使用从说话人验证过程所输出的声音分类,可以相应地使这种音频校验过程所需的资源最小化,去减少相关联的延时。

音频校验模块410的输出被用于判定选通模块412中,使得仅在以下情况下允许第一设备404的输出:(a)当说话人校验模块408初始确定所接收的话音是已注册用户的话音时;以及(b)当音频校验模块410已经确定所接收的音频有效时。因此,音频校验模块410的输出被用来在选通模块412处对说话人校验模块408的输出进行选通。通过使用确认所接收的音频有效的音频有效性检查来对说话人验证输出进行选通,确保了说话人验证结果仅被用于并非来自重放攻击或欺骗攻击的音频,附加地或替代地,确保了说话人验证中使用的所接收的音频来自同一说话人,而非来自竞争攻击或跟随进入攻击。

判定选通模块412的输出可以被用作第二设备406的输入,且更具体地,说话人校验模块414的输入,该说话人校验模块用相对更具有辨别力的次级生物测定评分过程来操作。判定选通模块412的输出可以包括来自说话人校验模块408的说话人id得分,该说话人id得分可以与第二说话人校验块414的输出融合,以产生总体说话人验证输出416。

系统401可以例如在第一设备404中设置有触发检测模块418,该触发检测模块418被布置为在检测到合适的触发时初始化说话人校验系统408。这样的触发可以包括在所接收的音频中检测到的语音关键字,例如,触发短语(诸如,“你好,计算机”或类似短语)。附加地或替代地,触发检测可以接收来自其他来源的输入,例如可以指示用户与说话人验证系统401的交互的系统输入(诸如,按钮按压、接近度检测、光学传感器等)。

在另一方面,系统401可以例如在如图19中所示出的第一设备404中(尽管它可以在第二设备406中或在诸如智能电话的设备中)设置有音频缓冲器420,该音频缓冲器420被布置为缓存从输入402所接收的音频。这种缓冲器420可以在如上面的实施方案中所描述的使用,其中可以将所缓存的音频提供至第二生物测定模块414,以用于进一步处理。缓冲器420的输出可以由选通模块412控制,使得仅在确定所接收的音频有效时且在说话人校验模块408已经确定所接收的音频包括来自已注册用户的话音时,才发送数据以用于进一步处理。通过将所缓存的音频连同有效的说话人识别输出一起输出,相应地可以在初始确定所接收的音频是一个具体说话人的音频的情况下,执行对所接收的音频的进一步处理。这样的附加处理可以包括对所接收的音频的话音识别以用于命令处理中,或者可以使用例如用于相对高安全性操作的更具有辨别力的说话人识别过程来处理所接收的音频。

如上面所描述的,第一设备404可以被配置为接收具有相对高采样率且因此具有相对高带宽的输入信号。这样的高带宽信号可能是反欺骗模块所需要的,例如,如果反欺骗模块被配置用于辨识所接收的音频中是否存在超声频率,且使用是否存在超声频率作为对音频信号是否产生自重放攻击的指示。

语音生物测定过程通常不需要这种高采样率,因此图19示出了输入信号被施加到降采样器422,且输入信号的经抽取或降采样型式被传送至说话人校验块408,以及音频缓冲器420。

一种可能性是,例如如果说话人验证系统401确定说话的人是已恰当注册的说话人,则音频信号可以被传送至下游处理部件。例如,音频信号可以被传送至自动话音识别(asr)系统,与提供关于正在说话的人的信息的说话人识别系统不同,该自动话音识别系统辨识话音的内容。

asr系统可以在采样率甚至低于语音生物测定系统所要求的采样率的信号下运行,因此,音频缓冲器420的输出可能被传送至第二降采样器424,之后在输出426上被提供至执行asr处理的后续处理块。执行asr处理的后续处理块可以被设置在与第一设备404和/或第二设备406相同的产品中,或者所述后续处理块可以被远程地设置。

可以控制输出426上的经进一步降采样的或经抽取的信号的供应,使得仅在第二说话人校验过程已经确认说话的人是已恰当注册的说话人时,才将信号供应至后续的处理块。

因此,第一设备可以执行对所接收的音频的采样率的抽取,其中第二设备被配置为处理所接收的音频的经抽取的型式。抽取可以基于从下游处理部件所接收的输入(例如,用于由下游部件所执行的处理操作的采样率要求)来调整。由于减少了系统的功率消耗,模块或设备之间减小的带宽或采样率可以提供改善的总体系统效率,例如当第一设备与第二设备分立放置且使用例如无线数据链接连接时,经由所述链接所通信的数据带宽的减少可以改善这种设备的功率消耗和电池寿命。

附加地或替代地,第一设备可以被配置为,如果音频未被第一设备的系统验证或校验,则不初始化第一设备与第二设备之间的通信链接,例如不初始化第一设备内的无线通信调制解调器。

本领域技术人员将认识到,上文所描述的装置和方法的一些方面可以具体化为例如位于非易失性载体介质(诸如,磁盘、cd-rom或dvd-rom、程序化存储器诸如只读存储器(固件))上或位于数据载体(诸如,光学信号载体或电信号载体)上的处理器控制代码。对于许多应用,本发明的实施方案将被实施在dsp(数字信号处理器)、asic(专用集成电路)或fpga(现场可编程门阵列)上。因此,代码可以包括常规程序代码或微代码或例如用于设置或控制asic或fpga的代码。代码还可以包括用于动态地配置可重新配置的装置(诸如,可重新编程逻辑门阵列)的代码。类似地,代码可以包括用于硬件描述语言(诸如verilogtm或vhdl(超高速集成电路硬件描述语言))的代码。如本领域技术人员将理解,代码可以被分布在彼此通信的多个经耦合的部件之间。在适当的情况下,还可以使用在现场可(重新)编程模拟阵列或类似的设备上运行以配置模拟硬件的代码来实施所述实施方案。

注意,如本文中所使用的,术语模块应被用来指代可以至少部分地由专用硬件部件(诸如,自定义电路系统)实施的功能单元或功能块,和/或至少部分地由一个或多个软件处理器或在合适的通用处理器等上运行的适当的代码实施的功能单元或功能块。模块本身可以包括其他模块或功能单元。模块可以由不需要被协同定位且可以被设置在不同的集成电路上和/或在不同的处理器上运行的多个部件或子模块来提供。

实施方案可以在主机设备中实施,尤其是便携式主机设备和/或电池供电主机设备,诸如移动计算设备(例如,膝上型计算机或平板计算机)、游戏控制台、远程控制设备、家庭自动化控制器或家用电器(包括家用温度或照明控制系统)、玩具、机器(诸如,机器人)、音频播放器、视频播放器或移动电话(例如,智能电话)。

应注意,上文所提及的实施方案例示而非限制本发明,且在不偏离随附权利要求的范围的情况下,本领域技术人员将能够设计许多替代实施方案。词语“包括”不排除除了在权利要求中所列出的那些元件或步骤之外的元件或步骤的存在,“一”或“一个”不排除多个,且单个特征或其他单元可以实现权利要求中所记载的若干单元的功能。权利要求中的任何参考数字或参考标注不应被解释为对所述权利要求范围的限制。

现在以经编号的实施方案的形式呈现本公开内容的实施例。

1.一种说话人辨识的方法,包括:

接收代表话音的音频信号;

对所述音频信号执行第一语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音;以及

如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,则对所述音频信号执行第二语音生物测定过程,以尝试辨识所述话音是否是所述已注册说话人的话音,

其中所述第二语音生物测定过程被选择为比所述第一语音生物测定过程更具有辨别力。

2.根据实施方案1所述的方法,其中所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的错误接受率。

3.根据实施方案1所述的方法,其中所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的错误拒绝率。

4.根据实施方案1所述的方法,其中所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的等错误率。

5.根据任一项前述实施方案所述的方法,其中与所述第二语音生物测定过程相比,所述第一语音生物测定过程被选择为相对低功率的过程。

6.根据实施方案1所述的方法,包括基于所述第二语音生物测定过程的结果来做出关于所述话音是否是所述已注册说话人的话音的判定。

7.根据实施方案1所述的方法,包括基于所述第一语音生物测定过程的结果和所述第二语音生物测定过程的结果的融合来做出关于所述话音是否是所述已注册说话人的话音的判定。

8.根据任一项前述实施方案所述的方法,其中所述第一语音生物测定过程选自以下过程:基于分析话音的长期频谱的过程;使用高斯混合模型的方法;使用梅尔频率倒谱系数的方法;使用主成分分析的方法;使用机器学习技术(诸如,深度神经网络(dnns))的方法;以及,使用支持向量机的方法。

9.根据任一项前述实施方案所述的方法,其中所述第二语音生物测定过程选自以下过程:神经网络过程,联合因子分析过程;因子分析器的绑定混合过程;以及,i-vector过程。

10.根据任一项前述实施方案所述的方法,其中在第一设备中执行所述第一语音生物测定过程,且在远离所述第一设备的第二设备中执行所述第二语音生物测定过程。

11.根据任一项前述实施方案所述的方法,包括:将所述第二语音生物测定过程维持在低功率状态;以及,如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,则激活所述第二语音生物测定过程。

12.根据任一项前述实施方案所述的方法,包括:响应于基于所述第一语音生物测定过程的局部完成而初始确定所述话音可能是已注册用户的话音,激活所述第二语音生物测定过程,以及基于所述第一语音生物测定过程的完成而确定所述话音不是所述已注册用户的话音,去激活所述第二语音生物测定过程。

13.根据任一项前述实施方案所述的方法,包括:

在所接收的音频信号中检测触发短语;以及

响应于检测到触发短语,对所接收的音频信号执行所述第一语音生物测定过程。

14.根据任一项前述实施方案所述的方法,包括:

在所接收的音频信号中检测语音活动;以及

响应于检测到语音活动,对所接收的音频信号的至少一部分执行所述第一语音生物测定过程。

16.根据实施方案1至14中的任一项所述的方法,包括:

在所接收的音频信号中检测语音活动;

响应于检测到语音活动,执行关键字检测;以及

响应于检测到关键字,对所接收的音频信号的至少一部分执行所述第一语音生物测定过程。

17.根据任一项前述实施方案所述的方法,包括:

对整个所接收的音频信号执行所述第一语音生物测定过程。

18.根据任一项前述实施方案所述的方法,包括使用所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,作为对所接收的音频信号包括话音的指示。

19.根据实施方案1至18中的任一项所述的方法,包括:

执行适于确定信号是否包含已注册用户的话音的语音生物测定过程的至少一部分,且在确定所述信号包含人类话音时生成输出信号。

20.根据实施方案19所述的方法,包括将相似度得分与第一阈值进行比较,以确定所述信号是否包含已注册用户的话音,且将所述相似度得分与第二较低阈值进行比较,以确定所述信号是否包含话音。

21.根据实施方案20的方法,包括在确定所述信号包含人类话音之后,能够确定所述信号是否包含已注册用户的话音。

22.根据任一项前述实施方案所述的方法,其中所述第一语音生物测定过程被配置为模拟处理系统,且所述第二语音生物测定过程被配置为数字处理系统。

23.根据任一项前述实施方案所述的方法,还包括对所接收的音频信号执行一个或多个测试,以确定所接收的音频信号是否具有指示所述所接收的音频信号可能产生自重放攻击的特性。

24.根据实施方案23所述的方法,包括仅在确定所接收的音频信号不具有指示所述所接收的音频信号可能产生自重放攻击的特性时,才对所接收的音频信号执行所述第二语音生物测定过程。

25.一种说话人辨识系统,包括:

一个输入,用于接收代表话音的音频信号;

包括第一处理器的第一设备,所述第一处理器用于对所述音频信号执行第一语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音;以及

包括第二处理器的第二设备,所述第二处理器用于对所述音频信号执行第二语音生物测定过程,以尝试辨识所述话音是否是所述已注册说话人的话音,

其中如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,则启动第二语音生物测定过程,以及

其中所述第二语音生物测定过程被选择为比所述第一语音生物测定过程更具有辨别力。

26.根据实施方案25所述的说话人辨识系统,其中所述第一设备包括第一集成电路,且所述第二设备包括第二集成电路。

27.根据实施方案25或26所述的说话人辨识系统,其中所述第一设备包括专用生物测定集成电路。

28.根据实施方案27所述的说话人辨识系统,其中所述第一设备是附件设备。

29.根据实施方案28所述的说话人辨识系统,其中所述第一设备是听音设备。

30.根据实施方案25或26所述的说话人辨识系统,其中所述第二设备包括应用处理器。

31.根据实施方案30所述的说话人辨识系统,其中所述第二设备是电话听筒设备。

32.根据实施方案31所述的说话人辨识系统,其中所述第二设备是智能电话。

33.根据实施方案25至32中的任一项所述的说话人辨识系统,

其中所述第一设备被布置为对所述音频信号执行欺骗检测过程,以辨识所述音频信号是否是音频欺骗攻击的结果,以及

其中通过所述欺骗检测过程的输出来对所述第一语音生物测定过程的输出进行选通,使得如果检测到欺骗攻击,则阻止所述第一语音生物测定过程启动所述第二语音生物测定过程。

34.一种说话人验证输出的说话人验证方法,包括以下步骤:

接收包括话音的音频;

对所接收的音频执行说话人验证过程,所述说话人验证过程被配置为输出:

(iii)说话人id得分,代表所接收的话音来自一个具体说话人的似然度,以及

(iv)声音分类,代表在所接收的音频中所检测到的声学类别的分布;

对所接收的音频执行音频校验过程,以生成指示所接收的音频的有效性的输出,其中所述音频校验过程至少部分地基于来自所述说话人验证过程的声音分类;以及

基于所述音频校验过程的输出来对所述说话人验证过程的输出进行选通,以使得仅针对所接收的有效音频输出所述说话人id得分。

35.根据实施方案34所述的方法,其中所述音频校验过程附加地至少部分地基于来自所述说话人验证过程的所述说话人id得分。

36.根据实施方案34或实施方案35所述的方法,其中执行音频校验过程的步骤包括:

基于所接收的音频和声音分类来执行反欺骗(as)过程。

37.根据实施方案36所述的方法,其中所述反欺骗过程包括以下中的至少一个:

使用所接收的音频和对所述话音中存在的声学类别的指示的反欺骗方法;

基于超声功率水平的反欺骗系统;

基于磁功率水平的反欺骗系统;以及

基于扬声器检测的反欺骗系统。

38.根据实施方案37所述的方法,包括执行多个不同的反欺骗过程,以及组合或融合这些不同的反欺骗过程的输出,以提供反欺骗判定。

39.根据实施方案34-38中的任一项所述的方法,其中执行音频校验过程的步骤包括:

基于以下中的至少一个或多个的组合来执行说话人改变检测(scd)过程:所述说话人id得分;所述声音分类;所接收的音频。

40.根据实施方案39所述的方法,其中所述音频校验过程被配置为生成一个输出,该输出指示在说话人改变之前所接收的音频的一部分是有效的。

41.根据实施方案39或40所述的方法,其中所述scd过程基于以下中的至少一个:

加时间窗的说话人id得分;

监测所接收的音频的基频或f0的改变;

监测从所述声音分类中所辨识出的所接收的音频的声学类别的分布的改变;

监测从所述声音分类中所辨识出的所接收的一个具体声学类别的音频的基频的改变;

重音跟踪;

情绪跟踪;或

任何其他合适的说话人改变检测方法。

42.根据实施方案39、40或41所述的方法,包括执行多个不同的scd过程,以及组合或融合这些不同的scd过程的输出,以提供scd判定。

43.根据实施方案39-42中的任一项所述的方法,其中所述音频校验过程的输出被用作所述说话人验证过程的输入。

44.根据实施方案43所述的方法,其中所述scd过程的输出被用作所述说话人验证处理的输入,其中所述scd过程的输出限定了所接收的音频中应当执行说话人验证过程的那部分。

45.根据实施方案43或实施方案44所述的方法,其中所述反欺骗(as)过程的输出被用作所述说话人验证过程的输入,其中所述as过程的输出限定了所接收的音频中执行说话人验证过程的一部分。

46.根据实施方案34-45中的任一项所述的方法,其中所述方法还包括以下步骤:

缓存所接收的音频;以及

响应于对所述说话人验证过程的输出进行选通的步骤,输出有效的说话人识别输出和所缓存的音频。

47.根据实施方案34-46中的任一项所述的方法,其中执行说话人识别过程的步骤包括:

执行多个不同的说话人识别过程,以提供相应的多个说话人识别得分,以及

融合所述多个说话人识别得分,以提供所述说话人id得分。

48.根据实施方案34-47中的任一项所述的方法,其中所述说话人识别过程包括以下中的一个或多个:

基于高斯混合模型(gmm)的方法;

基于联合因子分析(jfa)的方法;

基于跟踪说话人的基频的说话人识别过程;或

基于机器学习或深度神经网络的过程(ml-dnn)。

49.根据实施方案34-48中任一项所述的方法,其中执行说话人识别过程的步骤包括以下步骤:

执行所接收的音频的分类以辨识声音分类,所述声音分类辨识所接收的音频中存在的声学类别;以及

基于所辨识出的声音分类,对照所存储的由已注册说话人所产生的声学类别的模板,对所接收的音频进行评分,以从所述已注册说话人中辨识所接收的音频的说话人。

50.根据实施方案34-49中的任一项所述的方法,其中所述方法包括以下步骤:

对所接收的音频执行特征提取,且其中对从所接收的音频所提取的特征执行所述执行说话人识别过程的步骤。

51.根据实施方案34-50中的任一项所述的方法,其中响应于接收到触发信号(例如,关键字检测)来执行所述执行说话人识别过程的步骤。

52.根据实施方案51所述的方法,其中所述方法包括监测触发信号的步骤,例如执行语音关键字检测过程。

53.根据实施方案34-52中的任一项所述的方法,其中针对所有所接收的音频连续地执行所述执行说话人识别过程的步骤,且其中所述方法包括以下步骤:响应于触发检测(诸如,关键字检测),从所述说话人验证过程生成输出。

54.一种说话人识别方法,包括以下步骤:

执行根据实施方案34-53中的任一项所述的方法的至少一部分,作为初级生物测定评分的一部分;以及

基于所接收的音频来执行次级生物测定评分以提供第二说话人id得分,响应于所接收的来自所述初级生物测定评分的有效音频对说话人验证输出进行选通的步骤,执行所述次级生物测定评分,

其中所述次级生物测定评分被选择为不同于所述初级生物测定评分。

55.根据实施方案54所述的方法,其中所述方法包括以下步骤:将来自所述初级生物测定评分的说话人id得分与所述次级生物测定评分的第二说话人id得分进行融合,以提供说话人认证结果。

56.根据实施方案54或55所述的方法,其中所述说话人识别方法被配置为使得:

所述初级生物测定评分被选择为具有相对高的错误接受率(far)和相对低的错误拒绝率(frr)。

57.根据实施方案56所述的方法,其中:

所述次级生物测定评分被选择为具有比所述初级生物测定评分相对更低的far。

58.一种用于实施根据实施方案34-57中的任一项所述的方法的步骤的系统。

59.一种用于提供说话人验证输出的说话人验证系统,所述系统包括:

一个输入,用于接收包括话音的音频信号;

与所述输入耦合的说话人验证模块,所述说话人验证模块被布置为处理所述音频信号,以提供:

(i)说话人id得分,代表所接收的话音来自一个具体说话人的似然度,以及

(ii)声音分类,代表在所接收的音频中检测到的声学类别的分布;

与所述输入和所述说话人验证模块耦合的音频校验模块,所述音频校验模块被布置为生成指示所接收的音频的有效性的输出,所述输出至少部分地基于由所述说话人验证模块所提供的声音分类;以及

选通模块,被配置为基于所述音频校验模块的输出来对所述说话人验证模块的输出进行选通,以使得仅为所接收的有效音频输出所述说话人id得分。

60.一种多级说话人验证系统,所述系统包括:

一个输入,用于接收包括话音的音频信号;

包括第一处理器的第一设备,所述第一设备包括实施方案59的说话人验证系统,所述第一设备被布置为基于所接收的音频信号来提供第一说话人验证输出;以及

包括第二处理器的第二设备,所述第二设备与所述第一设备耦合,所述第二设备被配置为基于所接收的音频信号来执行次级生物测定评分,以提供第二说话人验证输出,所述第二设备响应于接收到来自所述第一设备的第一说话人验证输出来执行所述次级生物测定评分,

其中所述次级生物测定评分被选择为不同于所述初级生物测定评分。

61.根据实施方案60所述的系统,其中所述系统还包括融合模块,其中所述融合模块被布置为融合所述第一说话人验证输出和所述第二说话人验证输出,以提供经融合的说话人验证输出。

62.根据实施方案60或实施方案61所述的系统,其中所述第一设备被设置为第一集成电路,且所述第二设备被设置为第二集成电路。

63.根据实施方案60-62中的任一项所述的系统,其中所述第一设备被设置为相对低功率的始终开启的设备,且所述第二设备被设置为相对高功率的偶尔触发的设备,优选地通过所述第一设备进行功率选通的设备。

64.根据实施方案60-63中的任一项所述的系统,其中所述第一设备和所述第二设备通信耦合。

65.一种用户辨识的方法,包括:

接收代表接近用户的耳朵所接收的声学响应的第一声学信号;

对所述第一声学信号执行耳朵生物测定过程,以尝试辨识所述声学响应是否指示已注册用户的耳朵;

接收代表话音的第二音频信号;以及

如果所述耳朵生物测定过程初始确定所述声音响应指示已注册用户的耳朵,则对所述第二音频信号执行语音生物测定过程,以尝试辨识所述话音是否是已注册用户的话音。

66.根据实施方案65所述的方法,其中所述语音生物测定过程被选择为比所述耳朵生物测定过程更具有辨别力。

67.一种用于用户辨识的系统,包括:

包括第一处理器的第一设备,所述第一设备被配置为接收代表接近用户的耳朵所接收的声学响应的第一声学信号,且还被配置为对所述第一声学信号执行耳朵生物测定过程,以尝试辨识所述声学响应是否指示已注册用户的耳朵,从而提供第一用户验证输出;以及

包括第二处理器的第二设备,所述第二设备与所述第一设备耦合,所述第二设备被配置为接收代表话音的第二音频信号,且还被配置为基于所述第二音频信号来执行语音生物测定过程,以提供第二用户验证输出,所述第二设备响应于接收到来自所述第一设备的第一用户验证输出来执行所述语音生物测定评分。

68.根据实施方案67所述的系统,其中所述第一设备和所述第二设备被配置为使得所述语音生物测定过程被选择为比所述耳朵生物测定过程更具有辨别力。

69.根据上面所列的方法实施方案中的任一项所述的方法,还包括以下步骤:

在初始确定之后,继续对所述音频信号执行所述第一语音生物测定过程,以提供所述话音是否是已注册用户的话音的进一步确定;以及

其中通过所述第一语音生物测定过程的所述进一步确定来对所述第二语音生物测定过程的输出进行选通。

70.根据上面所列的系统实施方案中的任一项所述的说话人识别系统,其中:

包括所述第一处理器的第一设备被配置为在所述初始确定之后,对所述音频信号继续执行所述第一语音生物测定过程,以提供所述话音是否是已注册用户的话音的进一步确定;以及

其中包括所述第二处理器的第二设备被配置为使得通过所述第一语音生物测定过程的进一步确定来对所述第二语音生物测定过程的输出进行选通。

71.一种说话人识别的方法,包括:

接收代表话音的音频信号;

对所述音频信号执行第一语音生物测定过程,以尝试辨识所述话音是否是已注册说话人的话音;以及

如果所述第一语音生物测定过程初始确定所述话音是已注册用户的话音,则对所述音频信号执行第二语音生物测定过程,以尝试辨识所述话音是否是所述已注册说话人的语音,

其中所述第一语音生物测定过程被配置为具有错误接受率和错误拒绝率,以及

其中所述第二语音生物测定过程被配置为具有比所述第一语音生物测定过程更低的错误接受率。

72.根据实施方案71所述的方法,其中所述第一语音生物测定过程被配置为具有低于5%的错误拒绝率。

73.根据实施方案72所述的方法,其中所述第一语音生物测定过程被配置为具有低于2%的错误拒绝率。

74.一种说话人辨识的方法,包括:

接收包括话音的音频信号;

对所接收的音频信号执行音频校验过程,其中所述音频校验过程包括监测所接收的音频信号的至少一个超声成分;

对所接收的音频信号进行降采样;

对所接收的经降采样的音频信号执行说话人验证过程;以及

仅在所述音频校验过程生成指示所接收的音频有效的输出时,才输出所述说话人验证过程的结果。

75.根据实施方案74所述的方法,其中执行所述音频校验过程的步骤包括确定所接收的音频信号是否可能产生自重放攻击。

76.根据实施方案75所述的方法,其中执行所述音频校验过程的步骤包括确定所接收的音频信号是否包含超声成分。

77.根据实施方案76所述的方法,其中所接收的音频信号具有至少40khz的采样率。

78.根据实施方案74-77中的一项所述的方法,包括将所接收的音频信号降采样至低于20khz的采样率。

79.根据实施方案74-78中的一项所述的方法,包括将所接收的音频信号降采样至第一采样速率;以及

进一步包括,如果所述说话人验证过程的结果指示所接收的音频信号代表已注册用户的话音:

将所接收的音频信号降采样至第二采样率,其中所述第二采样率低于所述第一采样率,以使得可以以所述第二采样率对所接收的音频信号执行话音识别。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1