声纹信号的更新方法及其装置、电子设备及存储介质与流程

文档序号:29125268发布日期:2022-03-04 23:45阅读:162来源:国知局
声纹信号的更新方法及其装置、电子设备及存储介质与流程

1.本发明涉及金融科技领域,具体而言,涉及一种声纹信号的更新方法及其装置、电子设备及存储介质。


背景技术:

2.采用声纹进行身份认证已经成为一种常见的识别方式,相关技术中,通常采用传统的身份认证矢量(identity vector,i-vector)方法进行声纹建模,该方法在文本无关的条件下能得到较好的效果,通过将语音映射到一个具有类别区分性的特征空间中,根据特征间距离直接比较说话人间的相似性。
3.声纹主要与发音器官的生理结构以及发声器官被操纵的方式有关,第一发音器官的生理结构(口舌声带口腔的位置以及尺寸)会随着人们年龄的增长而发生巨大的变化(儿童,少年,中年,老年各个年龄段的声音都会一直变化),这样发出的音频信号的频率范围以及声音张力的大小都会随之改变,并且,后天学习也会使得声纹发生变化(例如,后天学习的新的发音习惯会改变之前的发音方式)。因此,当被识别人的音频信号随着年龄的增长发生改变或者因后天学习发生变化时,采用现有的i-vector方法进行声纹识别,由于其没有较强的鲁棒性,会导致识别地准确率降低,尤其是不适应具有长期需要声纹识别的场景任务中。
4.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本发明实施例提供了一种声纹信号的更新方法及其装置、电子设备及存储介质,以至少解决相关技术中采用传统的身份认证矢量方式,无法在长期内保持识别声纹的准确率的技术问题。
6.根据本发明实施例的一个方面,提供了一种声纹信号的更新方法,包括:采集目标用户的音频信号,并对所述音频信号进行分帧处理,得到语音帧集合;基于所述语音帧集合,提取所述音频信号的声纹信号特征;对比所述音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度;在所述相似度大于预设相似度阈值的情况下,计算出与所述注册声纹具备最高匹配度的语音帧,得到目标语音帧;采用所述目标语音帧替换所述注册声纹中音频信号最低的语音帧,以更新所述注册声纹的音频信号。
7.可选地,在采集目标用户的音频信号之后,所述更新方法还包括:将采集的模拟音频信号转换为数字音频信号,并按照预设存储格式保存转换后的所述数字音频信号;对所述数字音频信号进行能量归一化处理和预加重处理,得到待分帧的所述音频信号,其中,所述预加重处理是指采用高通滤波器对所述数字音频信号中信号频率大于预设频率阈值的音频信号进行加重处理。
8.可选地,在对所述音频信号进行分帧处理,得到语音帧集合之后,所述更新方法还包括:对所述语音帧集合中各语音帧之间的截断信号进行加窗处理;在完成加窗处理后,计
算所述语音帧集合中每个所述语音帧的信号短时能量;删除信号短时能量低于预设能量阈值的所述语音帧,保留信号短时能量大于等于所述预设能量阈值的所述语音帧。
9.可选地,基于所述语音帧集合,提取所述音频信号的声纹信号特征的步骤,包括:对所述语音帧集合中各语音帧进行傅里叶变换,得到语音频谱;将所述语音频谱进行二次方运算,得到语音能量谱;对所述语音能量谱进行滤波处理,得到对数能量;对所述对数能量进行离散余弦变换,得到所述音频信号的声纹信号特征。
10.可选地,对所述语音能量谱进行滤波处理,得到对数能量的步骤,包括:在对所述语音能量谱进行滤波处理后,确定按照梅尔频率分布的多个三角滤波器;基于所述三角滤波器的频率响应参数,计算所述三角滤波器的对数能量。
11.可选地,在对比所述音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度之后,所述更新方法还包括:在所述相似度大于预设相似度阈值的情况下,确定所述目标用户的语音认证成功。
12.可选地,在计算出与所述注册声纹具备最高匹配度的语音帧,得到目标语音帧之后,所述更新方法还包括:获取所述注册声纹中各分频语音帧的语音信号短时能量;将最小的语音信号短时能量所对应的语音帧确定为所述注册声纹中音频信号最低的语音帧。
13.根据本发明实施例的另一方面,还提供了一种声纹信号的更新装置,包括:分帧单元,用于采集目标用户的音频信号,并对所述音频信号进行分帧处理,得到语音帧集合;提取单元,用于基于所述语音帧集合,提取所述音频信号的声纹信号特征;对比单元,用于对比所述音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度;计算单元,用于在所述相似度大于预设相似度阈值的情况下,计算出与所述注册声纹具备最高匹配度的语音帧,得到目标语音帧;更新单元,用于采用所述目标语音帧替换所述注册声纹中音频信号最低的语音帧,以更新所述注册声纹的音频信号。
14.可选地,所述更新装置还包括:第一转换模块,用于在采集目标用户的音频信号之后,将采集的模拟音频信号转换为数字音频信号,并按照预设存储格式保存转换后的所述数字音频信号;第一处理模块,用于对所述数字音频信号进行能量归一化处理和预加重处理,得到待分帧的所述音频信号,其中,所述预加重处理是指采用高通滤波器对所述数字音频信号中信号频率大于预设频率阈值的音频信号进行加重处理。
15.可选地,所述更新装置还包括:第一加窗模块,用于在对所述音频信号进行分帧处理,得到语音帧集合之后,对所述语音帧集合中各语音帧之间的截断信号进行加窗处理;第一计算模块,用于在完成加窗处理后,计算所述语音帧集合中每个所述语音帧的信号短时能量;第一删除模块,用于删除信号短时能量低于预设能量阈值的所述语音帧,保留信号短时能量大于等于所述预设能量阈值的所述语音帧。
16.可选地,所述提取单元包括:第一变换模块,用于对所述语音帧集合中各语音帧进行傅里叶变换,得到语音频谱;第一运算模块,用于将所述语音频谱进行二次方运算,得到语音能量谱;第一滤波模块,用于对所述语音能量谱进行滤波处理,得到对数能量;第二变换模块,用于对所述对数能量进行离散余弦变换,得到所述音频信号的声纹信号特征。
17.可选地,所述第一滤波模块包括:第一确定子模块,用于在对所述语音能量谱进行滤波处理后,确定按照梅尔频率分布的多个三角滤波器;第一计算子模块,用于基于所述三角滤波器的频率响应参数,计算所述三角滤波器的对数能量。
18.可选地,所述更新装置还包括:第一确定模块,用于在对比所述音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度之后,在所述相似度大于预设相似度阈值的情况下,确定所述目标用户的语音认证成功。
19.可选地,所述更新装置还包括:第一获取模块,用于在计算出与所述注册声纹具备最高匹配度的语音帧,得到目标语音帧之后,获取所述注册声纹中各分频语音帧的语音信号短时能量;第二确定模块,用于将最小的语音信号短时能量所对应的语音帧确定为所述注册声纹中音频信号最低的语音帧。
20.根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项所述的声纹信号的更新方法。
21.根据本发明实施例的另一方面,还提供了一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项所述的声纹信号的更新方法。
22.在本公开中,采集目标用户的音频信号,并对音频信号进行分帧处理,得到语音帧集合,基于语音帧集合,提取音频信号的声纹信号特征,对比音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度,在相似度大于预设相似度阈值的情况下,计算出与注册声纹具备最高匹配度的语音帧,得到目标语音帧,采用目标语音帧替换注册声纹中音频信号最低的语音帧,以更新注册声纹的音频信号。在本公开中,在相似度大于预设相似度阈值的情况下可确认用于声纹认证通过,此时可通过当前时刻采集得到的用户音频信号某一语音帧替换原有的注册声纹中的音频信号最低的语音帧,从而能够实时的更新用户的认证声纹,这样不仅能够克服因不同年龄段的声纹变化或者因后天学习的声纹变化,导致声纹识别准确率降低的困难,而且可以有效地增强声纹识别的鲁棒性,进而解决了相关技术中采用传统的身份认证矢量方式,无法在长期内保持识别声纹的准确率的技术问题。
附图说明
23.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
24.图1是根据本发明实施例的一种可选的声纹信号的更新方法的流程图;
25.图2是根据本发明实施例的一种可选的音频信号分帧的示意图;
26.图3是根据本发明实施例的一种可选的音频信号收集与预处理的流程图;
27.图4是根据本发明实施例的一种可选的声纹信号特征提取的流程图;
28.图5是根据本发明实施例的一种可选的基于抗时变的声纹识别方法的流程图;
29.图6是根据本发明实施例的一种可选的基于抗时变的声纹认证方法的流程图;
30.图7是根据本发明实施例的一种可选的声纹信号的更新装置的示意图;
31.图8是根据本发明实施例的一种用于声纹信号的更新方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
32.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
33.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
34.为便于本领域技术人员理解本发明,下面对本发明各实施例中涉及的部分术语或名词做出解释:
35.梅尔频率倒谱系数(mel-frequency cepstral coefficients,简称mfcc):梅尔频率是基于人耳听觉特性提出来的,它与赫兹hz频率成非线性对应关系,而梅尔频率倒谱系数可以利用它们之间的这种关系,计算得到的hz频谱特征,本技术中,可用于语音数据特征提取和降低运算维度。
36.汉明窗:可以看作是3个矩形时间窗的频谱之和,或者说是3个s in(t)型函数之和,而括号中的两项相对于第一个谱窗向左、右各移动了π/t,从而使旁瓣互相抵消,消去高频干扰和漏能,适用于非周期性的连续信号。
37.加窗:数字信号处理的主要数学工具是傅里叶变换,而傅里叶变换是研究整个时间域和频率域的关系,不过,当运用计算机实现工程测试信号处理时,不可能对无限长的信号进行测量和运算,而是取其有限的时间片段进行分析,其做法是从信号中截取一个时间片段,然后用截取的信号时间片段进行周期延拓处理,得到虚拟的无限长的信号,然后就可以对信号进行傅里叶变换、相关分析等数学处理。
38.需要说明的是,本公开中的声纹信号的更新方法及其装置可用于金融科技领域在更新声纹信号的情况下,也可用于除金融科技领域之外的任意领域在更新声纹信号的情况下,本公开中对声纹信号的更新方法及其装置的应用领域不做限定。
39.需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
40.本发明下述各实施例可应用于各种更新声纹信号的系统/应用/设备中。在声纹的应用场景中,每个人在各个年龄段的声音存在较大的差异,并且,再加上后天学习的影响,现有的声纹识别很难保证其准确性。本发明提供了一种基于抗时变算法的声纹识别和声纹更新方法,能够克服不同年龄段和后天学习造成的声纹识别准确率低的困难,有效地提高声纹各应用场景的识别率。
41.下面结合各个实施例来详细说明本发明。
42.实施例一
43.根据本发明实施例,提供了一种声纹信号的更新方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
44.图1是根据本发明实施例的一种可选的声纹信号的更新方法的流程图,如图1所示,该方法包括如下步骤:
45.步骤s101,采集目标用户的音频信号,并对音频信号进行分帧处理,得到语音帧集合。
46.步骤s102,基于语音帧集合,提取音频信号的声纹信号特征。
47.步骤s103,对比音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度。
48.步骤s104,在相似度大于预设相似度阈值的情况下,计算出与注册声纹具备最高匹配度的语音帧,得到目标语音帧。
49.步骤s105,采用目标语音帧替换注册声纹中音频信号最低的语音帧,以更新注册声纹的音频信号。
50.通过上述步骤,可以采集目标用户的音频信号,并对音频信号进行分帧处理,得到语音帧集合,基于语音帧集合,提取音频信号的声纹信号特征,对比音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度,在相似度大于预设相似度阈值的情况下,计算出与注册声纹具备最高匹配度的语音帧,得到目标语音帧,采用目标语音帧替换注册声纹中音频信号最低的语音帧,以更新注册声纹的音频信号。在本发明实施例中,在相似度大于预设相似度阈值的情况下可确认用于声纹认证通过,此时可通过当前时刻采集得到的用户音频信号某一语音帧替换原有的注册声纹中的音频信号最低的语音帧,从而能够实时的更新用户的认证声纹,这样不仅能够克服因不同年龄段的声纹变化或者因后天学习的声纹变化,导致声纹识别准确率降低的困难,而且可以有效地增强声纹识别的鲁棒性,进而解决了相关技术中采用传统的身份认证矢量方式,无法在长期内保持识别声纹的准确率的技术问题。
51.下面结合上述各步骤对本发明实施例进行详细说明。
52.步骤s101,采集目标用户的音频信号,并对音频信号进行分帧处理,得到语音帧集合。
53.在本发明实施例中,声纹音频文件(包括音频信号)可以由各种终端(例如,手机、电话、自助终端等)的声音采集设备进行采集,一般采集频率可以为8至16khz,并可以使用12bit、16bit的量化精度,在采集目标用户的音频信号后,可以将采集后的音频信号进行分帧处理,得到语音帧集合。
54.图2是根据本发明实施例的一种可选的音频信号分帧的示意图,如图2所示,为了更好的对长语音进行分析,需要将存储的长语音数据划分为等长的短语音片段(短语音1、短语音2、短语音3、
……
、短语音n,例如,可以分为10ms到30ms的短语音段为一帧),从而得到音帧集合。
55.可选的,在采集目标用户的音频信号之后,更新方法还包括:将采集的模拟音频信
号转换为数字音频信号,并按照预设存储格式保存转换后的数字音频信号;对数字音频信号进行能量归一化处理和预加重处理,得到待分帧的音频信号,其中,预加重处理是指采用高通滤波器对数字音频信号中信号频率大于预设频率阈值的音频信号进行加重处理。
56.在本发明实施例中,采集后的音频信号可以先利用奈奎斯特采样定律将模拟音频信号转换为数字音频信号,并按照预设存储格式(例如,.wav格式)保存转换后的数字音频信号。
57.本实施例可以对数字音频信号进行一系列的预处理(包括:能量归一化处理、预加重、分帧、加窗以及端点检测等),用于消除发声器官的物理特性以及外界环境噪声带来偏差。下面分别对预处理的方式进行示意性说明。
58.在本实施例中,可以对数字音频信号进行能量归一化处理和预加重处理,得到待分帧的音频信号,具体如下:
59.可以先对数字音频信号进行能量归一化处理,能够保证声纹音量大小对语音帧能量值的影响较小,然后,接着对数字音频信号进行预加重处理,由于语音信号受到口鼻辐射和声门激励的影响,在800hz以上的高频分量会以6db/倍频衰减,所以预加重是为了弥补能量在高频部分的损耗,同时,对低频部分进行衰减,减小噪声影响,使语音信号频谱平坦化,使低频到高频的整个频带能用同样的信噪比求频谱。
60.预加重处理可以采用一阶高通滤波器,其目的是对信号高频部分加重(即采用高通滤波器对数字音频信号中信号频率大于预设频率阈值(可根据实际情况进行设置)的音频信号进行加重处理),使得原始信号采样变换得到数字语音信号。为凸显高频分量,依次通过高通滤波器,可以采用公式(1)进行预加重处理,其中,0.9为预加重系数,z表示为某一信号分量。
61.h
(z)
=1-0.9z-1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1);
62.在完成能量归一化处理和预加重处理后,可以进行分帧处理和加窗处理。
63.可选的,在对音频信号进行分帧处理,得到语音帧集合之后,更新方法还包括:对语音帧集合中各语音帧之间的截断信号进行加窗处理;在完成加窗处理后,计算语音帧集合中每个语音帧的信号短时能量;删除信号短时能量低于预设能量阈值的语音帧,保留信号短时能量大于等于预设能量阈值的语音帧。
64.在本发明实施例中,在对音频信号进行分帧处理,得到语音帧集合之后,可以对语音帧集合中各语音帧之间的截断信号进行加窗处理。由于分帧处理会导致语音帧信号的截断,从而导致频谱能量泄露,因此,可以通过加窗(可以采用汉明窗对声纹语音信号进行处理)的方式使截断处的信号能平滑过渡,其中,汉明窗时域函数如公式(2),其中,n为帧长,一般可以取512。
[0065][0066]
在完成加窗处理后,可以计算语音帧集合中每个语音帧的信号短时能量,删除信号短时能量低于预设能量阈值(可根据实际情况进行设置)的语音帧,保留信号短时能量大于等于预设能量阈值的语音帧。本实施例可以通过端点检测去除信号中的微弱片段,保留有效的语音片段,可以使用信号短时能量来表示语音强弱,可以根据以下公式(3)计算信号短时能量e
(n)
,将能量值低于预设能量阈值(例如,10)的进行剔除,这样便能保证高质量语
音信号,其中,x(n)表示某一片段语音信号,并假设有n个片段。
[0067][0068]
本实施例经过一系列的预处理(包括:能量归一化处理、预加重、分帧、加窗以及端点检测等)后,音频信号便会成为若干个离散的语音帧,得到音帧集合。
[0069]
图3是根据本发明实施例的一种可选的音频信号收集与预处理的流程图,如图3所示,采集音频信号(模拟信号)后,可以利用奈奎斯特采样定律将模拟信号转化为数字信号,之后,对该数字信号进行能量归一化处理、预加重、分帧、加窗以及端点检测等处理,得到音帧集合。
[0070]
步骤s102,基于语音帧集合,提取音频信号的声纹信号特征。
[0071]
可选的,基于语音帧集合,提取音频信号的声纹信号特征的步骤,包括:对语音帧集合中各语音帧进行傅里叶变换,得到语音频谱;将语音频谱进行二次方运算,得到语音能量谱;对语音能量谱进行滤波处理,得到对数能量;对对数能量进行离散余弦变换,得到音频信号的声纹信号特征。
[0072]
梅尔频率倒谱系数(mfcc)是倒谱系数中的一种,作用在梅尔刻度频率域,能够准确地提取人体听觉系统感知频率的非线性声纹信号特征,本发明实施例可以采用mfcc算法进行音频信号的特征提取。
[0073]
在本发明实施例中,图4是根据本发明实施例的一种可选的声纹信号特征提取的流程图,如图4所示,得到预处理的音频信号后,可以乘以汉明窗时域函数(公式(2)),可以将信号从时域转换到频域,之后将转换到频域的信号(即声纹频域信号)进行傅里叶变换(即对语音帧集合中各语音帧进行傅里叶变换,该语音帧信号已经转换为频域信号),可以采用公式(4)进行傅里叶变换,得到语音频谱,其中,n为傅里叶变换的点数,一般可以取1024,x(n)表示某一频域信号。
[0074][0075]
然后,将语音频谱进行二次方运算,得到语音能量谱,再对该语音能量谱进行滤波处理,得到对数能量s(m),之后对对数能量s(m)进行离散余弦变换,得到音频信号的声纹信号特征,可以采用公式(5)对对数能量s(m)进行离散余弦变换,得到声纹信号特征,其中,s(m)第m个对数能量,m为对对数能量s(m)进行滤波处理的滤波器的个数,n声纹信号特征的数量。
[0076][0077]
可选的,对语音能量谱进行滤波处理,得到对数能量的步骤,包括:在对语音能量谱进行滤波处理后,确定按照梅尔频率分布的多个三角滤波器;基于三角滤波器的频率响应参数,计算三角滤波器的对数能量。
[0078]
在本发明实施例中,在对能量谱进行滤波处理后(例如,mel滤波),可以确定按照梅尔频率分布的多个三角滤波器,之后通过这些三角滤波器,按照公式(6)计算这些滤波器的对数能量s(m)(即基于三角滤波器的频率响应参数,计算三角滤波器的对数能量),其中,hm
(k)为滤波器的频率响应,m为滤波器的个数,一般可以取24。
[0079][0080]
步骤s103,对比音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度。
[0081]
可选的,在对比音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度之后,更新方法还包括:在相似度大于预设相似度阈值的情况下,确定目标用户的语音认证成功。
[0082]
在本发明实施例中,可以对预先存储的注册声纹进行声纹信号特征提取,在提取到最近时间内的音频信号的声纹信号特征后,可以对比两者之间的声纹信号特征的相似度,在相似度小于等于预设相似度阈值(可根据实际情况进行设定)的情况下,则可以判定为该声纹非本人;在相似度大于预设相似度阈值的情况下,确定目标用户的语音认证成功,即该声纹为本人的声纹,当前待认证用户与注册声纹所属的用户为同一人。
[0083]
步骤s104,在相似度大于预设相似度阈值的情况下,计算出与注册声纹具备最高匹配度的语音帧,得到目标语音帧。
[0084]
在本发明实施例中,在相似度大于预设相似度阈值的情况下,可以计算最近采集的声纹中的预处理后的若干个分频语音帧的语音信号短时能量,进行比较后,可以选出与注册声纹具备最高匹配度的语音帧,得到目标语音帧。
[0085]
可选的,在计算出与注册声纹具备最高匹配度的语音帧,得到目标语音帧之后,更新方法还包括:获取注册声纹中各分频语音帧的语音信号短时能量;将最小的语音信号短时能量所对应的语音帧确定为注册声纹中音频信号最低的语音帧。
[0086]
在本发明实施例中,在得到与注册声纹具备最高匹配度的语音帧后,可以计算注册声纹中各分频语音帧的语音信号短时能量,并将其中最小的语音信号短时能量所对应的语音帧确定为注册声纹中音频信号最低的语音帧。
[0087]
步骤s105,采用目标语音帧替换注册声纹中音频信号最低的语音帧,以更新注册声纹的音频信号。
[0088]
在本发明实施例中,在确定与注册声纹具备最高匹配度的语音帧以及注册声纹中音频信号最低的语音帧后,可以将与注册声纹具备最高匹配度的语音帧(即目标语音帧)替换注册声纹中音频信号最低的语音帧,以更新注册声纹的音频信号。
[0089]
本实施例可以一直采用最新的声纹中的与注册声纹具备最高匹配度的语音帧,替换注册声纹中音频信号最低的语音帧,以使用户的声纹信息持续更新,保证声纹识别的准确率。
[0090]
图5是根据本发明实施例的一种可选的基于抗时变的声纹识别方法的流程图,如图5所示,在a时刻(即前一时刻或者历史过程中某一自选取时刻)注册的某个人的一段声纹,得到a时刻注册识别人声纹,经过音频信号预处理以后,被分帧为若干个短语音帧(包括:短语音1、短语音2、短语音3、
……
、短语音n)。当下一个时刻b进行声纹认证时,可以得到b时刻注册识别人声纹,同样先经过音频信号预处理,再被分帧为若干个短语音帧(包括:短语音1、短语音2、短语音3、
……
、短语音n),并经过mfcc算法提取特征参数后,判断其相似度是否大于设定阈值,若相似度小于设定阈值,则判定为非本人语音;若其相似度大于设定阈
值,则识别通过,为本人声纹语音,并计算预处理后的若干个短语音信号帧的得分(即计算每个短语音信号帧的短语音得分,包括:短语音1得分、短语音2得分、短语音3得分、
……
、短语音n得分),比较并选出与a时刻注册识别人声纹匹配度最高的短语音帧,替换掉a时刻注册的声纹中信号最弱的语音帧(即通过计算语音信号短时能量,挑选出短时能量最低的短语音),形成b时刻的最新注册声纹音频信号(即可以得到短语音1、短语音2、短语音3、
……
、最新短语音n,该最新短语音n为替换的b时刻注册识别人声纹中的与a时刻注册识别人声纹匹配度最高的短语音帧)。
[0091]
由于声纹的注册对声纹的长短有着更加严格的要求,若被注册的声纹时间较短,则会影响到注册的声纹以及后面识别的效果,因此,在客户注册声纹时,需要客户朗读预设时间(例如,20s)以上的文本内容并且需要多遍(例如,三遍以上),对于训练过程而言,需要提取说话人的语音特征,以便于训练学习,由此建立语音模型库。但是在后续的认证环节中,为了保证客户的体验,往往只需朗读较低的预设时间(例如,10s以下)的文本文件并且朗读一遍即可识别。因此,为了保证声纹随着时间的变化识别率不降低,可以利用客户每次识别的过程去更新最新注册的声纹音频信号。
[0092]
图6是根据本发明实施例的一种可选的基于抗时变的声纹认证方法的流程图,如图6所示,可以在a时刻注册声纹,当在b时刻进行声纹认证时,判断认证是否通过,若认证通过,则可以使用b时刻认证的声纹信号中某一段短语音更新到a时刻注册的声纹库中(即b时刻替换a时刻声纹段更新最新声纹库),否则认证不通过;之后,当在c时刻进行声纹认证时,判断认证是否通过,若认证通过,则可以使用c时刻认证的声纹信号中某一段短语音更新到b时刻注册的声纹库中(即c时刻替换b时刻声纹段更新最新声纹库),否则认证不通过,以此类推,在第n时刻进行声纹认证时,判断认证是否通过,若认证通过,则可以使用第n时刻认证的声纹信号中某一段短语音更新到第n-1时刻注册的声纹库中(即n时刻替换n-1时刻声纹段,更新最新声纹库),否则认证不通过,这样便可以保证声纹库一直是最新且质量最高的声纹库,有效提升了每一次的识别效率以及准确度。
[0093]
本发明实施例中,可以通过上述声纹更新方法,采用最新的声纹更新之前注册的声纹,保持声纹库一直是最新且质量最高的声纹库,不仅能够克服不同年龄段和后天学习造成的声纹识别准确率低的困难,而且有效地提高声纹各应用场景的识别率。
[0094]
实施例二
[0095]
本实施例中提供的一种声纹信号的更新装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。
[0096]
图7是根据本发明实施例的一种可选的声纹信号的更新装置的示意图,如图7所示,该更新装置可以包括:分帧单元70,提取单元71,对比单元72,计算单元73,更新单元74,其中,
[0097]
分帧单元70,用于采集目标用户的音频信号,并对音频信号进行分帧处理,得到语音帧集合;
[0098]
提取单元71,用于基于语音帧集合,提取音频信号的声纹信号特征;
[0099]
对比单元72,用于对比音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度;
[0100]
计算单元73,用于在相似度大于预设相似度阈值的情况下,计算出与注册声纹具
备最高匹配度的语音帧,得到目标语音帧;
[0101]
更新单元74,用于采用目标语音帧替换注册声纹中音频信号最低的语音帧,以更新注册声纹的音频信号。
[0102]
上述更新装置,可以通过分帧单元70采集目标用户的音频信号,并对音频信号进行分帧处理,得到语音帧集合,通过提取单元71基于语音帧集合,提取音频信号的声纹信号特征,通过对比单元72对比音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度,通过计算单元73在相似度大于预设相似度阈值的情况下,计算出与注册声纹具备最高匹配度的语音帧,得到目标语音帧,通过更新单元74采用目标语音帧替换注册声纹中音频信号最低的语音帧,以更新注册声纹的音频信号。在本发明实施例中,在相似度大于预设相似度阈值的情况下可确认用于声纹认证通过,此时可通过当前时刻采集得到的用户音频信号某一语音帧替换原有的注册声纹中的音频信号最低的语音帧,从而能够实时的更新用户的认证声纹,这样不仅能够克服因不同年龄段的声纹变化或者因后天学习的声纹变化,导致声纹识别准确率降低的困难,而且可以有效地增强声纹识别的鲁棒性,进而解决了相关技术中采用传统的身份认证矢量方式,无法在长期内保持识别声纹的准确率的技术问题。
[0103]
可选的,更新装置还包括:第一转换模块,用于在采集目标用户的音频信号之后,将采集的模拟音频信号转换为数字音频信号,并按照预设存储格式保存转换后的数字音频信号;第一处理模块,用于对数字音频信号进行能量归一化处理和预加重处理,得到待分帧的音频信号,其中,预加重处理是指采用高通滤波器对数字音频信号中信号频率大于预设频率阈值的音频信号进行加重处理。
[0104]
可选的,更新装置还包括:第一加窗模块,用于在对音频信号进行分帧处理,得到语音帧集合之后,对语音帧集合中各语音帧之间的截断信号进行加窗处理;第一计算模块,用于在完成加窗处理后,计算语音帧集合中每个语音帧的信号短时能量;第一删除模块,用于删除信号短时能量低于预设能量阈值的语音帧,保留信号短时能量大于等于预设能量阈值的语音帧。
[0105]
可选的,提取单元包括:第一变换模块,用于对语音帧集合中各语音帧进行傅里叶变换,得到语音频谱;第一运算模块,用于将语音频谱进行二次方运算,得到语音能量谱;第一滤波模块,用于对语音能量谱进行滤波处理,得到对数能量;第二变换模块,用于对对数能量进行离散余弦变换,得到音频信号的声纹信号特征。
[0106]
可选的,第一滤波模块包括:第一确定子模块,用于在对语音能量谱进行滤波处理后,确定按照梅尔频率分布的多个三角滤波器;第一计算子模块,用于基于三角滤波器的频率响应参数,计算三角滤波器的对数能量。
[0107]
可选的,更新装置还包括:第一确定模块,用于在对比音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度之后,在相似度大于预设相似度阈值的情况下,确定目标用户的语音认证成功。
[0108]
可选的,更新装置还包括:第一获取模块,用于在计算出与注册声纹具备最高匹配度的语音帧,得到目标语音帧之后,获取注册声纹中各分频语音帧的语音信号短时能量;第二确定模块,用于将最小的语音信号短时能量所对应的语音帧确定为注册声纹中音频信号最低的语音帧。
[0109]
上述的更新装置还可以包括处理器和存储器,上述分帧单元70,提取单元71,对比单元72,计算单元73,更新单元74等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0110]
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来更新注册声纹的音频信号。
[0111]
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
[0112]
本技术还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:采集目标用户的音频信号,并对音频信号进行分帧处理,得到语音帧集合,基于语音帧集合,提取音频信号的声纹信号特征,对比音频信号的声纹信号特征与预先存储的注册声纹的声纹信号特征之间的相似度,在相似度大于预设相似度阈值的情况下,计算出与注册声纹具备最高匹配度的语音帧,得到目标语音帧,采用目标语音帧替换注册声纹中音频信号最低的语音帧,以更新注册声纹的音频信号。
[0113]
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,其特征在于,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述任意一项的声纹信号的更新方法。
[0114]
根据本发明实施例的另一方面,还提供了一种电子设备,其特征在于,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述任意一项的声纹信号的更新方法。
[0115]
图8是根据本发明实施例的一种用于声纹信号的更新方法的电子设备(或移动设备)的硬件结构框图。如图8所示,电子设备可以包括一个或多个(图中采用102a、102b,
……
,102n来示出)处理器102(处理器102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器104。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图8所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图8中所示更多或者更少的组件,或者具有与图8所示不同的配置。
[0116]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0117]
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0118]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0119]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0120]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0121]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0122]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1