本发明涉及说话人识别,具体涉及一种基于时频域动态特征矩阵的说话人识别方法和系统。
背景技术:
1、目前,说话人识别是一种通过分析个体的语音特征进行身份验证或识别的技术,与其他生物特征识别如指纹、虹膜等技术相比,声纹具有独特性、易获取性和非侵入性等优势。
2、常用的说话人识别系统包括声学特征提取、模型训练和后端说话人判别三个部分。在一般情况下,通过频谱空间向量来表示说话人特征,例如语谱图、fbank和mfcc等,输入原始语音文件,对语音信号进行预加重、加窗等预处理操作,基于人体发声机理或者人耳感知机理,使用不同的算法对信号频谱进行特征提取,最后得到向量形式的声学特征;为了增加模型的判别能力,在后端将说话人特征进行lda、去均值、长度规整和分数规整等处理,最后利用cosine打分和plda等判别模型进行相似度判别。
3、与此同时,随着深度学习的发展,许多工作使用原始波形作为输入来训练说话人识别模型,并且取得了与fbank等特征提取方式相当的性能。一些工作使用预训练模型作为前端特征提取模块,取代了传统的声学特征。但是,简单地使用预训练模型的通用表示替换传统特征提取方式可能会导致提取原始语音中所包含的说话人特定信息没有被充分利用。
4、常用的语音特征侧重于提取与语音信号的频谱包络相关的特征,本质上忽略了频率成分之间的相位关系,虽然khadar nawas等使用基于递归图(recurrence plot)的方法来提取特征,通过相空间重构的方式提取声带振动系统的循环模式,但这样的方式仅是在时域上对语音进行处理,而忽略了区分说话人特性的关键频谱信息,因此,找到一种能够在时域和频域上全面建模语音动态特征的特征提取方案还有待进一步研究。
5、针对上述问题,本技术提出了一种基于时频域动态特征矩阵的说话人识别方法和系统。
技术实现思路
1、本技术针对上述现有技术中一个或多个技术缺陷,提出了如下技术方案。
2、基于本技术的第一方面,提出了一种基于时频域动态特征矩阵的说话人识别方法,包括:
3、s1:将原始语音的时间动态特征序列映射为二维图像,并通过相似性矩阵对原始语音的每帧语音信号计算相似度,采用自适应加权方法增强时间动态特征序列中的时域动态特征,得到时域动态特征矩阵;
4、所述时域动态特征矩阵表示为:
5、rij=w(i,j)·θ(∈-||x||);
6、
7、其中,rij表示时域动态特征矩阵的值,∈表示预设的时域动态特征阈值;||x||表示时间点i和j之间的距离,θ表示阶跃函数,w(i,j)是时间位置的高斯权重,σ表示用于调节权重衰减速率的标准差;
8、s2:对所述原始语音进行短时傅里叶变换得到每帧语音信号的频谱值,对所述原始语音的每帧语音信号计算频域动态特征,并对相似性阈值进行动态调整,得到频域动态特征矩阵;
9、所述频域动态特征矩阵表示为:
10、rf(i,j)=θ(εf-‖‖s(i)-s(j)||);
11、其中,rf(i,j)表示频域动态特征矩阵,εf表示频域动态特征矩阵的相似性阈值,||s(i)-s(j)||表示帧i与帧j的频谱能量之间的距离,θ表示阶跃函数;
12、s3:将所述频域动态特征和所述时域动态特征输入到卷积神经网络cnn中进行训练,通过传统特征提取方式提取原始语音信号的声学特征并输入conformer模型中进行处理,得到所述原始语音的说话人初始特征;
13、s4:将训练后的所述时域动态特征、所述频域动态特征和所述说话人初始特征进行加权自适应融合,将融合后的特征向量输送到全连接层并映射到低维空间;
14、s5:特征融合分类器根据所述全连接层输出的特征向量计算说话人的类别概率分布,将概率最大的类别作为最终的说话人识别结果。
15、通过时间动态特征序列能够分析时间序列的隐藏模式、周期性和非线性动态,时域动态特征矩阵能够提取语音信号在时间序列上的非线性动态变化,识别图像中对角线和块状结构,更好地提取语音信号相似性和说话人的特征。
16、更进一步地,在所述s1之前还包括对原始语音提取时间动态特征序列,并将原始语音按照25ms进行分帧。
17、更进一步地,所述频域动态特征矩阵的相似性阈值的计算公式为:
18、εf=α·mean(||s(i)-s(j)||);
19、其中,α表示调节因子,s(i)和s(j)表示频谱能量;mean表示求平均值。
20、频域动态特征矩阵能够反映语音信号在频谱上的变化模式。
21、更进一步地,所述频谱能量的计算公式为:
22、s(t)=[|x(t,f1)|,|x(t,f2)|,…,|x(t,ff)|];
23、
24、其中,x(t,ff)表示时间t和频率f的频谱值,ω[n-t]表示短时窗函数,n表示傅里叶变换的点数。
25、更进一步地,将所述时域动态特征、所述频域动态特征和所述说话人初始特征进行加权自适应融合的计算公式为:
26、efusion=β1·etime+β2·efreq+β3·efeature;
27、其中,efusion表示融合后的特征向量,etime表示所述时域动态特征,efreq表示频域动态特征,efeature表示说话人初始特征,β1、β2和β3表示特征融合权重参数。
28、通过对三组特征进行权重比例学习并赋予不同的权重比例,动态调整不同特征的贡献,使得模型能够充分提取说话人语音中的动态特征和静态特征,综合了时域和频域多维信息的同时也增强了特征的表达能力和区分能力。
29、基于本技术的第二方面,还提出了一种基于时频域动态特征矩阵的说话人识别系统,包括:
30、时域模块:将原始语音的时间动态特征序列映射为二维图像,并通过相似性矩阵对原始语音的每帧语音信号计算相似度,采用自适应加权方法增强时间动态特征序列中的时域动态特征,得到时域动态特征矩阵;
31、所述时域动态特征矩阵表示为:
32、rij=w(i,j)·θ(∈-||x||);
33、
34、其中,rij表示时域动态特征矩阵的值,∈表示预设的时域动态特征阈值;||x||表示时间点i和j之间的距离,θ表示阶跃函数,w(i,j)是时间位置的高斯权重,σ表示用于调节权重衰减速率的标准差;
35、频域模块:对所述原始语音进行短时傅里叶变换得到每帧语音信号的频谱值,对所述原始语音的每帧语音信号计算频域动态特征,并对相似性阈值进行动态调整,得到频域动态特征矩阵;
36、所述频域动态特征矩阵表示为:
37、rf(i,j)=θ(εf-||s(i)-s(j)||);
38、其中,rf(i,j)表示频域动态特征矩阵,εf表示频域动态特征矩阵的相似性阈值,||s(i)-s(j)||表示帧i与帧j的频谱能量之间的距离,θ表示阶跃函数;
39、特征模块:将所述频域动态特征和所述时域动态特征输入到卷积神经网络cnn中进行训练,通过传统特征提取方式提取原始语音信号的声学特征并输入conformer模型中进行处理,得到所述原始语音的说话人初始特征;
40、自适应融合模块:将训练后的所述时域动态特征、所述频域动态特征和所述说话人初始特征进行加权自适应融合,将融合后的特征向量输送到全连接层并映射到低维空间;
41、识别模块:特征融合分类器根据所述全连接层输出的特征向量计算说话人的类别概率分布,将概率最大的类别作为最终的说话人识别结果。
42、基于本技术的第三方面,还提出了一种计算机程序产品,其上有一个或多个计算机程序,当所述计算机程序被计算机处理器执行时实施如上述之任一项所述的方法。
43、本技术的技术效果在于:本技术通过增加和替换特征提取的方式和模型,以及结合语音信号的动态信息和时频域特征,解决了目前特征提取方式单一的问题,更充分地保留语音信号中区分说话人身份的信息,并使用不同模型对提取的特征进行建模,更加全面地提取说话人的全局和局部信息,能够适配多种特征提取方案,增强在复杂场景下说话人识别的准确性和鲁棒性。