一种基于自注意力和迁移学习的声纹识别方法与流程

文档序号:20034941发布日期:2020-02-28 10:59阅读:1045来源:国知局
一种基于自注意力和迁移学习的声纹识别方法与流程

本发明属于声纹识别的技术领域,具体涉及一种基于自注意力和迁移学习的声纹识别方法。



背景技术:

生物识别技术,是依靠人体身体特征进行身份验证的识别技术。因其具有不会丢失、不会遗忘、唯一性、不变性、防伪性能好和使用方便的特点,被广泛用于门禁、考勤、金融、公共安全和终端电子设备中。

而声纹识别(voiceprintrecognition)作为生物识别的一种,是根据说话人的声波特性进行身份辨识的服务。其身份辨识与口音无关,与语言无关,非接触式,实现方式自然,近年来更是得到广泛的关注和应用。

目前,基于传统方法的声纹识别准确率偏低,而基于深度学习的声纹识别过于依赖海量、高纬度、高质量的语音数据,且两者均易受到环境噪音、混响及音频信道的影响,缺乏真实世界应用的泛化能力。

为此,为了解决了该问题,本发明提出了一种基于自注意力和迁移学习的声纹识别方法。



技术实现要素:

本发明的目的在于提供一种基于自注意力和迁移学习的声纹识别方法,本发明不仅学习到噪音、混响、信道的鲁棒性,且学习到中文的发音特色和更适应真实应用场景的识别能力,具有噪音、混响、信道的鲁棒性,很好满足真实场景的应用。

本发明主要通过以下技术方案实现:一种基于自注意力和迁移学习的声纹识别方法,获取开源英文语音数据,构建一级基础数据集;获取开源中文语音数据,构建二级基础数据集;采集应用场景语音数据,构建应用场景数据集;基于注意力模型和一级基础数据集,训练一级基础模型;而后,在二级基础数据集上,对一级基础模型进行迁移微调训练,获取二级基础模型;最终,在具体的应用场景数据上,迁移微调二级基础模型,获得适应具体应用场景的最终模型。

为了更好的实现本发明,进一步的,对一级基础数据集、二级基础数据集、应用场景数据集进行时间领域和频率领域的数据增强。

为了更好的实现本发明,进一步的,在时间域,分别对一级基础数据集、二级基础数据集、应用场景数据集进行节奏、音高调整,以调节音频速度,然后添加随机噪声;在频率域,使用vocaltractlengthperturbation对每一个音频的频谱特征施加一个随机的扭曲因子。

为了更好的实现本发明,进一步的,在非约束条件下收集一级基础数据集。

为了更好的实现本发明,进一步的,在空间维度引入自注意力模型,通过空间维度的自相关性,筛选在空间维度对识别效果起作用的音频特征;在特征维度引入自注意力模型,通过特征维度之间的自相关性,筛选对识别效果起作用的特征维度成分。

为了更好的实现本发明,进一步的,所述音频特征先经过特征维度的注意力,再经过空间维度的注意力,进行注意力级联。

为了更好的实现本发明,进一步的,针对注册信道和验证信道的差异性进行阈值控制,当注册和验证来自同一信道时,则选取较高阈值,当注册和验证来自相异信道时,则根据差异性大小选取较低或更低阈值。

本发明的有益效果:

(1)本发明解决了声纹识别精度低、真实环境(噪音和混响等)低鲁棒性、信道低鲁棒性、过于依赖海量真实场景数据的问题,构建随机数字声纹识别算法,核心基于数据增强技术、自注意力技术、迁移学习技术、动态阈值技术,可根据用户简单语音完成身份识别。

(2)数据增强,针对所有数据集,进行时间领域和频率领域的数据增强,大幅度减少所依赖的音频数据量,同时大大提高算法对环境、信道、语速的鲁棒性。

(3)自注意力模型,从空间和特征两个维度,筛选对识别更为有用的特征,提高算法特征提取能力,增强噪音、混响、信道的鲁棒性。

(4)级联迁移学习,不仅学习到噪音、混响、信道的鲁棒性,且学习到中文的发音特色和更适应真实应用场景的识别能力。

(5)跨信道动态阈值,通过注册、验证信道间的差异性动态调整阈值,大大拓展了算法对信道的泛化能力。

(6)本发明的关键点在于,本发明提出的随机数字声纹识别算法,只需少量应用场景音频数据,从网络公开数据出发,利用数据增强技术提高数据质量,并采用自注意力模型和级联迁移学习技术,实现声纹识别的高精度且对噪音、混响、信道、语速的强泛化能力。同时,提出跨信道动态阈值技术,进一步大大拓展了算法的跨信道能力。

附图说明

图1是本发明的时间域数据增强流程图;

图2是本发明的频率域数据增强流程图;

图3是本发明的spatial注意力流程图;

图4是本发明的channel注意力流程图;

图5是本发明的双注意力融合流程图;

图6是本发明的级联迁移学习流程图;

图7是本发明的跨信道动态阈值流程图。

具体实施方式

实施例1:

一种基于自注意力和迁移学习的声纹识别方法,获取开源英文语音数据,构建一级基础数据集;获取开源中文语音数据,构建二级基础数据集;采集应用场景语音数据,构建应用场景数据集;如图6所示,基于注意力模型和一级基础数据集,训练一级基础模型;而后,在二级基础数据集上,对一级基础模型进行迁移微调训练,获取二级基础模型;最终,在具体的应用场景数据上,迁移微调二级基础模型,获得适应具体应用场景的最终模型。级联微调,不仅学习到噪音、混响、信道的鲁棒性,且学习到中文的发音特色和更适应真实应用场景的识别能力。

本发明在公开英文数据集进行基础训练,再在公开中文数据集、应用场景数据集上进行二级微调训练。本发明不仅学习到噪音、混响、信道的鲁棒性,且学习到中文的发音特色和更适应真实应用场景的识别能力。

实施例2:

本实施例是在实施例1的基础上进行优化,获取海量开源英文语音数据(sitw、voxceleb1、voxceleb2等),构建一级声纹基础数据集;此数据集在非约束条件下收集,具有很好的噪音、混响、信道的鲁棒性。

获取大量开源中文语音数据(aishell、primewords、st-cmds、thchs30等),构建二级声纹基础数据集;此数据集为中文数据集,能更好适应中文的发音特点。

采集少量应用场景语音数据,构建应用场景声纹数据集;此数据集在真正要应用的场景下收集,能更好匹配实际应用场景。

本实施例的其他部分与实施例1相同,故不再赘述。

实施例3:

本实施例是在实施例1或2的基础上进行优化,如图1、图2所示,对一级基础数据集、二级基础数据集、应用场景数据集进行时间领域和频率领域的数据增强。如图1所示,时间域音频数据增强;在时间域,控制节奏和音高,调节音频速度,并添加随机噪声。如图2所示,频率域音频数据增强;在频率域,使用vocaltractlengthperturbation,对每一个音频的频谱特征施加一个随机的扭曲因子。

本发明获取英文、中文公开数据集,采集少量应用场景数据集,从时间域、频率域两个维度进行增强。针对所有数据集,进行时间领域和频率领域的数据增强,大幅度减少所依赖的音频数据量,同时大大提高算法对环境、信道、语速的鲁棒性。

本实施例的其他部分与上述实施例1或2相同,故不再赘述。

实施例4:

本实施例是在实施例1-3任一个的基础上进行优化,如图3-5所示,自注意力模型如下:

a.如图3所示,spatial注意力机制;在空间维度引入自注意力模型,通过空间维度的自相关性,筛选在空间维度对识别效果起作用的音频特征。

b.如图4所示,channel注意力机制;在特征维度引入自注意力模型,通过特征维度之间的自相关性,筛选对识别效果起作用的特征维度成分。

c.如图5所示,两级注意力融合;音频特征,先经过特征维度的注意力,再经过空间维度的注意力,进行注意力级联,提高特征提取能力,增强噪音、混响、信道的鲁棒性。

本发明在公开英文数据集进行基础训练,再在公开中文数据集、应用场景数据集上进行二级微调训练。级联迁移学习,不仅学习到噪音、混响、信道的鲁棒性,且学习到中文的发音特色和更适应真实应用场景的识别能力。

本实施例的其他部分与上述实施例1-3任一个相同,故不再赘述。

实施例5:

本实施例是在实施例1-4任一个的基础上进行优化,如图7所示,声纹识别的应用中,存在信道的强相关性;上述数据和模型,已针对该问题进行了很好考虑和优化,使算法在不同信道间具有相对好的泛化能力;为进一步拓展信道间的泛化能力,本发明设计了一种跨信道的动态阈值技术。主要针对注册信道和验证信道的差异性进行阈值控制,注册和验证来自同一信道时选取较高阈值,相异信道时根据差异性大小采取较低或更低阈值,阈值的选取,经批量试验确定。

跨信道动态阈值:统计获取注册、验证信道差异性阈值,基于此根据注册、验证信道差异性,动态调整识别结果。跨信道动态阈值,通过注册、验证信道间的差异性动态调整阈值,大大拓展了算法对信道的泛化能力。

本实施例的其他部分与上述实施例1-4任一个相同,故不再赘述。

以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1