本发明属于人声增强处理,具体涉及一种针对户外骑行高分贝风噪下的人声增强处理技术方法。
背景技术:
1、随著语音交互的需求越来越普遍,市面上也有越来越穿戴式设备上支持语音助手,但是一般的语音助手在户外使用时非常普遍出现唤不醒,不好交互的情况,除了环境噪声之外风噪对于交互的影响更是严重,一般降噪技术在麦克风截幅的情况失效的原因在于无法清晰的分出噪声和人声,因此即使在增强人声的情况下,也同样增大噪声的能量,而户外骑行过程中噪音分贝较大,远远大于所接收到的人声等有效声音,而且有效声音传播距离较长,有效声音在空气中的传播存在衰减。在此低信噪比的环境下,麦克风所接收到的有效声音信号被淹没在风噪声中,麦克风难以有效采集到的有效声音信号。
2、目前普遍的方案是使用指向性麦克风或是定向波束增强的技术对于特定方位的声音进行增强,这样的方法能够解决一般环境噪声的情况,但是一旦噪音能量过大,麦克风出现截幅的情况,这些方法就很容易失效,尤其对于骑行造成的风噪,截幅的情况是非常普遍的存在,因此我们需要提供一种针对户外骑行高分贝风噪下的人声增强处理技术方法。
技术实现思路
1、本发明的目的在于提供一种针对户外骑行高分贝风噪下的人声增强处理技术方法,使用深度学习进行用户声纹建模,能够透过用户日常的交互逐步迭代对于用户声纹的鲁棒性,接著我们分别对于噪音与人声都建立一个模型特征,学习目标是让噪声的特征尽可能接近,人声的特征尽可能接近,透过这两种特征,我们能够形成人声以及噪声两种滤波器,输入的音频分别进入两种滤波器一是抑制噪声二是增强人声,但是一般的情况会容易出现变声,变频的现在。因此在最后我们使用与语音合成(tts)生成的技术让音频尽可能还原增强人声的人声,以解决上述背景技术中提出现有技术中低信噪比的环境下,麦克风所接收到的有效声音信号被淹没在风噪声中,麦克风难以有效采集到的有效声音信号的问题。
2、为实现上述目的,本发明采用了如下技术方案:一种针对户外骑行高分贝风噪下的人声增强处理技术方法,包括以下步骤:
3、步骤1:深度学习进行用户声纹建模,透过用户日常的交互逐步迭代对于用户声纹的鲁棒性;
4、步骤2:分别对于噪音与人声都建立一个模型特征,学习目标让噪声的特征尽可能接近,人声的特征尽可能接近;
5、步骤3:透过步骤1与步骤2这两种特征,形成人声以及噪声两种滤波器,输入的音频分别进入两种滤波器一是抑制噪声二是增强人声;
6、步骤4:使用与语音合成(tts)生成的技术让音频尽可能还原增强人声的人声;
7、步骤5:在截幅的情况获得一个具备清楚人声的音频提供给语音助手或其他应用使用。
8、优选的,所述在步骤1中,对用户声纹识建立识别模型,对用户声音向量化,将说话人的声音将其转化成结构化的向量,其中声纹识识别分为特征提取与模式匹配,特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。与语音识别不同,声纹识别的特征必须是“个性化”特征,而说话人识别的特征对说话人来讲必须是“共性特征”。
9、优选的,所述模式匹配方法分为六大类包括:利用动态时间弯折以对准训练和测试特征序列,主要用于固定词组的应用(通常为文本相关任务);最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的k个,据此进行识别,通常模型存储和相似计算的量都很大;神经网络方法:有很多种形式,如多层感知、径向基函数等,可以显式训练以区分说话人和其背景说话人,其训练量很大,导致实用性不高;隐式马尔可夫模型方法:通常使用单状态的hmm,或高斯混合模型(gmm),是比较流行的方法,效果比较好;聚类方法:效果比较好,算法复杂度也不高,和hmm方法配合起来更可以收到更好的效果;多项式分类器方法:有较高的精度,但模型存储和计算量都比较大。
10、优选的,所述在步骤2中,分别对于噪音与人声都建立一个模型特征,声纹识别对人声与噪声的特征选择,弱化信道对说话人识别的影响,人声用什么信道系统它都可以辨认出来,提供较好的特征能够有效地区分人声与噪声,又能在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;提高的抗噪性能。
11、优选的,所述消除或减弱声音变化(不同语言、内容、方式、身体状况、时间、年龄等)带来的影响;消除信道差异和背景噪音带来的影响,此时需要用到去噪、自适应等技术来辅助完成。
12、优选的,所述表征说话人确认系统性能的两个重要参数是错误拒绝率(frr)和错误接受率(far),前者是拒绝真正说话人而造成的错误,后者是接受集外说话人而造成的错误,二者与阈值的设定相关,两者相等的值称为等错率(eer);调整阈值来满足不同应用的需求,比如在需要“易用性”的情况下,可以让错误拒绝率低一些,此时错误接受率会增加,从而安全性降低;在对“安全性”要求高的情况下,可以让错误接受率低一些,此时错误拒绝率会增加,从而易用性降低。系统将允许对阈值的调整。
13、优选的,所述在步骤4中,语音识别系统对加性噪声非常敏感,语音处理中的加性噪声,语音处理中的加性噪声大体上可以分为周期性噪声、脉冲噪声、宽带噪声和同声道其他语音的干扰等,利用两种滤波器消除噪声。
14、优选的,所述滤波器可以消除周期性噪声;自适应滤波器和傅立叶变换滤波器,自适应滤波器能自动滤除干扰噪声,如果噪声是平稳的或缓变的,则在无语音期间便可以对噪声进行估计,并根据估计的结果调整滤波器,傅立叶变换滤波器是采用变换技术通过直接变换频谱来消除周期性噪声的,当周期性噪声没有得到精确估计,但却能得到它的参考信号时,可以采用自适应抵消技术。
15、优选的,所述使用包络提取函数对待风燥语音、目标子带频谱分量分别提取频谱包络,降低包络提取运算量,降低信号时延,获得降噪后的语音,实现风燥场景下的语音增强。
16、优选的,所述在步骤5中,在截幅的情况获得一个具备清楚人声的音频提供给语音助手或其他应用使用,只对于人声的能力增强,同时降低噪音的能量,突出人声。
17、本发明的技术效果和优点:本发明提出的一种针对户外骑行高分贝风噪下的人声增强处理技术方法,与现有技术相比,具有以下优点:
18、本发明通过使用深度学习进行用户声纹建模,能够透过用户日常的交互逐步迭代对于用户声纹的鲁棒性,接著我们分别对于噪音与人声都建立一个模型特征,学习目标是让噪声的特征尽可能接近,人声的特征尽可能接近,透过这两种特征,我们能够形成人声以及噪声两种滤波器,输入的音频分别进入两种滤波器一是抑制噪声二是增强人声,但是一般的情况会容易出现变声,变频的现在。因此在最后我们使用与语音合成(tts)生成的技术让音频尽可能还原增强人声的人声,最终我们可以能够在截幅的情况获得一个具备清楚人声的音频提供给语音助手或其他应用使用,避免低信噪比的环境下,麦克风所接收到的有效声音信号被淹没在风噪声中,麦克风难以有效采集到的有效声音信号。
19、本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。