基于神经网络的语音特征滤波方法与流程

文档序号:33556477发布日期:2023-03-22 12:07阅读:来源:国知局

技术特征:
1.基于神经网络的语音特征滤波方法,包括以下步骤:步骤一,数据集筛选;步骤二,数据混合;步骤三,模型选择;步骤四,模型训练;步骤五,梅尔感知;步骤六,代价函数修正;步骤七,个人语音模型滤波;其特征在于:其中在上述步骤一中,首先进行训练数据的准备,收集8个语音识别训练集,分别是:aidatatang_200zh、aishell-2、aishell-3、cn-celeb2、cv-corpus、magicdata、primewords_md_2018_set1、st-cmds-20170001_1-os,并且对训练集进行筛选,去除其中无效部分后形成语音原始数据集;其中在上述步骤二中,当步骤一中的语音原始数据集准备完成后,随机选择一条语音和一条噪声数据,再随机从两段数据中各截取定长片片段进行混合,且噪声混合比从0.2-1.0随机,同时将语音信号转换到频域,实现“频域-频域”的拟合,拟合后的数据作为神经网络的输入(xi),以纯人声作为样本标注(yi);其中在上述步骤三中,当步骤二中的数据拟合完成后,进行模型的选择,选择深度神经网络模型作为训练模型;其中在上述步骤四中,当步骤三中的训练模型选择完毕后,将步骤二中拟合后的数据输入到训练模型中进行不停的迭代训练,u型网络总体上由编码分支e1-e6和解码分支d7-d1构成,编码分支将信号逐渐转换成特征,直到top层形成512维特征向量,解码分支将特征向量逐渐展开形成信号,为了解决从信号到特征信息损失的问题,需要用到损失函数,u型网络每一个隐藏层都会产生一个分支,和每一层的decode层合并,丰富输出的信号细节;其中在上述步骤五中,由于人耳感知的声音频率和声音的实际频率不是线性的,人耳能轻易区分500hz和1000hz声音,但对2500hz和3000hz很难区分,从而利用经验公式将语音信号的频域变换为mel感知频域;其中在上述步骤六中,利用mel感知曲线对mse代价函数进行修正,可得到更好的感知精度,即在相同的误差下,mel感知代价函数得到的语音效果要优于mse,mel感知代价函数数学表达式如下:其中为mel曲线确定的误差函数:f
max
为该采样率下mel频率的最大值,如8000hz带宽下,f
max
=2481,a为调节系数,这里取a=1.6;其中在上述步骤七中,步骤六中的模型函数语音修正完成后,通过特征注入法,将预先获得的个人声纹特征向量作为通道滤波器注入u型网络中,在u型网络中间增加了一个分支,变成了三叉戟模样,因此称为trident net,随后通过迁移学习法,将训练好的通用语音滤波器使用特定的个人数据进行“精确调校”,得到个人语音模型,形成单个人模式滤波器,通过模式滤波器对含噪声音进行滤波,就能准确地还原其中的语音信息,同时能够在二人或多人的混合语音中提取特定人的语音。
2.根据权利要求1所述的基于神经网络的语音特征滤波方法,其特征在于:所述步骤一中,语音原始数据集共计4869个id,945686条语音数据,噪声数据选择了esc-50、tut-acoustic-scenes-2016、noisex-92等3456个不同场景下的环境声音、人群声音和机器噪声等数据。3.根据权利要求1所述的基于神经网络的语音特征滤波方法,其特征在于:所述步骤二中,利用短时傅里叶变换将语音信号转换到频域。4.根据权利要求1所述的基于神经网络的语音特征滤波方法,其特征在于:所述步骤三中,深度神经网络模型为u型深度神经网络模型。5.根据权利要求1所述的基于神经网络的语音特征滤波方法,其特征在于:所述步骤四中,损失函数使用均方差损失函数,其表达式为:其中n为节点数量,为第i个节点的预测值,为第i个节点的标注值。6.根据权利要求1所述的基于神经网络的语音特征滤波方法,其特征在于:所述步骤五中,经验公式为:其中fmel是以梅尔为单位的感知频域,f是以hz为单位的实际语音频率。7.根据权利要求1所述的基于神经网络的语音特征滤波方法,其特征在于:所述步骤七中,特征注入法主要训练流程如下:1)训练声纹识别网络,能够提取一段语音的声纹特征,一般使用512维特征向量表示;2)训练数据集中,除了“人声-噪声”随机混合外,还使用一定比例的“人声-人声”混合;3)将混合人声和指定id的声纹同时作为网络输入,将关键人“干净”原声作为标注,使用mse损失函数进行评价。

技术总结
本发明公开了基于神经网络的语音特征滤波方法,包括以下步骤:步骤一,数据集筛选;步骤二,数据混合;步骤三,模型选择;步骤四,模型训练;步骤五,梅尔感知;步骤六,代价函数修正;步骤七,个人语音模型滤波;本发明采用U型深度神经网络模型结合深度学习算法,通过回归训练的方法,优化深度神经网络中数百万个滤波器参数,便于得到精准适合人类语音特征分布的滤波器,实现良好的“语音-噪声”分离,同时利用Mel感知曲线对MSE代价函数进行修正,实现了更好的听觉感受,便于滤除语音中的噪声和干扰,有利于还原其中的语音信息,使用Trident-net和特征注入法实现个体语音分离,便于在多人的混合语音中提取特定人的语音。合语音中提取特定人的语音。合语音中提取特定人的语音。


技术研发人员:周士杰 黄红菊
受保护的技术使用者:周士杰
技术研发日:2022.11.22
技术公布日:2023/3/21
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1