基于神经网络的语音特征滤波方法与流程

文档序号：33556477发布日期：2023-03-22 12:07阅读：来源：国知局

技术特征：
1.基于神经网络的语音特征滤波方法，包括以下步骤：步骤一，数据集筛选；步骤二，数据混合；步骤三，模型选择；步骤四，模型训练；步骤五，梅尔感知；步骤六，代价函数修正；步骤七，个人语音模型滤波；其特征在于：其中在上述步骤一中，首先进行训练数据的准备，收集8个语音识别训练集，分别是：aidatatang_200zh、aishell-2、aishell-3、cn-celeb2、cv-corpus、magicdata、primewords_md_2018_set1、st-cmds-20170001_1-os，并且对训练集进行筛选，去除其中无效部分后形成语音原始数据集；其中在上述步骤二中，当步骤一中的语音原始数据集准备完成后，随机选择一条语音和一条噪声数据，再随机从两段数据中各截取定长片片段进行混合，且噪声混合比从0.2-1.0随机，同时将语音信号转换到频域，实现“频域－频域”的拟合，拟合后的数据作为神经网络的输入(xi)，以纯人声作为样本标注(yi)；其中在上述步骤三中，当步骤二中的数据拟合完成后，进行模型的选择，选择深度神经网络模型作为训练模型；其中在上述步骤四中，当步骤三中的训练模型选择完毕后，将步骤二中拟合后的数据输入到训练模型中进行不停的迭代训练，u型网络总体上由编码分支e1-e6和解码分支d7-d1构成，编码分支将信号逐渐转换成特征，直到top层形成512维特征向量，解码分支将特征向量逐渐展开形成信号，为了解决从信号到特征信息损失的问题，需要用到损失函数，u型网络每一个隐藏层都会产生一个分支，和每一层的decode层合并，丰富输出的信号细节；其中在上述步骤五中，由于人耳感知的声音频率和声音的实际频率不是线性的，人耳能轻易区分500hz和1000hz声音，但对2500hz和3000hz很难区分，从而利用经验公式将语音信号的频域变换为mel感知频域；其中在上述步骤六中，利用mel感知曲线对mse代价函数进行修正，可得到更好的感知精度，即在相同的误差下，mel感知代价函数得到的语音效果要优于mse，mel感知代价函数数学表达式如下：其中为mel曲线确定的误差函数：f
max
为该采样率下mel频率的最大值，如8000hz带宽下，f
max
＝2481，a为调节系数，这里取a＝1.6；其中在上述步骤七中，步骤六中的模型函数语音修正完成后，通过特征注入法，将预先获得的个人声纹特征向量作为通道滤波器注入u型网络中，在u型网络中间增加了一个分支，变成了三叉戟模样，因此称为trident net，随后通过迁移学习法，将训练好的通用语音滤波器使用特定的个人数据进行“精确调校”，得到个人语音模型，形成单个人模式滤波器，通过模式滤波器对含噪声音进行滤波，就能准确地还原其中的语音信息，同时能够在二人或多人的混合语音中提取特定人的语音。
2.根据权利要求1所述的基于神经网络的语音特征滤波方法，其特征在于：所述步骤一中，语音原始数据集共计4869个id，945686条语音数据，噪声数据选择了esc-50、tut-acoustic-scenes-2016、noisex-92等3456个不同场景下的环境声音、人群声音和机器噪声等数据。3.根据权利要求1所述的基于神经网络的语音特征滤波方法，其特征在于：所述步骤二中，利用短时傅里叶变换将语音信号转换到频域。4.根据权利要求1所述的基于神经网络的语音特征滤波方法，其特征在于：所述步骤三中，深度神经网络模型为u型深度神经网络模型。5.根据权利要求1所述的基于神经网络的语音特征滤波方法，其特征在于：所述步骤四中，损失函数使用均方差损失函数，其表达式为：其中n为节点数量，为第i个节点的预测值，为第i个节点的标注值。6.根据权利要求1所述的基于神经网络的语音特征滤波方法，其特征在于：所述步骤五中，经验公式为：其中fmel是以梅尔为单位的感知频域，f是以hz为单位的实际语音频率。7.根据权利要求1所述的基于神经网络的语音特征滤波方法，其特征在于：所述步骤七中，特征注入法主要训练流程如下：1)训练声纹识别网络，能够提取一段语音的声纹特征，一般使用512维特征向量表示；2)训练数据集中，除了“人声－噪声”随机混合外，还使用一定比例的“人声－人声”混合；3)将混合人声和指定id的声纹同时作为网络输入，将关键人“干净”原声作为标注，使用mse损失函数进行评价。

技术总结
本发明公开了基于神经网络的语音特征滤波方法，包括以下步骤：步骤一，数据集筛选；步骤二，数据混合；步骤三，模型选择；步骤四，模型训练；步骤五，梅尔感知；步骤六，代价函数修正；步骤七，个人语音模型滤波；本发明采用U型深度神经网络模型结合深度学习算法，通过回归训练的方法，优化深度神经网络中数百万个滤波器参数，便于得到精准适合人类语音特征分布的滤波器，实现良好的“语音－噪声”分离，同时利用Mel感知曲线对MSE代价函数进行修正，实现了更好的听觉感受，便于滤除语音中的噪声和干扰，有利于还原其中的语音信息，使用Trident-net和特征注入法实现个体语音分离，便于在多人的混合语音中提取特定人的语音。合语音中提取特定人的语音。合语音中提取特定人的语音。

技术研发人员：周士杰黄红菊
受保护的技术使用者：周士杰
技术研发日：2022.11.22
技术公布日：2023/3/21

完整全部详细技术资料下载

当前第2页1 2