本发明涉及语音增强,具体涉及一种基于人工智能的语音增强方法。
背景技术:
1、语言是实现人与人之间便捷交流的信息工具,而语音信号是实现这种工具功能的介质。然而在现实生活中,语音信号经常会被各种类型的背景噪声或其他干扰说话人语音,甚至混响、回声等干扰信号所污染。这样的语音,由于添加了干扰成分,一方面会导致人类主观听觉感受质量的下降,另一方面严重影响目标语音内容的可懂度。语音增强的主要目的就是消除语音信号中可能存在的干扰分量,恢复出干净的目标语音信号从而提高语音的质量和可懂度。语音增强在通信领域有重要意义,普通用户的电话通信或视频通信,通常都含有现实生活场景中的各种噪声或干扰说话人语音,此时就需要语音增强技术消除干扰分量,从而保证说话者所说的内容能被远端的听者准确无误地理解;目前语音增强方式降噪效果较差,用户体验差。
技术实现思路
1、本发明的目的是为了解决上述问题,设计了一种基于人工智能的语音增强方法。
2、本发明第一方面提供一种基于人工智能的语音增强方法,该方法包括以下步骤:
3、获取纯净语音样本和噪声语音样本,将所述纯净语音样本和所述噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱;
4、分别对所述纯净语音幅度谱和所述带噪语音幅度谱进行第一特征提取,得到纯净语音特征和带噪语音特征;
5、将所述纯净语音特征和所述带噪语音特征输入神经网络模型中进行训练,得到语音增强模型;
6、获取含噪的待增强语音,对所述待增强语音进行第二特征提取,得到噪声测试集;
7、将所述噪声测试集输入所述语音增强模型中,进行波形重构,并基于含噪的待增强语音的混合相位,得到目标增强语音。
8、可选的,在本发明第一方面的第一种实现方式中,所述获取纯净语音样本和噪声语音样本,将所述纯净语音样本和所述噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱,包括:
9、获取纯净语音样本和噪声语音样本,选择窗函数,根据所述窗函数的重叠因子,对所述噪声语音样本和所述纯净语音样本进行拆分,分别得到多段噪声语音信号和纯净语音信号;
10、将每段噪声语音信号和纯净语音信号与所述窗函数相乘进行窗口长度点傅里叶,得到初始纯净语音频谱和初始带噪语音频谱;
11、分别对所述初始纯净语音频谱和所述初始带噪语音频谱进行层次聚类,得到纯净语音簇中心和带噪语音簇中心;
12、基于所述纯净语音簇中心和所述带噪语音簇中心,得到纯净语音样本对应的纯净语音幅度谱、噪声语音样本对应的带噪语音幅度谱。
13、可选的,在本发明第一方面的第二种实现方式中,所述分别对所述初始纯净语音频谱和所述初始带噪语音频谱进行层次聚类,得到纯净语音簇中心和带噪语音簇中心,包括:
14、获取所述初始纯净语音频谱和所述初始带噪语音频谱中的元素,得到纯净语音元素集合和带噪语音集合,将所述纯净语音元素集合和所述带噪语音集合中的每个元素分别确定为簇;
15、计算所述纯净语音元素集合和所述带噪语音集合中每两个簇之间的簇间距离,并根据簇间距离,得到第一簇间距离矩阵和第二簇间距离矩阵;
16、基于所述第一簇间距离矩阵和所述第二簇间距离矩阵,分别选取出第一最小元素和第二最小元素;
17、基于所述第一最小元素和第二最小元素,分别更新所述第一簇间距离矩阵和所述第二簇间距离矩阵;
18、响应于预先设置的聚类簇数,根据所述聚类簇数,进行下一次聚类,直至不满足聚类条件,分别得到纯净语音簇中心和带噪语音簇中心。
19、可选的,在本发明第一方面的第三种实现方式中,所述第一簇间距离矩阵与所述纯净语音元素集合对应,所述第二簇间距离矩阵与所述带噪语音集合对应。
20、可选的,在本发明第一方面的第四种实现方式中,所述分别对所述纯净语音幅度谱和所述带噪语音幅度谱进行第一特征提取,得到纯净语音特征和带噪语音特征,包括:
21、获取所述纯净语音幅度谱和所述带噪语音幅度谱,将所述纯净语音幅度谱和所述带噪语音幅度谱划分为多个节点;
22、对所有节点信息素初值和蚂蚁数量进行初始化,蚂蚁开始游走,对所有蚂蚁进行构建解,得到对应的特征数和识别率;
23、采用适应度函数对所述特征数和识别率的质量进行评估,得到评估结果,并基于所述评估结果,对路径上的信息素值进行更新,计算出各个路径上新的信息素浓度值;
24、重新构建解,直到到达最大迭代次数后,得到纯净语音特征和带噪语音特征。
25、可选的,在本发明第一方面的第五种实现方式中,所述将所述纯净语音特征和所述带噪语音特征输入神经网络模型中进行训练,得到语音增强模型,包括:
26、将所述纯净语音特征和所述带噪语音特征作为输入,得到输入特征数据,建立编码器-解码器网络结构;
27、采用编码器-解码器网络结构对所述输入特征数据进行处理,得到样本特征数据,并将所述样本特征数据传输至并行循环模块;
28、采用所述并行循环模块的两个双向门控循环单元层分别对所述输入特征数据和所述样本特征数据进行特征建模,得到神经网络模型;
29、通过特征融合模块进行后处理,采用均方误差作为损失函数训练神经网络模型,进行参数调整,以构建语音增强模型。
30、可选的,在本发明第一方面的第六种实现方式中,所述编码器-解码器网络结构中编码器和解码器采用对称方式设置有归一化门控线性单元模块,特征映射的维度在编码器部分逐层加倍,在解码器部分逐层减半,相对应的归一化门控线性单元模块之间通过跳跃连接进行特征共享。
31、可选的,在本发明第一方面的第七种实现方式中,所述特征融合模块由一个全连接层、两个bigru层和一个输出层组成;
32、采用所述全连接层进行相似度计算,使用softmax函数对相似度权重进行归一化,将归一化处理后的相似度权重和神经网络模型的输出层相乘,得到注意力得分,根据所述注意力得分将相连的两种特征进行融合,得到融合特征数据,将所述融合特征数据传输至所述bigru层,提取局部特征,并由所述输出层进行输出。
33、可选的,在本发明第一方面的第八种实现方式中,所述将所述噪声测试集输入所述语音增强模型中,进行波形重构,包括:
34、获取所述噪声测试集,确定当前采样样本,并根据所述当前采样样本确定重构的起始点和接收点;
35、计算所述重构的起始点和接收点之间的距离,得到重构路径,并基于所述重构路径,构建扩展路径;
36、将所述当前采样样本分别经过所述重构路径和所述扩展路径,并进行合并,完成所述当前采样样本的输出;
37、对下一个采样样本进行重构并输出,直至所述噪声测试集重构序列完成。
38、可选的,在本发明第一方面的第九种实现方式中,所述重构路径和所述扩展路径均至少包括三个有效卷积和一个最大池化降采样,所述重构路径每次降采样之后大小降低为原来的1/2,所述扩展路径开始之前通过反卷积将尺寸乘以2,并将个数减少为原来的1/2。
39、本发明提供的技术方案中,通过获取纯净语音样本和噪声语音样本,将所述纯净语音样本和所述噪声语音样本经过短时傅里叶变换分别得到纯净语音幅度谱和带噪语音幅度谱;分别对所述纯净语音幅度谱和所述带噪语音幅度谱进行第一特征提取,得到纯净语音特征和带噪语音特征;将所述纯净语音特征和所述带噪语音特征输入神经网络模型中进行训练,得到语音增强模型;获取含噪的待增强语音,对所述待增强语音进行第二特征提取,得到噪声测试集;将所述噪声测试集输入所述语音增强模型中,进行波形重构,并基于含噪的待增强语音的混合相位,得到目标增强语音;本发明通过人工智能方法对含噪语音进行增强,使目标语音清晰化,从而达到降噪的效果,有效提升用户体验,同时提高了语音的可懂度及识别准确度。