语音降噪方法、装置及存储介质与流程

文档序号:42668051发布日期:2025-08-11 14:40阅读:20来源:国知局
技术简介:
本专利针对传统语音降噪模型因训练数据与实际场景分布不一致导致的降噪效果差问题,提出通过电子设备在多种实际使用环境中采集语音数据训练模型,实现训练数据与应用数据的一致性,提升降噪清晰度和用户体验。
关键词:语音降噪模型,数据分布一致性

本公开涉及语音识别,尤其涉及语音降噪方法、装置及存储介质。


背景技术:

1、随着语音降噪技术的不断发展,人们对语音降噪的性能需求也越来越高。

2、相关技术中,基于来源数据集或者预先录制数据集获取降噪模型训练参数,并通过数学的方法、按照预先人为先验设定的参数进行程序合成。然而,由于在该种场景下无法覆盖模型实际应用升学场景,导致经过模型训练后的语音音频与实际应用场景的语音音频存在数据分布不一致的现象。


技术实现思路

1、为克服相关技术中存在的问题,本公开提供一种语音降噪方法、装置及存储介质。

2、根据本公开实施例的第一方面,提供一种语音降噪方法,包括:获取电子设备在实际使用环境中采集的待降噪语音信号;基于所述待降噪语音信号以及降噪模型,对所述待降噪语音信号进行降噪,得到目标语音;其中,所述降噪模型基于所述电子设备在多个不同使用环境中采集的语音训练数据训练得到,所述多个不同使用环境至少包括第一使用环境。

3、一种实施方式中,所述降噪模型采用如下方式基于所述电子设备在设定使用环境中采集的语音训练数据训练得到:控制所述电子设备在多个不同使用环境下分别采集纯净语音信号和含噪语音信号;针对每一使用环境,基于所述纯净语音信号和所述含噪语音信号,得到对应所述使用环境下的语音训练数据;基于所述多个不同使用环境下得到的语音训练数据,训练得到降噪模型。

4、一种实施方式中,所述基于所述含噪语音信号以及所述纯净语音信号,得到对应所述使用环境下的语音训练数据,包括:将所述语音训练数据输入至语音传输信道,得到经所述语音传输信道传输后的含噪语音信号;对齐所述纯净语音信号以及经所述语音传输信道传输后的含噪语音信号,得到对齐后的语音信号,将所述对齐后的语音信号作为所述使用环境下的语音训练数据。

5、一种实施方式中,所述对齐所述纯净语音信号以及经所述语音传输信道传输后的含噪语音信号,包括:在第一时刻获取经所述语音传输信道传输后的含噪语音信号;基于所述第一时刻以及所述语音传输信道的传输时延,确定时间搜索范围;基于所述时间搜索范围,调用搜索函数,确定采集所述纯净语音信号的第二时刻,所述第二时刻满足使所述含噪语音信号的幅度谱与所述纯净语音信号的幅度谱之间的像素点达到相似度阈值;在所述第二时刻,对齐所述纯净语音信号以及经所述语音传输信道传输后的含噪语音信号。

6、一种实施方式中,所述搜索函数满足如下公式:

7、

8、其中,语音数据表示为x;t*∈[t-δt-l,t];l是x的长度;stft为傅里叶变换;b为二值化操作;对齐时刻t';cos是余弦相似度函数。

9、根据本公开实施例的第二方面,提供一种语音降噪装置,包括:获取单元,用于获取电子设备在实际使用环境中采集的待降噪语音信号;处理单元,用于基于所述待降噪语音信号以及降噪模型,对所述待降噪语音信号进行降噪,得到目标语音;其中,所述降噪模型基于所述电子设备在多个不同使用环境中采集的语音训练数据训练得到,所述多个不同使用环境至少包括第一使用环境。

10、一种实施方式中,所述降噪模型采用如下方式基于所述电子设备在设定使用环境中采集的语音训练数据训练得到:控制所述电子设备在多个不同使用环境下分别采集纯净语音信号和含噪语音信号;针对每一使用环境,基于所述纯净语音信号和所述含噪语音信号,得到对应所述使用环境下的语音训练数据;基于所述多个不同使用环境下得到的语音训练数据,训练得到降噪模型。

11、一种实施方式中,所述处理单元采用如下方式基于所述含噪语音信号以及所述纯净语音信号,得到对应所述使用环境下的语音训练数据:将所述语音训练数据输入至语音传输信道,得到经所述语音传输信道传输后的含噪语音信号;对齐所述纯净语音信号以及经所述语音传输信道传输后的含噪语音信号,得到对齐后的语音信号,将所述对齐后的语音信号作为所述使用环境下的语音训练数据。

12、一种实施方式中,所述处理单元采用如下方式对齐所述纯净语音信号以及经所述语音传输信道传输后的含噪语音信号:在第一时刻获取经所述语音传输信道传输后的含噪语音信号;基于所述第一时刻以及所述语音传输信道的传输时延,确定时间搜索范围;基于所述时间搜索范围,调用搜索函数,确定采集所述纯净语音信号的第二时刻,所述第二时刻满足使所述含噪语音信号的幅度谱与所述纯净语音信号的幅度谱之间的像素点达到相似度阈值;在所述第二时刻,对齐所述纯净语音信号以及经所述语音传输信道传输后的含噪语音信号。

13、一种实施方式中,所述搜索函数满足如下公式:

14、

15、其中,语音数据表示为x;t*∈[t-δt-l,t];l是x的长度;stft为傅里叶变换;b为二值化操作;对齐时刻t';cos是余弦相似度函数。

16、根据本公开实施例的第三方面,提供一种终端设备,包括:处理器:用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行所述可执行指令能够执行第一方面或第一方面中任意一种实施方式中的显示控制方法。

17、根据本公开实施例的第四方面,提供一种存储介质,所述存储介质中存储有指令,当所述存储介质中的指令由终端的处理器执行时,使得终端设备能够执行第一方面或第一方面中任意一种实施方式中的语音降噪方法。

18、本公开的实施例提供的技术方案可以包括以下有益效果:利用电子设备在实际使用环境中采集的待降噪语音信号可以实时感知环境,并保证语音降噪模型的训练数据与语音降噪模型实际使用数据的一致性,利用降噪模型,对待降噪语音信号进行降噪,提高语音降噪的清晰度,提升用户体验。

19、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。



技术特征:

1.一种语音降噪方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述降噪模型采用如下方式基于所述电子设备在设定使用环境中采集的语音训练数据训练得到:

3.根据权利要求2所述的方法,其特征在于,所述基于所述含噪语音信号以及所述纯净语音信号,得到对应所述使用环境下的语音训练数据,包括:

4.根据权利要求3所述的方法,其特征在于,所述对齐所述纯净语音信号以及经所述语音传输信道传输后的含噪语音信号,包括:

5.根据权利要求4所述的方法,其特征在于,所述搜索函数满足如下公式:

6.一种语音降噪装置,其特征在于,所述装置包括:

7.根据权利要求6所述的装置,其特征在于,所述降噪模型采用如下方式基于所述电子设备在设定使用环境中采集的语音训练数据训练得到:

8.根据权利要求7所述的装置,其特征在于,所述处理单元采用如下方式基于所述含噪语音信号以及所述纯净语音信号,得到对应所述使用环境下的语音训练数据:

9.根据权利要求8所述的装置,其特征在于,所述处理单元采用如下方式对齐所述纯净语音信号以及经所述语音传输信道传输后的含噪语音信号:

10.根据权利要求9所述的装置,其特征在于,所述搜索函数满足如下公式:

11.一种语音降噪装置,其特征在于,包括:

12.一种存储介质,其特征在于,所述存储介质中存储有指令,当所述存储介质中的指令由终端的处理器执行时,使得终端能够执行权利要求1-5中任意一项所述的方法。


技术总结
本公开是关于一种语音降噪方法、装置及存储介质。其中,语音降噪方法,包括:获取电子设备在实际使用环境中采集的待降噪语音信号;基于所述待降噪语音信号以及降噪模型,对所述待降噪语音信号进行降噪,得到目标语音;其中,所述降噪模型基于所述电子设备在多个不同使用环境中采集的语音训练数据训练得到,所述多个不同使用环境至少包括所述第一使用环境。电子设备在实际使用环境中采集,保证模型训练数据与实际应用数据的一致性,提升用户体验。

技术研发人员:袁熹,许家铭,王洋洋,钟双莲,王诗婷
受保护的技术使用者:北京小米移动软件有限公司
技术研发日:
技术公布日:2025/8/10
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!