声音信号处理方法、装置和电子设备与流程

文档序号：26057315发布日期：2021-07-27 15:36阅读：来源：国知局

技术特征：

1.一种声音信号处理方法，应用于第一终端，其特征在于，包括：

基于来自第二终端的远端信号，对第一终端所采集麦克风信号的麦克风信号频谱进行线性滤波，生成线性滤波信号频谱，其中，所述麦克风信号是播放所述远端信号后采集的声音信号；

基于远端信号频谱、所述麦克风信号频谱和所述线性滤波信号频谱，确定所述线性滤波信号频谱中至少一个频点的回声信号掩蔽值；

利用所确定的至少一个回声信号掩蔽值对所述线性滤波信号频谱中所叠加回声信号频谱进行掩蔽，生成目标近端信号频谱；

将所述目标近端信号频谱转换为目标近端信号。

2.根据权利要求1所述的方法，其特征在于，所述基于远端信号频谱、所述麦克风信号频谱和所述线性滤波信号频谱，确定所述线性滤波信号频谱中至少一个频点的回声信号掩蔽值，包括：

将所述远端信号频谱、所述麦克风信号频谱和所述线性滤波信号频谱输入至掩蔽值确定模型中，得到所述线性滤波信号频谱中至少一个频点的回声信号掩蔽值。

3.根据权利要求2所述的方法，其特征在于，所述掩蔽值确定模型通过以下方式训练生成：

获取样本集合，其中，所述样本集合中的样本包括样本远端信号频谱、样本麦克风信号频谱、样本线性滤波信号频谱和样本线性滤波信号频谱中至少一个频点的样本回声信号掩蔽值；

将从所述样本集合中所选取样本包括的样本远端信号频谱、样本麦克风信号频谱和样本线性滤波信号频谱作为初始模型的输入，将所选取样本包括的至少一个样本回声信号掩蔽值作为所述初始模型的期望输出，训练生成所述掩蔽值确定模型。

4.根据权利要求2所述的方法，其特征在于，所述掩蔽值确定模型包括频谱分离结构，其中，所述频谱分离结构基于输入至所述掩蔽值确定模型的远端信号频谱、麦克风信号频谱和线性滤波信号频谱的处理，拟合线性滤波信号频谱中包含的第一近端信号频谱和剩余信号频谱。

5.根据权利要求4所述的方法，其特征在于，所述频谱分离结构包括依次连接的多个频谱分离块，其中，第一位次的频谱分离块基于所输入的远端信号频谱、麦克风信号频谱和线性滤波信号频谱的处理，拟合线性滤波信号频谱中包含的第一近端信号频谱和剩余信号频谱，大于等于第二位次的频谱分离块基于上一位次频谱分离块的输入频谱和输出频谱的处理，拟合线性滤波信号频谱中包含的第一近端信号频谱和剩余信号频谱。

6.根据权利要求5所述的方法，其特征在于，每个频谱分离块包括第一特征升维层和第一特征压缩层，其中，所述第一特征升维层用于对输入至频谱分离块的频谱进行特征升维，所述第一特征压缩层用于对第一特征升维层所输出频谱进行部分频带的特征压缩。

7.根据权利要求2所述的方法，其特征在于，所述掩蔽值确定模型包括频谱综合层，其中，所述频谱综合层用于将频谱分离结构输出的第一近端信号频谱和剩余信号频谱综合为第二近端信号频谱。

8.根据权利要求2所述的方法，其特征在于，所述掩蔽值确定模型包括第二特征压缩层，其中，所述第二特征压缩层通过对频谱综合层输出的第二近端信号频谱进行全频带的特征压缩，拟合第三近端信号频谱。

9.根据权利要求2所述的方法，其特征在于，所述掩蔽值确定模型包括全连接层，其中，所述全连接层基于第二特征压缩层输出的第三近端信号频谱，确定线性滤波信号频谱中至少一个频点的回声信号掩蔽值。

10.根据权利要求9所述的方法，其特征在于，回声信号掩蔽值是所述第二特征压缩层所输出第三近端信号频谱与所述线性滤波信号频谱在相同频点的幅值模之比。

11.根据权利要求6或8所述的方法，其特征在于，所述第一特征压缩层和所述第二特征压缩层是门控循环单元层。

12.根据权利要求1所述的方法，其特征在于，所述基于来自第二终端的远端信号，对第一终端所采集麦克风信号的麦克风信号频谱进行线性滤波，生成线性滤波信号频谱，包括：

分别对所述麦克风信号和所述远端信号进行短时傅里叶变换，生成所述麦克风信号频谱和远端信号频谱；

将所述远端信号频谱输入至线性滤波器中，得到预测回声信号频谱；

从所述麦克风信号频谱中去除所述预测回声信号频谱，生成所述线性滤波信号频谱。

13.根据权利要求1-12中任一所述的方法，其特征在于，所述利用所确定的至少一个回声信号掩蔽值对所述线性滤波信号频谱中所叠加回声信号频谱进行掩蔽，生成目标近端信号频谱，包括：

对于所述线性滤波信号频谱，将所述至少一个频点中各个频点的幅值与对应的回声信号掩蔽值相乘，生成所述目标近端信号频谱。

14.一种声音信号处理装置，应用于第一终端，其特征在于，包括：

第一生成单元，用于基于来自第二终端的远端信号，对第一终端所采集麦克风信号的麦克风信号频谱进行线性滤波，生成线性滤波信号频谱，其中，所述麦克风信号是播放所述远端信号后采集的声音信号；

确定单元，用于基于远端信号频谱、所述麦克风信号频谱和所述线性滤波信号频谱，确定所述线性滤波信号频谱中至少一个频点的回声信号掩蔽值；

第二生成单元，用于利用所确定的至少一个回声信号掩蔽值对所述线性滤波信号频谱中所叠加回声信号频谱进行掩蔽，确定目标近端信号频谱；

转换单元，用于将所述目标近端信号频谱转换为目标近端信号。

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-13中任一所述的方法。

16.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-13中任一所述的方法。

技术总结
本公开的实施例公开了声音信号处理方法、装置和电子设备。该方法的一具体实施方式包括：基于来自第二终端的远端信号，对第一终端所采集麦克风信号的麦克风信号频谱进行线性滤波，生成线性滤波信号频谱，其中，麦克风信号是播放远端信号后采集的声音信号；基于远端信号频谱、麦克风信号频谱和线性滤波信号频谱，确定线性滤波信号频谱中至少一个频点的回声信号掩蔽值；利用所确定的至少一个回声信号掩蔽值对线性滤波信号频谱中所叠加回声信号频谱进行掩蔽，生成目标近端信号频谱；将目标近端信号频谱转换为目标近端信号。由此，通过去除麦克风信号中包含的线性回声信号和非线性回声信号，提升第一终端与第二终端进行语音通话的质量。

技术研发人员：周楠;徐杨飞
受保护的技术使用者：北京有竹居网络技术有限公司
技术研发日：2021.04.26
技术公布日：2021.07.27

完整全部详细技术资料下载

当前第2页1 2