免注册声纹通话降噪方法、电子设备和存储介质与流程

文档序号：40839969发布日期：2025-02-06 17:15阅读：208来源：国知局

本发明属于通话降噪，尤其涉及免注册声纹通话降噪方法、电子设备和存储介质。

背景技术：

1、相关产品：联想pc个性化通话降噪、华为pc静谧空间、荣耀magicpad2 ai声纹降噪等。相关技术：deep attractor network(danet)深度吸引子网络、dual-path rnn (dprnn)双路径循环神经网络、speakerbeam说话人提取算法、voicefilter语音分离模型、audio-visual speech enhancement (avse)音频-视觉语音增强。

2、对于现有的技术或产品在通话过程中进行聚类注册，在环境比较嘈杂的场景、多人参与的会议场景很难通过声纹聚类得到比较纯净的主讲人语音，聚类出信噪比较低的音频、有干扰的主讲人音频、其他干扰人音频。会对主讲人会有抑制。现阶段实时声纹降噪对同行干扰，多人同时讲话时性能不理想。基于神经网路的算法存在噪声无法消除现象，无法准确和及时地估得突变的非平稳噪声，无法准确的消除训练集中未见过的噪声，如猫狗叫、蝉鸣噪声等等。

3、发明人发现，上述技术聚类不准确，导致其他干扰人声误闯到主讲人的注册信息中，这样注册好声纹后就会包含多个说话人信息。对主讲人通话可能有影响、此外对抑制干扰人性能降低。声纹降噪本身难度较大、流式声纹降噪对时延要求严格、尤其是同行干扰人影响时，性能一般较差。非平稳噪声无法及时去除。

技术实现思路

1、本发明实施例提供一种免注册声纹降噪方法、电子设备和存储介质，用于至少解决上述技术问题之一。

2、第一方面，本发明实施例提供一种免注册声纹降噪方法，包括：获取实时通话过程中满足总时长阈值的有效音频，对所述有效音频进行聚类，得到至少一类样本点；获取所述至少一类样本点中样本数据最多的一类样本点，并将所述样本数据最多的一类样本点的有效音频拼接进行声纹注册，得到声纹信息，其中，所述样本数据最多的一类样本点的有效音频为通话主讲人的音频；基于所述声纹信息对训练完成的降噪神经网络进行辅助，使所述降噪神经网络学习所述声纹信息中每帧的声纹特征的差异，得到降噪后的主讲人音频。

3、第二方面，本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述方法的步骤。

4、第三方面，本发明实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现第一方面所述方法的步骤。

5、在本申请实施例的方法中，免注册声纹降噪，即在实时语音传播的过程中，无需提前注册说话人的声纹信息，就可以只保留该说话人的音频，过滤掉其他说话人的语音。在语音交互的过程中，通过无感注册主讲人声纹即可更好的抑制干扰人声和噪声。在通话过程中，免注册说话人身份，另一端依然可以清晰的听到注册说话人的声音，不受其他人的人声干扰。可以很好的保留注册说话人的音频有效的抑制其他说话人的干扰。

技术特征：

1.一种免注册声纹通话降噪方法，包括：

2.根据权利要求1所述的方法，其中，所述对所述有效音频进行聚类，包括：

3.根据权利要求2所述的方法，其中，对所述有效音频进行聚类，还包括：

4.根据权利要求3所述的方法，其中，在所述对分帧处理后保留的音频进行特征提取之后，包括：

5.根据权利要求1所述的方法，其中，所述降噪神经网络包括编码器、即插即用单元和解码器，所述降噪神经网络训练时用到的损失函数包括预测出的音频和干净音频的尺度不变信噪比。

6.根据权利要求1所述的方法，其中，所述降噪神经网络的训练方法包括：

7.根据权利要求6所述的方法，其中，所述将预设数据转换成带噪音频，包括：

8.根据权利要求1所述的方法，其中，所述基于所述声纹信息对训练完成的降噪神经网络进行辅助，使所述降噪神经网络学习所述声纹信息中每帧的声纹特征的差异，包括：

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求2至8任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求2至8任一项所述方法的步骤。

技术总结
本申请实施例公开免注册声纹通话降噪方法、电子设备和存储介质，包括：获取实时通话过程中满足总时长阈值的有效音频，对所述有效音频进行聚类，得到至少一类样本点；获取所述至少一类样本点中样本数据最多的一类样本点，并将所述样本数据最多的一类样本点的有效音频拼接进行声纹注册，得到声纹信息，其中，所述样本数据最多的一类样本点的有效音频为通话主讲人的音频；基于所述声纹信息对训练完成的降噪神经网络进行辅助，使所述降噪神经网络学习所述声纹信息中每帧的声纹特征的差异，得到降噪后的主讲人音频。

技术研发人员：赵飞,周强,薛峰
受保护的技术使用者：思必驰科技股份有限公司
技术研发日：
技术公布日：2025/2/5

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵飞,周强,薛峰
技术所有人：思必驰科技股份有限公司
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！