用于交互的语音降噪方法、系统、电子设备和存储介质与流程

文档序号：32310780发布日期：2022-11-23 11:30阅读：来源：国知局

技术特征：
1.一种用于交互的语音降噪方法，应用于为播放设备提供音视频信号源的智能终端，包括：将所述智能终端采集到的带有所述播放设备背景噪音、环境噪音、目标人声的远场语音与所述背景噪音的音视频信号源的回采数据输入至神经网络回声消除模块，用于固定所述回采数据的延时，从所述远场语音消除所述播放设备背景噪音，得到第一语音；检测所述远场语音的声源方向，确定所述智能终端与所述目标人声的第一相对位置关系，基于所述第一相对位置关系以及预先确定的所述智能终端与所述播放设备的第二相对位置关系，对所述第一语音进行所述环境噪音的抑制，得到纯净的第二语音；将所述纯净的第二语音输入至自适应识别模型，得到语音识别结果。2.根据权利要求1所述的方法，其中，所述神经网络回声消除模块由深度神经网络构建，用于处理所述远场语音中所述播放设备背景噪音的非线性失真，包括：与第一归一层相连的多头注意力层，以及与第二归一层相连的多头自注意力层，用于通过注意力机制获取回采数据和所述远场语音的对应关系，确定动态调整的加权信息；通过所述与第一归一层相连的多头注意力层以及与第二归一层相连的多头自注意力层，构建的循环深度神经网络，通过所述循环深度神经网络记录的所述远场语音的上下文固定所述回采数据的延时。3.根据权利要求2所述的方法，其中，所述神经网络回声消除模块由不含所述播放设备背景噪音的回采数据确定的标注数据、所述播放设备背景噪音下的音频训练数据、以及不含所述播放设备背景噪音的纯净音频训练数据训练。4.根据权利要求1所述的方法，其中，所述检测所述远场语音的声源方向，确定所述智能终端与所述目标人声的第一相对位置关系，基于所述第一相对位置关系以及预先确定的所述智能终端与所述播放设备的第二相对位置关系，对所述第一语音进行所述环境噪音的抑制，得到纯净的第二语音包括：基于所述第一相对位置关系以及所述第二相对位置关系，确定所述目标人声与所述播放设备是否处于所述智能终端的同一方向；当所述目标人声与所述播放设备不处于所述智能终端的同一方向时，对所述第一语音进行所述环境噪音的抑制；当所述目标人声与所述播放设备处于所述智能终端的同一方向时，对所述第一语音进行盲源分离，将所述第一语音中的人声和噪声分离。5.根据权利要求1所述的方法，其中，所述智能终端配置有麦克风阵列。6.根据权利要求5所述的方法，其中，在所述采集到远场语音之前，所述方法还包括：智能终端预先向所述播放设备提供测试音频；智能终端的麦克风阵列采集所述播放设备播放的所述测试音频，通过声源定位确定出所述播放设备的各扬声器相对于所述智能终端的麦克风阵列的位置关系。7.根据权利要求5所述的方法，其中，所述将所述纯净的第二语音输入至自适应识别模型，得到语音识别结果包括：通过所述麦克风阵列得到不同音量大小的第二语音，配置与所述不同音量大小相对应的唤醒识别模块，分别对所述不同音量大小的第二语音进行各自的唤醒识别处理，得到语音识别结果。
8.一种用于交互的语音降噪系统，包括：回声消除程序模块，用于将所述智能终端采集到的带有所述播放设备背景噪音、环境噪音、目标人声的远场语音与所述背景噪音的音视频信号源的回采数据输入至神经网络回声消除模块，用于固定所述回采数据的延时，从所述远场语音消除所述播放设备背景噪音，得到第一语音；定向抑制程序模块，用于检测所述远场语音的声源方向，确定所述智能终端与所述目标人声的第一相对位置关系，基于所述第一相对位置关系以及预先确定的所述智能终端与所述播放设备的第二相对位置关系，对所述第一语音进行所述环境噪音的抑制，得到纯净的第二语音；识别程序模块，用于将所述纯净的第二语音输入至自适应识别模型，得到语音识别结果。9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

技术总结
本发明实施例提供一种用于交互的语音降噪方法、系统、电子设备和存储介质。该方法包括：将智能终端采集到的带有播放设备背景噪音、环境噪音、目标人声的远场语音与背景噪音的音视频信号源的回采数据输入至神经网络回声消除模块，得到第一语音；检测远场语音的声源方向，确定智能终端与目标人声的第一相对位置关系，基于第一相对位置关系以及预先确定的智能终端与播放设备的第二相对位置关系，对第一语音进行环境噪音的抑制，得到纯净的第二语音；将第二语音输入至自适应识别模型，得到语音识别结果。本发明实施例解决了跨设备传输导致的回声数据的非线性变化及延时问题，提升实际情况下多变声学环境下的唤醒率，提供高效、稳定的语音交互功能。稳定的语音交互功能。稳定的语音交互功能。

技术研发人员：陈明佳
受保护的技术使用者：思必驰科技股份有限公司
技术研发日：2022.08.19
技术公布日：2022/11/22

完整全部详细技术资料下载

当前第2页1 2