声音检测模型训练方法、数据处理方法以及相关装置与流程

文档序号:26951071发布日期:2021-10-16 01:27阅读:480来源:国知局
技术特征:
1.一种声音检测模型训练方法,其特征在于,所述方法包括:对获取的混合音频信号进行特征提取,得到混合音频特征;将目标声纹与所述混合音频特征进行拼接,得到所述混合音频信号对应的隐层向量;对所述混合音频信号对应的隐层向量进行个性化人声活动检测,得到标签分类结果;将所述标签分类结果与所述混合音频信号对应的目标标签进行比较,得到第一损失函数;将所述混合音频信号对应的隐层向量与所述标签分类结果进行拼接,得到所述混合音频信号对应的掩码;根据所述混合音频特征和所述混合音频信号对应的掩码,得到预测音频特征;将所述混合音频信号对应的干净音频信号和所述预测音频特征进行比较,得到第二损失函数;根据所述第一损失函数和所述第二损失函数,调整声音检测模型的参数。2.根据权利要求1所述的声音检测模型训练方法,其特征在于,所述将目标声纹与所述混合音频特征进行拼接,得到所述混合音频信号对应的隐层向量包括:将所述目标声纹与所述混合音频特征进行拼接,得到所述混合音频信号对应的拼接信号;将所述拼接信号输入第一长短时记忆网络结构,得到所述混合音频数据对应的隐层向量。3.根据权利要求2所述的声音检测模型训练方法,其特征在于,所述将所述目标声纹与所述混合音频特征进行拼接,得到所述混合音频信号对应的拼接信号包括:对所述混合音频特征进行标准化处理,将标准化处理后的混合音频特征与所述目标声纹进行拼接,得到所述混合音频信号对应的拼接信号。4.根据权利要求1所述的声音检测模型训练方法,其特征在于,所述对所述混合音频信号对应的隐层向量进行个性化人声活动检测,得到标签分类结果包括:将所述混合音频信号对应的隐层向量输入第二长短时记忆网络结构进行个性化人声活动检测,得到所述混合音频信号对应的标签分类结果。5.根据权利要求1所述的声音检测模型训练方法,其特征在于,所述标签分类结果包括所述混合音频数据对应的标签概率,所述将所述标签分类结果与所述混合音频信号对应的目标标签进行比较,得到第一损失函数包括:根据所述混合音频数据对应的标签概率和所述混合音频信号对应的目标标签概率,计算交叉熵,得到第一损失函数。6.根据权利要求5所述的声音检测模型训练方法,其特征在于,所述将所述混合音频信号对应的隐层向量与所述标签分类结果进行拼接,得到所述混合音频信号对应的掩码包括:将所述混合音频信号对应的隐层向量与所述标签概率对应的隐层向量进行拼接,得到所述混合音频信号对应的组合隐层向量,根据所述组合隐层向量,得到所述混合音频信号对应的掩码。7.根据权利要求1所述的声音检测模型训练方法,其特征在于,所述将所述混合音频信号对应的干净音频信号和所述预测音频特征进行比较,得到第二损失函数包括:
对所述混合音频信号对应的干净音频信号进行特征提取,得到目标音频特征;将所述目标音频特征和所述预测音频特征进行比较,得到第二损失函数。8.根据权利要求1所述的声音检测模型训练方法,其特征在于,所述目标标签包括:非人声片段标签、目标说话人人声片段、非目标说话人人声片段和混合人声片段。9.一种数据处理方法,其特征在于,所述方法包括:将待识别音频信号输入声音检测模型,得到目标音频特征;其中所述声音检测模型是通过如权利要求1至8任意一项所述的声音检测模型训练方法训练得到的;对所述目标音频特征进行语音识别,得到识别文本;所述将待识别音频信号输入声音检测模型,得到目标音频特征,包括:对待识别音频信号进行特征提取,得到识别音频特征;将目标声纹与所述识别音频特征进行拼接,得到所述待识别音频信号对应的隐层向量;对所述待识别音频信号对应的隐层向量进行个性化人声活动检测,得到所述待识别音频信号对应的标签分类结果;将所述待识别音频信号对应的隐层向量与所述待识别音频信号对应的标签分类结果进行拼接,确定所述待识别音频信号对应的掩码;根据所述识别音频特征和所述待识别音频信号对应的掩码,确定目标音频特征。10.根据权利要求9所述的数据处理方法,其特征在于,所述将目标声纹与所述识别音频特征进行拼接,得到所述待识别音频信号对应的隐层向量之前,所述方法还包括:基于生物识别确定所述待识别音频信号对应的目标用户,获取所述目标用户的声纹,并将所述目标用户的声纹确定为目标声纹。11.根据权利要求9所述的数据处理方法,其特征在于,所述对所述待识别音频信号对应的隐层向量进行个性化人声活动检测,得到所述待识别音频信号对应的标签分类结果包括:确定所述待识别音频信号对应的目标标签;根据所述目标标签,对所述待识别音频信号对应的隐层向量进行个性化人声活动检测,得到所述待识别音频信号对应的标签分类结果。12.根据权利要求11所述的数据处理方法,其特征在于,所述将所述待识别音频信号对应的隐层向量与所述待识别音频信号对应的标签分类结果进行拼接,确定所述待识别音频信号对应的掩码包括:根据所述待识别音频信号对应的标签分类结果,确定所述待识别音频信号中目标标签对应的标签概率;将待识别音频信号对应的隐层向量与所述标签概率对应的隐层向量进行拼接,得到待识别音频信号对应的组合隐层向量,根据所述组合隐层向量,确定所述待识别音频信号对应的掩码。13.一种电子设备,其特征在于,所述电子设备包括存储器和处理器;所述存储器,用于存储程序指令;所述处理器,用于读取所述存储器中存储的所述程序指令,以实现如权利要求1至8中任意一项所述的模型训练方法或者实现如权利要求9至12中任意一项所述的数据处理方
法。14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至8中任意一项所述的模型训练方法或者实现如权利要求9至12中任意一项所述的数据处理方法。

技术总结
本申请提供一种声音检测模型训练方法、数据处理方法以及相关装置,涉及人工智能领域。所述声音检测模型训练方法包括:将目标声纹与混合音频信号对应的混合音频特征进行拼接,得到混合音频信号对应的隐层向量;对隐层向量进行个性化人声活动检测,得到标签分类结果;将标签分类结果与混合音频信号对应的目标标签进行比较,得到第一损失函数;将隐层向量与标签分类结果进行拼接,得到混合音频信号对应的掩码;根据混合音频特征和掩码,得到预测音频特征;根据混合音频信号对应的干净音频信号和预测音频特征,得到第二损失函数;根据第一损失函数和第二损失函数调整声音检测模型的参数。利用本申请实施例,可以提高语音识别的效率和准确率。率和准确率。率和准确率。


技术研发人员:房雷
受保护的技术使用者:荣耀终端有限公司
技术研发日:2021.06.22
技术公布日:2021/10/15
当前第2页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!