一种会议场景下对目标说话人的定向语音分离方法及系统与流程

文档序号:37549629发布日期:2024-04-08 13:57阅读:112来源:国知局
技术特征:

1.一种会议场景下对目标说话人的定向语音分离方法,其特征在于,包括:

2.根据权利要求1所述的会议场景下对目标说话人的定向语音分离方法,其特征在于,所述生成会议场景的训练数据,具体包括:

3.根据权利要求1所述的会议场景下对目标说话人的定向语音分离方法,其特征在于,所述说话人编码器包括依次连接的第一一维卷积神经网络、多个残差网络块、第二一维卷积神经网络、池化层和softmax层;

4.根据权利要求1所述的会议场景下对目标说话人的定向语音分离方法,其特征在于,对所述训练数据中的每条会议语音进行切分与编码,获得每条会议语音对应的多段混合音频输入的特征表示,具体包括:

5.根据权利要求1所述的会议场景下对目标说话人的定向语音分离方法,其特征在于,所述定向语音分离模型训练时所使用的损失函数为

6.根据权利要求1所述的会议场景下对目标说话人的定向语音分离方法,其特征在于,所述定向语音分离模型包括:依次连接的n层时序卷积神经网络结构、第三一维卷积神经网络、relu层和一维反卷积层。

7.一种会议场景下对目标说话人的定向语音分离系统,其特征在于,包括:

8.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的会议场景下对目标说话人的定向语音分离方法。

9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现如权利要求1至6中任一项所述的会议场景下对目标说话人的定向语音分离方法。


技术总结
本发明公开一种会议场景下对目标说话人的定向语音分离方法及系统,涉及语音分离领域。本发明生成的会议场景的训练数据中,每条会议语音为包括非重叠音频和重叠音频的混合语音,且满足会议录音重叠率,更符合会议场景的现实情况,使定向语音分离模型可以分离任意重叠人数音频;从每条会议语音中提取每个参与者的音频,并在参与者不说话时用空白音频填充,后续作为标签训练定向语音分离模型,使得定向语音分离模型在目标说话人存在时输出目标语音,不存在时输出空白音频;获取目标说话人音频的特征表示,作为辅助信息引导模型,使得定向语音分离模型只分离目标说话人的语音,实现在任意重叠人数的混合语音中分离出目标说话人的声音。

技术研发人员:刘必晶,黄海腾,杨勇,王春安,吴剑,陈伟,蒋冰杉,杨群,张逸茹,范海威,李泽科,郭久煜,陈建洪,丁凌龙,陈书里,吴炜,吴克刚,余开杭,卓伟航,林航
受保护的技术使用者:北京科东电力控制系统有限责任公司
技术研发日:
技术公布日:2024/4/7
当前第2页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!