一种语音处理方法、装置、电子设备及存储介质与流程

文档序号:36401018发布日期:2023-12-16 03:46阅读:74来源:国知局
技术简介:
本专利针对现有语音分离技术无法有效结合上下文信息导致分离准确率不足的问题,提出基于多头自注意力机制的改进方法。通过滑动窗口切割语音特征,利用多头自注意力机制进行多轮特征处理,结合说话人数量预测与特征分割,最终实现更精准的语音分离。核心在于通过上下文信息增强特征表示,提升分离效果。
关键词:语音分离,上下文信息

本申请涉及数据处理及深度学习领域,尤其涉及一种语音处理方法、装置、电子设备及存储介质。


背景技术:

1、对语音进行处理包括从包含至少两个说话人的语音中,将每个说话人的语音给分离出来。目前可以通过基于循环rnn网络(循环神经网络)的语音分离模型或mulcat模型(一种语音分离模型)对语音进行分离,但这两种模型均无法有效结合上下文信息,因此,分离出的每个说话人的语音的准确率不足。


技术实现思路

1、本申请提供了一种语音处理方法、装置、电子设备及存储介质。

2、根据本申请的第一方面,提供了一种语音处理方法,所述方法包括:

3、对获取的待测语音进行特征提取,得到第一语音特征数据;

4、基于所述第一语音特征数据通过多头自注意力机制确定第二语音特征数据;

5、对所述第二语音特征数据进行预测,得到所述待测语音的说话人数量;

6、基于所述第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据;

7、基于所述说话人的第三语音特征数据确定所述说话人在所述待测语音中的目标语音。

8、其中,所述基于所述第一语音特征数据通过多头自注意力机制确定第二语音特征数据,包括:

9、基于所述第一语音特征数据确定多个第一子语音特征数据;

10、基于所述第一子语音特征数据确定候选第二语音特征数据;

11、利用多头自注意力机制对所述候选第二语音特征数据进行预设次数的处理,得到所述第二语音特征数据。

12、其中,所述利用多头自注意力机制对所述候选第二语音特征数据进行预设次数的处理,包括:

13、基于所述候选第二语音特征数据确定多个块内语音特征数据,并基于所述多个块内语音特征数据通过多头自注意力机制确定相应的多个加权后的块内语音特征数据;

14、对所述多个加权后的块内语音特征数据的维度进行转换,得到多个块间语音特征数据,并基于所述转换得到的多个块间语音特征数据通过多头自注意力机制确定相应的多个加权后的块间语音特征数据;

15、若所述处理未达到预设次数,则对所述多个加权后的块间语音特征数据的维度进行转换,得到多个块内语音特征数据并重新进行处理;

16、若所述处理达到预设次数,则基于所述多个加权后的块间语音特征数据确定第二语音特征数据。

17、其中,所述基于所述第一语音特征数据确定多个第一子语音特征数据,包括:

18、利用滑动窗口对所述第一语音特征数据进行切割,得到多个第一子语音特征数据,所述滑动窗口的长与所述第一语音特征数据相同,所述滑动窗口的宽小于所述第一语音特征数据。

19、其中,所述基于所述第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据,包括:

20、基于所述说话人数量对第二语音特征数据进行升维,得到第四语音特征数据;

21、将所述第四语音特征数据展平,得到第五语音特征数据;

22、基于所述说话人数量对所述第五语音特征数据进行切割,得到所述说话人的第三语音特征数据。

23、其中,所述基于所述说话人的第三语音特征数据确定所述说话人在所述待测语音中的目标语音,包括:

24、对所述说话人的第三语音特征数据进行解码,得到所述说话人在所述待测语音中的目标语音。

25、根据本申请的第二方面,提供了一种语音处理装置,所述装置包括:

26、处理模块,用于对获取的待测语音进行特征提取,得到第一语音特征数据;

27、计算模块,用于基于所述第一语音特征数据通过多头自注意力机制确定第二语音特征数据;

28、所述计算模块,还用于对所述第二语音特征数据进行预测,得到所述待测语音的说话人数量;

29、所述计算模块,还用于基于所述第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据;

30、转换模块,用于基于所述说话人的第三语音特征数据确定所述说话人在所述待测语音中的目标语音。

31、其中,所述计算模块,还用于基于所述第一语音特征数据确定多个第一子语音特征数据;

32、所述计算模块,还用于基于所述第一子语音特征数据确定候选第二语音特征数据;

33、所述计算模块,还用于利用多头自注意力机制对所述候选第二语音特征数据进行预设次数的处理,得到所述第二语音特征数据。

34、根据本申请的第三方面,提供了一种电子设备,包括:

35、至少一个处理器;以及

36、与所述至少一个处理器通信连接的存储器;其中,

37、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请所述的方法。

38、根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请所述的方法。

39、应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种语音处理方法,所述方法包括:

2.根据权利要求1所述的方法,所述基于所述第一语音特征数据通过多头自注意力机制确定第二语音特征数据,包括:

3.根据权利要求2所述的方法,所述利用多头自注意力机制对所述候选第二语音特征数据进行预设次数的处理,包括:

4.根据权利要求3所述的方法,所述基于所述第一语音特征数据确定多个第一子语音特征数据,包括:

5.根据权利要求1所述的方法,所述基于所述第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据,包括:

6.根据权利要求1所述的方法,所述基于所述说话人的第三语音特征数据确定所述说话人在所述待测语音中的目标语音,包括:

7.一种语音处理装置,所述装置包括:

8.根据权利要求7所述的装置,包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行权利要求1-6任一项所述的语音处理方法。


技术总结
本申请提供了一种语音处理方法、装置、电子设备及存储介质,涉及数据处理及深度学习领域,该方法包括:对获取的待测语音进行特征提取,得到第一语音特征数据;基于第一语音特征数据通过多头自注意力机制确定第二语音特征数据;对第二语音特征数据进行预测,得到待测语音的说话人数量;基于第二语音特征数据和说话人数量确定每个说话人的第三语音特征数据;基于说话人的第三语音特征数据确定说话人在待测语音中的目标语音。解决现有方法无法有效结合语音中的上下文信息,导致分离出的每个说话人的语音的准确率不足的问题。

技术研发人员:殷赵慧,胡新辉,徐欣康
受保护的技术使用者:浙江同花顺智能科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!