本公开涉及人工智能,尤其涉及深度学习、语音处理、语音转换。更具体地,设计一种语音流处理方法、深度学习模型的训练方法、装置、设备、介质、程序产品及智能体。
背景技术:
1、随着人工智能技术的快速发展,可以基于人工智能实现语音转换。示例性地,语音转换可以将源发音者的语音特征转换为目标发音者的语音特征,同时保留源发音者语音的语义内容。
技术实现思路
1、本公开提供了一种语音流处理方法、深度学习模型的训练方法、装置、设备、介质、程序产品及智能体。
2、根据本公开的一方面,提供了一种语音流处理方法,包括:对待处理语音流中的第一语音帧序列进行特征提取,得到第一语音特征,其中,第一语音帧序列与第二语音帧序列中的至少一个第二语音帧重合,第二语音帧序列在语音流中排列在第一语音帧序列之前;基于注意力机制融合第一语音特征和基于第二语音帧序列确定的第二语音特征,得到语音融合特征;以及基于预设语音属性对语音融合特征进行转换,得到与第一语音帧序列对应的转换语音数据。
3、根据本公开的另一方面,提供了一种深度学习模型的训练方法,包括:获取样本语音流,样本语音流中的样本第一语音帧序列与样本第二语音帧序列中的至少一个第二语音帧重合,样本第二语音帧序列在样本语音流中排列在样本第一语音帧序列之前;利用特征提取层对样本第一语音帧序列进行特征提取,得到样本第一语音特征;对样本第一语音特征进行掩码,得到样本掩码语音特征;利用特征融合层对样本掩码语音特征,以及基于第二语音帧序列确定的样本第二语音特征进行注意力特征融合,得到样本语音融合特征;基于自监督机制,利用样本语音融合特征训练语音特征提取网络,得到经训练的深度学习模型。
4、根据本公开的另一方面,提供了一种语音流处理装置,包括:第一提取模块,用于对待处理语音流中的第一语音帧序列进行特征提取,得到第一语音特征,其中,第一语音帧序列与第二语音帧序列中的至少一个第二语音帧重合,第二语音帧序列在语音流中排列在第一语音帧序列之前;融合模块,用于基于注意力机制融合第一语音特征和基于第二语音帧序列确定的第二语音特征,得到语音融合特征;以及转换模块,用于基于预设语音属性对语音融合特征进行转换,得到与第一语音帧序列对应的转换语音数据。
5、根据本公开的另一方面,提供了一种深度学习模型的训练装置,包括:获取模块,用于获取样本语音流,样本语音流中的样本第一语音帧序列与样本第二语音帧序列中的至少一个第二语音帧重合,样本第二语音帧序列在样本语音流中排列在样本第一语音帧序列之前;第二提取模块,用于利用特征提取层对样本第一语音帧序列进行特征提取,得到样本第一语音特征;掩码模块,用于对样本第一语音特征进行掩码,得到样本掩码语音特征;第二融合模块,用于利用特征融合层对样本掩码语音特征,以及基于第二语音帧序列确定的样本第二语音特征进行注意力特征融合,得到样本语音融合特征;训练模块,用于基于自监督机制,利用样本语音融合特征训练语音特征提取网络,得到经训练的深度学习模型。
6、根据本公开的另一方面,提供了一种人工智能的智能体,包括:输入模块,用于接收输入信息;处理模块,用于基于所述输入模块接收的所述输入信息确定目标任务,基于所述目标任务确定大模型,通过调用所述大模型执行根据本公开实施例提供的的方法,得到输出信息;输出模块,用于输出所述处理模块得到的所述输出信息。
7、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的方法。
8、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上述的方法。
9、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上述的方法。
10、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种语音流处理方法,包括:
2.根据权利要求1所述的方法,其中,所述基于注意力机制融合所述第一语音特征和基于所述第二语音帧序列确定的第二语音特征,得到语音融合特征包括:
3.根据权利要求2所述的方法,其中,所述第二语音特征包括顺序排列的多个第二子特征,所述第一语音特征包括第一目标子特征;
4.根据权利要求3所述的方法,其中,所述对所述第二语音特征中除了所述至少一个窗口子特征之外的其他第二子特征进行掩码,得到与所述目标子特征对应的所述窗口语音特征包括:
5.根据权利要求1所述的方法,其中,所述对语音流中的第一语音帧序列进行特征提取,得到第一语音特征包括:
6.根据权利要求1或5所述的方法,其中,所述基于预设语音属性对所述语音融合特征进行语音转换,得到与所述第一语音帧序列对应的转换语音数据包括:
7.一种深度学习模型的训练方法,其中,所述深度学习模型的语音特征提取网络包括特征提取层和特征融合层;所述方法包括:
8.一种语音流处理装置,包括:
9.一种深度学习模型的训练装置,其中,所述深度学习模型的语音特征提取网络包括特征提取层和特征融合层;所述方法包括:
10.一种智能体,包括:
11.一种电子设备,包括:
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。