一种语音转换方法、装置、设备及可读存储介质与流程

文档序号:35221328发布日期:2023-08-24 19:58阅读:30来源:国知局
一种语音转换方法、装置、设备及可读存储介质与流程

本发明实施例涉及音频处理,尤其涉及一种语音转换方法、装置、设备及可读存储介质。


背景技术:

1、相关技术中,变声技术主要为传统实时变声技术和基于深度学习的变声技术,前者基于音频的识别特征将其转换为特色声音,后者通过建立并训练深度学习模型实现实时变声。

2、相关技术中存在的问题为:传统实时变声技术只能支持将输入语音转换为一些预设的特色声音(如:特定的卡通人物的声音),而无法将输入语音转换为特定人的声音;而基于深度学习的变声技术则需要大量的数据(通常至少需要小时级别的数据)才能实现特定人声的转换,并且无法实现高质量的流式语音数据的生成。


技术实现思路

1、本发明实施例提供一种语音转换方法、装置、设备及可读存储介质,以解决相关技术中的语音转换方法无法将语音转换为特定人的声音,适用性较差,且所需训练数据较多,语音转换的效率较低的技术问题。

2、第一方面,本发明实施例提供一种语音转换方法,所述方法包括:

3、获取待处理的语音信息;

4、基于三头编码器,分别对所述待处理的语音信息中的语音内容、环境噪声以及基频信息进行编码建模,以得到编码建模后的语音信息;其中,所述三头编码器由语音内容编码器、环境噪声编码器以及韵律波动编码器组成;

5、对所述编码建模后的语音信息的时序进行更改,以调整所述编码后的语音信息的语速;

6、将调整语速后的语音信息输入预先训练好的与目标用户对应的音色转换模型中,得到目标声学特征;

7、其中,所述目标声学特征的语音内容与所述语音信息的语音内容相同,所述目标声学特征的音色与所述目标用户的音色相同。

8、可选的,基于三头编码器,分别对所述待处理的语音信息中的语音内容、环境噪声以及基频信息进行编码建模,以得到编码建模后的语音信息包括:

9、基于所述语音内容编码器将所述语音内容经过自编码映射到高维空间,获得所述语音内容的高阶特征表达;其中,所述高阶特征表达的形式为二维矩阵;

10、基于所述环境噪声编码器提取所述环境噪声,并将所述环境噪声映射为高阶的环境声特征;其中,所述环境声特征的形式为二维矩阵;

11、基于所述韵律波动编码器提取所述基频信息,并将所述基频信息进行离散化表达,得到韵律波动编码结果;其中,所述韵律波动编码结果的形式为一维矩阵;

12、将所述环境声特征和所述韵律波动编码结果分别进行格式转换,以分别生成梅尔特征维度数与所述高阶特征表达的二维矩阵中的梅尔特征维度数相同的二维矩阵;

13、将所述语音内容的高阶特征表达、所述高阶的环境声特征以及所述韵律波动编码结果相叠加,以得到编码建模后的语音信息。

14、可选的,对所述编码建模后的语音信息的时序进行更改,以调整所述编码后的语音信息的语速包括:

15、对所述编码建模后的语音信息在时序上进行扩充式线性差值,以调慢所述编码后的语音信息的语速;其中包括:

16、接收语速调慢指令;其中所述语速调慢指令用于指示调整后的语速为原有语速的1/n倍,其中,所述n为大于1的正整数;

17、根据所述语速调慢指令,将所述编码后的语音信息的编码值进行扩充;其中,所述扩充为:将所述编码值排成一编码值序列,从所述序列的起始位开始,每隔一位,插入n-1个空位,直至在序列的末位后插入n-1个空位为止;

18、对所述空位进行线性插值处理,以调慢所述编码后的语音信息的语速,其中,序列的末位之前的空位处插入的值根据空位前后两个相邻的原有的编码值而确定,序列的末位之后的空位处插入的值根据序列的末位的编码值而确定。

19、可选的,对所述编码建模后的语音信息的时序进行更改,以调整所述编码后的语音信息的语速包括:

20、对所述编码建模后的语音信息在时序上进行删值操作,以调快所述编码后的语音信息的语速;其中包括:

21、接收语速调快指令;其中所述语速调快指令用于指示调整后的语速为原有语速的a倍,其中,所述a为大于1的正整数;

22、根据所述语速调快指令,将所述编码后的语音信息的编码值进行删除操作;其中,所述删除操作为:将所述编码值排成一编码值序列,从所述序列的起始位开始,每隔一位,删除a-1个空位,直至所述序列的结束位为止。

23、可选的,在将调整语速后的语音信息输入预先训练好的音色转换模型中,得到目标声学特征之前,所述方法还包括:

24、确定所述目标用户的音色表达特征;

25、基于所述音色表达特征,对通用音色转换模型进行自适应训练,以得到所述音色转换模型;

26、其中,所述通用音色转换模型是基于预设数量的用户的预设数量条语音数据所对应的梅尔特征数据和所述语音数据所对应的音色特征表达训练而成的。

27、可选的,确定所述目标用户的音色表达特征包括:

28、获取目标用户的语音信息;

29、将所述目标用户的语音信息转换为梅尔声学特征;

30、将所述梅尔声学特征输入tdnn网络,得到全局音色特征;

31、对所述全局音色特征进行均值化处理,得到所述音色表达特征。

32、可选的,在将调整语速后的语音信息输入预先训练好的音色转换模型中,得到目标声学特征之后,所述方法还包括:

33、对所述目标声学特征进行切片处理,得到所述目标声学特征的声学片段;

34、将所述声学片段输入声码器转换为时域采样点,生成语音片段;

35、将所述语音片段进行平滑融合处理,生成语音流。

36、可选的,对所述目标声学特征进行切片处理,得到所述目标声学特征的声学片段包括:

37、以预设片段长度t为基准,将所述目标声学特征进行切片处理,得到m个长度为t的基础声学片段;其中,t为所述目标声学特征的总长度,t和t均为正整数,在t能被t整除的情况下,m=t/t;在t不能被t整除的情况下,m=t/t的商+1;

38、在每个基础声学片段的尾部向后,均多取一个单位长度的声学特征;

39、将所述基础声学片段和所取的一个单位长度的声学特征相叠加,得到m个长度为t+1的声学片段。

40、可选的,将所述声学片段输入声码器转换为时域采样点,生成语音片段包括:

41、将长度为t+1的声学片段输入所述声码器中,生成k*(t+1)长度的语音片段;

42、其中,每个单位长度的声学特征会被所述声码器转换为k个时域采样点,其中,k为正整数。

43、可选的,将所述语音片段进行平滑融合处理,生成语音流包括:

44、将除最后一个语音片段之外的其余每个语音片段中,最后一个单位长度的k个时域采样点设置为尾部缓存区;

45、将除第一个语音片段之外的其余每个语音片段中,第一个单位长度的k个时域采样点设置为头部融合区;

46、将相邻的两个语音片段中,前一个语音片段的尾部缓存区进行响度衰减处理,后一个语音片段的头部融合区进行响度增强处理;

47、将处理后的所有语音片段进行融合拼接,生成语音流。

48、第二方面,本发明实施例提供一种语音转换装置,所述装置包括:

49、语音信息获取模块,用于获取待处理的语音信息;

50、编码建模模块,用于基于三头编码器,分别对所述待处理的语音信息中的语音内容、环境噪声以及基频信息进行编码建模,以得到编码建模后的语音信息;其中,所述三头编码器由语音内容编码器、环境噪声编码器以及韵律波动编码器组成;

51、语速调整模块,用于对所述编码建模后的语音信息的时序进行更改,以调整所述编码后的语音信息的语速;

52、目标声学特征获取模块,用于将调整语速后的语音信息输入预先训练好的与目标用户对应的音色转换模型中,得到目标声学特征;

53、其中,所述目标声学特征的语音内容与所述语音信息的语音内容相同,所述目标声学特征的音色与所述目标用户的音色相同。

54、可选的,所述编码建模模块,还用于基于所述语音内容编码器将所述语音内容经过自编码映射到高维空间,获得所述语音内容的高阶特征表达;其中,所述高阶特征表达的形式为二维矩阵;

55、基于所述环境噪声编码器提取所述环境噪声,并将所述环境噪声映射为高阶的环境声特征;其中,所述环境声特征的形式为二维矩阵;

56、基于所述韵律波动编码器提取所述基频信息,并将所述基频信息进行离散化表达,得到韵律波动编码结果;其中,所述韵律波动编码结果的形式为一维矩阵;

57、将所述环境声特征和所述韵律波动编码结果分别进行格式转换,以分别生成梅尔特征维度数与所述高阶特征表达的二维矩阵中的梅尔特征维度数相同的二维矩阵;

58、将所述语音内容的高阶特征表达、所述高阶的环境声特征以及所述韵律波动编码结果相叠加,以得到编码建模后的语音信息。

59、可选的,所述语速调整模块,还用于对所述编码建模后的语音信息在时序上进行扩充式线性差值,以调慢所述编码后的语音信息的语速;其中包括:

60、接收语速调慢指令;其中所述语速调慢指令用于指示调整后的语速为原有语速的1/n倍,其中,所述n为大于1的正整数;

61、根据所述语速调慢指令,将所述编码后的语音信息的编码值进行扩充;其中,所述扩充为:将所述编码值排成一编码值序列,从所述序列的起始位开始,每隔一位,插入n-1个空位,直至在序列的末位后插入n-1个空位为止;

62、对所述空位进行线性插值处理,以调慢所述编码后的语音信息的语速,其中,序列的末位之前的空位处插入的值根据空位前后两个相邻的原有的编码值而确定,序列的末位之后的空位处插入的值根据序列的末位的编码值而确定。

63、可选的,所述语速调整模块,还用于对所述编码建模后的语音信息在时序上进行删值操作,以调快所述编码后的语音信息的语速;其中包括:

64、接收语速调快指令;其中所述语速调快指令用于指示调整后的语速为原有语速的a倍,其中,所述a为大于1的正整数;

65、根据所述语速调快指令,将所述编码后的语音信息的编码值进行删除操作;其中,所述删除操作为:将所述编码值排成一编码值序列,从所述序列的起始位开始,每隔一位,删除a-1个空位,直至所述序列的结束位为止。

66、可选的,所述装置还包括:

67、音色表达特征确定模块,用于在将调整语速后的语音信息输入预先训练好的音色转换模型中,得到目标声学特征之前,确定所述目标用户的音色表达特征;

68、训练模块,用于基于所述音色表达特征,对通用音色转换模型进行自适应训练,以得到所述音色转换模型;

69、其中,所述通用音色转换模型是基于预设数量的用户的预设数量条语音数据所对应的梅尔特征数据和所述语音数据所对应的音色特征表达训练而成的。

70、可选的,所述音色表达特征确定模块,还用于获取目标用户的语音信息;

71、将所述目标用户的语音信息转换为梅尔声学特征;

72、将所述梅尔声学特征输入tdnn网络,得到全局音色特征;

73、对所述全局音色特征进行均值化处理,得到所述音色表达特征。

74、可选的,所述装置还包括:

75、切片处理模块,用于在将调整语速后的语音信息输入预先训练好的音色转换模型中,得到目标声学特征之后,对所述目标声学特征进行切片处理,得到所述目标声学特征的声学片段;

76、语音片段生成模块,用于将所述声学片段输入声码器转换为时域采样点,生成语音片段;

77、语音流生成模块,用于将所述语音片段进行平滑融合处理,生成语音流。

78、可选的,所述切片处理模块,还用于以预设片段长度t为基准,将所述目标声学特征进行切片处理,得到m个长度为t的基础声学片段;其中,t为所述目标声学特征的总长度,t和t均为正整数,在t能被t整除的情况下,m=t/t;在t不能被t整除的情况下,m=t/t的商+1;

79、在每个基础声学片段的尾部向后,均多取一个单位长度的声学特征;

80、将所述基础声学片段和所取的一个单位长度的声学特征相叠加,得到m个长度为t+1的声学片段。

81、可选的,所述语音片段生成模块,还用于将长度为t+1的声学片段输入所述声码器中,生成k*(t+1)长度的语音片段;

82、其中,每个单位长度的声学特征会被所述声码器转换为k个时域采样点,其中,k为正整数。

83、可选的,所述语音流生成模块,还用于将除最后一个语音片段之外的其余每个语音片段中,最后一个单位长度的k个时域采样点设置为尾部缓存区;

84、将除第一个语音片段之外的其余每个语音片段中,第一个单位长度的k个时域采样点设置为头部融合区;

85、将相邻的两个语音片段中,前一个语音片段的尾部缓存区进行响度衰减处理,后一个语音片段的头部融合区进行响度增强处理;

86、将处理后的所有语音片段进行融合拼接,生成语音流。

87、第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的语音转换方法的步骤。

88、第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音转换方法的步骤。

89、由此,可根据需要对待处理的语音信息进行音色转换,且转换方式更加高效准确;对语音信息进行多维度编码可准确提取待处理的语音信息中的人声信息,而摒弃环境噪音等无关信息,提升语音在噪音环境下的鲁棒性,提高语音信息的清晰度;语速控制可使得用户根据实际需要调控语速,可提升用户的使用体验。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1