本发明涉及音频生成,尤其涉及一种音频生成方法、装置、设备及存储介质。
背景技术:
1、文本作为最基础的信息载体,也是最常见的大众情感表达的方法。随着文本转语音技术(tts)的发展,文本可以流畅且自然的转换为对应的音频,即,基于tts技术,可合成出文本对应的音频,有声读物就是tts技术的一项成功的使用场景。
2、然而,传统的标准tts系统只能用一种标准的男声或女声来进行发音,声音单调,收听者体验不佳。
技术实现思路
1、有鉴于此,本发明提供了一种音频生成方法、装置、设备及存储介质,用以解决现有的tts系统合成的音频单调,收听者体验不佳的问题,其技术方案如下:
2、第一方面,提供了一种音频生成方法,其包括:
3、获取目标文本;
4、确定所述目标文本所涉及的角色,得到若干角色;
5、确定与每个角色匹配的发音人信息,并确定所述目标文本中每个句子所属的角色;
6、根据所述目标文本、与每个角色匹配的发音人信息以及所述目标文本中每个句子所属的角色,合成所述目标文本对应的音频,作为目标音频。
7、可选的,所述获取目标文本,包括:
8、获取用户输入的文本生成要求;
9、从所述文本生成要求中提取文本生成要素;
10、调用预置的大语言模型,根据所述文本生成要素,生成目标文本。
11、可选的,所述确定所述目标文本所涉及的角色包括:
12、当接收到针对所述目标文本的播报操作时,确定所述目标文本所涉及的角色;
13、所述音频生成方法还包括:播放所述目标音频。
14、可选的,所述音频生成方法还包括:
15、根据所述目标文本,确定音效添加位置和对应的音效类型;
16、根据所述音效类型,从音效库中筛选音效;
17、根据所述音效添加位置,在合成的音频中添加筛选出的音效,得到具有音效的音频,作为目标音频。
18、可选的,所述音频生成方法还包括:
19、确定所述目标文本的文本类型;
20、根据所述目标文本的文本类型,从背景音乐库中为所述目标文本筛选背景音乐;
21、将筛选出的背景音乐与合成的音频进行融合,得到具有背景音乐的音频,作为目标音频。
22、可选的,所述根据所述目标文本的文本类型,从背景音乐库中为所述目标文本筛选背景音乐之前,还包括:
23、对所述目标文本进行情节划分,得到若干情节文本;
24、确定每个情节文本的情节类型;
25、所述根据所述目标文本的文本类型,从背景音乐库中为所述目标文本筛选背景音乐,包括:
26、根据所述目标文本的文本类型,以及所述目标文本中每个情节文本的情节类型,从背景音乐库中为所述目标文本中的每个情节文本筛选背景音乐。
27、可选的,所述确定所述目标文本中每个句子所属的角色,包括:
28、确定所述目标文本中每个句子的类型,其中,每个句子的类型为旁白、对话中的一种;
29、从所述若干角色中确定类型为对话的每个句子所属的角色。
30、可选的,所述音频生成方法还包括:
31、确定所述目标文本中句子的情感类型;
32、所述根据所述目标文本、与每个角色匹配的发音人信息以及所述目标文本中每个句子所属的角色,合成所述目标文本对应的音频,包括:
33、根据所述目标文本、与每个角色匹配的发音人信息、所述目标文本中每个句子所属的角色以及所述目标文本中句子的情感类型,合成所述目标文本对应的音频。
34、可选的,所述确定与每个角色匹配的发音人信息,包括:
35、确定每个角色的角色属性;
36、根据每个角色的角色属性,从发音人信息库中筛选与每个角色匹配的发音人信息,或者,根据每个角色的角色属性,同时结合所述目标文本的类型,从发音人信息库中筛选与每个角色匹配的发音人信息。
37、可选的,所述确定所述目标文本所涉及的角色,得到若干角色,包括:
38、从所述目标文本中抽取角色,以得到若干角色;
39、将所述若干角色中对应同一对象的多个角色合并,得到最终的角色。
40、第二方面,提供了一种音频生成装置,包括:文本获取模块、第一角色确定模块、发音人匹配模块、第二角色确定模块和音频合成模块;
41、所述文本获取模块,用于获取目标文本;
42、所述第一角色确定模块,用于确定所述目标文本所涉及的角色,得到若干角色;
43、所述发音人匹配模块,用于确定与每个角色匹配的发音人信息;
44、所述第二角色确定模块,用于确定所述目标文本中每个句子所属的角色;
45、所述音频合成模块,用于根据所述目标文本、与每个角色匹配的发音人信息以及所述目标文本中每个句子所属的角色,合成所述目标文本对应的音频,作为目标音频。
46、第三方面,提供了一种音频生成设备,包括:存储器和处理器;
47、所述存储器,用于存储程序;
48、所述处理器,用于执行所述程序,实现上述任一项所述的音频生成方法的各个步骤。
49、第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的音频生成方法的各个步骤。
50、本发明提供的音频生成方法,在获得目标文本后,首先确定目标文本涉及的角色,以得到若干角色,然后确定与每个角色匹配的发音人信息,并确定目标文本中每个句子所属的角色,最后根据目标文本、与每个角色匹配的发音人信息以及目标文本中每个句子所属的角色,合成目标文本对应的音频。本发明提供的音频生成方法可为目标文本涉及的每个角色确定匹配的发音人信息,且可确定出目标文本中每个句子所属的角色,进而可生成多发音人音频,即,本发明提供的音频生成方法可根据目标文本生成声音丰富的音频,收听者体验较好。
1.一种音频生成方法,其特征在于,包括:
2.根据权利要求1所述的音频生成方法,其特征在于,所述获取目标文本,包括:
3.根据权利要求1或2所述的音频生成方法,其特征在于,所述确定所述目标文本所涉及的角色包括:
4.根据权利要求1所述的音频生成方法,其特征在于,还包括:
5.根据权利要求1所述的音频生成方法,其特征在于,还包括:
6.根据权利要求5所述的音频生成方法,其特征在于,所述根据所述目标文本的文本类型,从背景音乐库中为所述目标文本筛选背景音乐之前,还包括:
7.根据权利要求1所述的音频生成方法,其特征在于,所述确定所述目标文本中每个句子所属的角色,包括:
8.根据权利要求1所述的音频生成方法,其特征在于,还包括:
9.根据权利要求1所述的音频生成方法,其特征在于,所述确定与每个角色匹配的发音人信息,包括:
10.根据权利要求1所述的音频生成方法,其特征在于,所述确定所述目标文本所涉及的角色,得到若干角色,包括:
11.一种音频生成装置,其特征在于,包括:文本获取模块、第一角色确定模块、发音人匹配模块、第二角色确定模块和音频合成模块;
12.一种音频生成设备,其特征在于,包括:存储器和处理器;
13.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~10中任一项所述的音频生成方法的各个步骤。