本申请涉及语音合成,尤其涉及一种语音合成方法、计算机设备以及计算机存储介质。
背景技术:
1、语音合成是一种将文本转换成语音的信号处理技术,它能够赋予机器像人一样的发声能力。近年来,随着人工智能技术的发展落地,人机交互变得越来越频繁,以语音为媒介的交互方式逐渐成为人机交互领域的主流形式,语音合成技术在其中的重要性也日益凸显。语音合成能力从部署的角度可以分为云端合成和本地终端合成,在合成语音时,优先使用部署在云端的合成服务,在断网或者弱网环境下使用本地终端合成。
2、现有技术在同时使用云端的合成服务以及终端合成服务时,通常会简单的选取字符为异常点进行拼接,而由于字符由多个音素组成,因此此种情况下可能会导致该字符部分重复合成或部分漏合成。此外,现有技术在使用终端合成服务时,通常是基于云端未合成的文本进行继续合成,无法保证待合成文本的韵律边界的一致性,进而影响用户的使用体验。
技术实现思路
1、本申请提供了一种语音合成方法、计算机设备以及计算机存储介质,能够提高语音合成的连续性以及实现韵律的一致性。
2、第一方面,本申请提供了一种语音合成方法,所述方法包括:
3、接收云端的待合成文本以及所述待合成文本对应的第一音频流、音素信息,其中所述待合成文本包括若干字符,所述音素信息包括音素;
4、基于所述第一音频流进行音频播放,并在接收异常时,确定当前播放的音素以及中断点音素;
5、将待合成文本进行语音合成得到第二音频流,并确定目标音素,其中,所述目标音素为静音音素,且位置在所述当前播放的音素与所述中断点音素之间;
6、以所述目标音素为拼接点,将所述第一音频流与所述第二音频流进行拼接得到目标音频流,并基于所述目标音频流进行音频播放。
7、第二方面,本申请提供了一种语音合成方法,所述还方法包括:
8、获取由若干字符组成的待合成文本,并通过云端按照字符次序对所述待合成文本进行语音合成,得到第一音频流以及每一所述字符对应的音素信息,其中,所述音素信息包括音素;
9、基于所述第一音频流进行音频播放,并在接收异常时,确定当前播放的音素以及中断点音素;
10、将所述待合成文本发送至终端进行语音合成得到第二音频流,并确定目标音素,其中,所述目标音素为静音音素,且位置在所述当前播放的音素与所述中断点音素之间;
11、以所述目标音素为拼接点,将所述第一音频流与所述第二音频流进行拼接得到目标音频流,并基于所述目标音频流进行音频播放。
12、第三方面,本申请还提供了一种计算机设备,所述计算机设备包括:
13、存储器和处理器;
14、其中,所述存储器与所述处理器连接,用于存储程序;
15、所述处理器用于通过运行所述存储器中存储的程序,实现如本申请实施例提供的任一项所述的语音合成方法的步骤。
16、第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如本申请实施例提供的任一项所述的语音合成方法的步骤。
17、本申请公开的语音合成方法、计算机设备及存储介质,能够接收云端的待合成文本以及云端基于待合成文本的第一音频流,并在接收异常时将待合成文进行语音合成,由于终端与云端输入的待合成文本一致,因此保证了语音合成韵律的一致性。此外,还可以基于待合成文本的音素信息确定拼接点,并基于该拼接点分别对云端合成的音频流以及终端合成的音频流进行截取并拼接,从而保证了音频播放的连续性。
18、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
1.一种语音合成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,音频流包括音频数据,在接收异常时,确定当前播放的音素以及中断点音素之前,包括:
3.根据权利要求1所述的方法,其特征在于,所述音素信息还包括音素时长,所述在接收异常时,确定中断点音素,包括:
4.根据权利要求1所述的方法,其特征在于,所述确定目标音素,包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述当前播放的音素确定初始音素,包括:
6.根据权利要求1所述的方法,其特征在于,所述以所述目标音素为拼接点,将所述第一音频流与所述第二音频流进行拼接得到目标音频流,包括:
7.根据权利要求6所述的方法,其特征在于,所述第四音频流由若干所述第四音频采样点构成,所述以所述目标音素为起始点,基于所述第二音频流选取第四音频流之后,包括:
8.根据权利要求7所述的方法,其特征在于,所述基于所述第三音频能量值最大值以及所述第四音频能量值最大值对每一所述第四音频采样点进行调整,得到若干第五音频采样点,包括:
9.一种语音合成方法,其特征在于,所述方法还包括:
10.一种计算机设备,其特征在于,所述计算机设备包括:
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如权利要求1-9中任一项所述的语音合成方法的步骤。