本技术涉及人工智能,尤其涉及一种小语料语音克隆方法及装置。
背景技术:
1、语音克隆技术在专业录制的语音合成大库(通常单说话人5小时及以上)训练的模型已经非常稳定,并且在智能音箱、导航播报、文章朗读等领域的应用非常广泛。
2、在实际应用中,经常面临需要对具有少量语料的声音进行语音克隆的情况。而目前的语音克隆方案中,模型的训练精度是以大量的样本数据为基础的,在语料匮乏时,模型的训练效果很差,从而导致声音还原度低、发音不稳定等问题,降低了语音克隆的准确性。
3、通常声音克隆模型是基于一个语音合成模型(base模型)在少量数据上做微调得到的,在语料较少的情况下,微调难以控制,少量数据下的微调容易造成过拟合,导致语音合成模型对于没见过的输入文本(或拼音)序列产生发不出音或者发音不正常的情况;少量数据下的微调不足则容易导致语音合成模型的合成音色和目标克隆音色相似度不够的问题。总之,现有的语音克隆方法存在由于待克隆音色语料不足而导致的语音克隆的发音稳定性差以及音色还原度低的问题。
技术实现思路
1、本技术实施例提供一种小语料语音克隆方法及装置,用以解决现有技术中语音克隆的发音稳定性和音色还原度不足的技术问题。
2、第一方面,本技术实施例提供一种小语料语音克隆方法,包括:
3、基于目标说话人的克隆语料,利用相似度匹配法从多人大语料库中确定大库相似语料;
4、基于所述大库相似语料和所述克隆语料确定目标语音合成模型;
5、将待处理文本输入至所述目标语音合成模型中进行语音合成,得到所述待处理文本对应的目标说话人的语音。
6、在一些实施例中,所述基于所述大库相似语料和所述克隆语料确定目标语音合成模型,包括:
7、将所述大库相似语料和所述克隆语料作为结伴语料;
8、基于所述结伴语料对初始语音合成模型进行训练,得到目标语音合成模型。
9、在一些实施例中,所述基于所述结伴语料对初始语音合成模型进行训练,得到目标语音合成模型,包括:
10、对所述克隆语料进行预处理,得到扩充语料;
11、基于所述扩充语料和所述结伴语料对初始语音合成模型进行训练,得到目标语音合成模型。
12、在一些实施例中,所述方法还包括:
13、利用语音合成基础语料库中的语音合成数据对预设语音合成模型进行训练,得到初始语音合成模型;所述语音合成数据包括一个或多个音色对应的录音语料和标注数据。
14、在一些实施例中,所述基于目标说话人的克隆语料,利用相似度匹配法从多人大语料库中确定大库相似语料,包括:
15、确定多人大语料库中的每一发音人对应的第一声纹特征,并确定所述目标说话人对应的第二声纹特征;
16、将多个第一声纹特征与所述第二声纹特征进行相似度匹配,得到与所述第二声纹特征相似度最高的第一声纹特征;
17、将与所述第二声纹特征相似度最高的第一声纹特征对应的语料作为大库相似语料。
18、在一些实施例中,所述确定多人大语料库中的每一发音人对应的第一声纹特征,包括:
19、将所述多人大语料库中的语料输入至目标声纹模型中进行瓶颈特征提取,得到所述多人大语料库中的每条音频的瓶颈特征;
20、基于所述多人大语料库中的每条音频的瓶颈特征确定所述多人大语料库中的每一发音人对应的第一声纹特征。
21、在一些实施例中,所述确定所述目标说话人对应的第二声纹特征,包括:
22、输入克隆语料至目标声纹模型进行瓶颈特征提取,得到所述目标说话人对应的第二声纹特征。
23、在一些实施例中,所述方法还包括:
24、基于所述多人大语料库中的语料对预设声纹模型进行训练,得到目标声纹模型。
25、第二方面,本技术实施例提供一种小语料语音克隆装置,包括:
26、第一确定模块,用于基于目标说话人的克隆语料,利用相似度匹配法从多人大语料库中确定大库相似语料;
27、第二确定模块,用于基于所述大库相似语料和所述克隆语料确定目标语音合成模型;
28、获取模块,用于将待处理文本输入至所述目标语音合成模型中进行语音合成,得到所述待处理文本对应的目标说话人的语音。
29、在一些实施例中,所述第二确定模块包括:
30、第一确定单元,用于将所述大库相似语料和所述克隆语料作为结伴语料;
31、第一获取单元,用于基于所述结伴语料对初始语音合成模型进行训练,得到目标语音合成模型。
32、在一些实施例中,所述第一获取单元包括:
33、第一获取子单元,用于对所述克隆语料进行预处理,得到扩充语料;
34、第二获取子单元,用于基于所述扩充语料和所述结伴语料对初始语音合成模型进行训练,得到目标语音合成模型。
35、在一些实施例中,还包括:
36、第三获取子单元,用于利用语音合成基础语料库中的语音合成数据对预设语音合成模型进行训练,得到初始语音合成模型;所述语音合成数据包括一个或多个音色对应的录音语料和标注数据。
37、在一些实施例中,所述第一确定模块包括:
38、第二确定单元,用于确定多人大语料库中的每一发音人对应的第一声纹特征,并确定所述目标说话人对应的第二声纹特征;
39、第二获取单元,用于将多个第一声纹特征与所述第二声纹特征进行相似度匹配,得到与所述第二声纹特征相似度最高的第一声纹特征;
40、第三确定单元,用于将与所述第二声纹特征相似度最高的第一声纹特征对应的语料作为大库相似语料。
41、在一些实施例中,所述第二确定单元包括:
42、第四获取子单元,用于将所述多人大语料库中的语料输入至目标声纹模型中进行瓶颈特征提取,得到所述多人大语料库中的每条音频的瓶颈特征;
43、确定子单元,用于基于所述多人大语料库中的每条音频的瓶颈特征确定所述多人大语料库中的每一发音人对应的第一声纹特征。
44、在一些实施例中,所述第二确定单元还包括:
45、第五获取子单元,用于输入克隆语料至目标声纹模型进行瓶颈特征提取,得到所述目标说话人对应的第二声纹特征。
46、在一些实施例中,所述第二确定单元还还包括:
47、第六获取子单元,用于基于所述多人大语料库中的语料对预设声纹模型进行训练,得到目标声纹模型。
48、第三方面,本技术实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的小语料语音克隆方法。
49、第四方面,本技术实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的小语料语音克隆方法。
50、第五方面,本技术实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的小语料语音克隆方法。
51、本技术实施例提供的小语料语音克隆方法及装置,利用相似度匹配法从多人大语料库中确定与目标说话人的克隆语料的声纹相似的大库相似语料,并基于大库相似语料和克隆语料结伴训练目标语音合成模型,从而实现目标说话人的语音克隆,提高了目标语音合成模型的训练精度,提升了小语料语音克隆的准确度。