本技术属于终端,尤其涉及语音合成方法、电子设备及计算机可读存储介质。
背景技术:
1、随着电子技术的快速发展,越来越多的电子设备具备语音交互功能,以方便用户通过语音与电子设备进行交互,或使得电子设备可以通过语音播放内容。当前,用户与电子设备的语音交互过程中,电子设备的语音回复或语音播报通常采用默认设置的一种或几种语音,例如系统默认语音,或者明星的语音等。如何智能设置语音交互功能中的个性化语音,是当前亟待解决的问题。
技术实现思路
1、本技术实施例提供了一种语音合成方法、电子设备及计算机可读存储介质,可以实现智能、高效的个性化语音设置,提高语音交互的用户体验。
2、第一方面,本技术实施例提供了一种语音合成方法,应用于第一电子设备,所述方法可以包括:
3、所述第一电子设备获取第一用户的第一原始语音数据;
4、所述第一电子设备获取所述第一原始语音数据对应的第一声纹特征信息,所述第一声纹特征信息包含所述第一用户相关的音色、韵律和风格中的至少一种;
5、所述第一电子设备根据所述第一声纹特征信息和第一目标文本内容,基于语音合成模型生成所述第一目标文本内容对应的第一目标语音数据。
6、在上述的语音合成方法中,第一电子设备可以从第一用户输入的至少一句第一原始语音数据中提取包含音色、韵律和风格中的至少一种的第一声纹特征信息,并可以基于语音合成模型直接根据第一声纹特征信息和第一目标文本内容,生成个性化的第一目标语音数据,不需要第一用户录入较多或较长的语音数据,且不需要第一用户录入的语音数据与指定文本内容精确匹配,可以降低语音数据的采集时间和采集成本。另外,也不需要根据第一用户的语音数据训练第一用户对应的语音合成模型,可以减少模型训练时间,从而减少个性化语音的录制时间,可以使得个性化语音的录制可以短至几秒,可以提高个性化语音的录制效率,提升用户体验。
7、可以理解的是,第一声纹特征信息可以是一个多维向量(例如256维的向量),且第一声纹特征信息可以是不包含语音内容的音色、韵律和风格等中的一种或者多种。例如,第一声纹特征信息可以是表征音色的多维向量,或者可以是表征风格的多维向量,或者可以是表征音色和韵律的多维向量,或者可以是表征音色和风格的多维向量,或者可以是表征音色、韵律和风格的多维向量,等等。
8、示例性的,所述第一电子设备根据所述第一声纹特征信息和第一目标文本内容,基于语音合成模型生成所述第一目标文本内容对应的第一目标语音数据,可以包括:
9、所述第一电子设备将所述第一声纹特征信息和所述第一目标文本内容,输入所述语音合成模型,生成所述第一目标语音数据。
10、在该实现方式提供的语音合成方法中,语音合成模型可以直接对输入的第一声纹特征信息和第一目标文本内容进行处理,以生成第一目标文本内容对应的第一目标语音数据。即第一原始语音数据对应的第一声纹特征信息是直接从第一原始语音数据中提取出来的,不是根据语音合成模型的模型参数确定的。因此,对于所有用户,均可以通过一个统一的语音合成模型来进行目标语音数据的生成,而不需要分别训练各个用户所对应的个性化的语音合成模型,可以减少模型的自适应训练,可以减少个性化语音的录制时间,使得个性化语音的录制可以短至几秒。
11、在一种可能的实现方式中,在所述第一电子设备获取所述第一原始语音数据对应的第一声纹特征信息之后,所述方法还可以包括:
12、所述第一电子设备选择第二声纹特征信息,并基于所述第二声纹特征信息对所述第一声纹特征信息进行调节,得到第三声纹特征信息;其中,所述第三声纹特征信息是所述第一声纹特征信息和所述第二声纹特征信息的融合;
13、所述第一电子设备根据所述第一声纹特征信息和第一目标文本内容,基于语音合成模型生成所述第一目标文本内容对应的第一目标语音数据,具体可以包括:
14、所述第一电子设备根据所述第三声纹特征信息和所述第一目标文本内容,基于所述语音合成模型生成所述第一目标文本内容对应的第一目标语音数据。
15、在该实现方式提供的语音合成方法中,第一电子设备可以利用一个或者多个第二声纹特征信息对第一声纹特征信息进行调节,得到第三声纹特征信息,以使得第三声纹特征信息不仅具备第一声纹特征信息对应的音色、韵律和风格等特性中的至少一个,也具备第二声纹特征信息对应的音色、韵律和风格等特性中的至少一个,可以增加第一电子设备进行语音交互或内容播报的声音特色,可以极大地增加第一电子设备的语音交互或内容播报的乐趣,提高用户体验。
16、其中,第二声纹特征信息可以为第一电子设备自带的语音所对应的声纹特征信息,也可以为第一用户后续下载的语音所对应的声纹特征信息,还可以为第一用户之前所录制的个性化语音所对应的声纹特征信息,等等。也就是说,第二声纹特征信息为第一电子设备中已有的语音所对应的声纹特征信息。
17、在一个示例中,所述第一电子设备选择第二声纹特征信息,并基于所述第二声纹特征信息对所述第一声纹特征信息进行调节,得到第三声纹特征信息,具体可以包括:
18、所述第一电子设备显示所述第一声纹特征信息的标识和第四声纹特征信息的标识;
19、响应于所述第一用户的调节操作,所述第一电子设备从所述第四声纹特征信息中,确定所述第二声纹特征信息和所述第二声纹特征信息的第二权重;
20、所述第一电子设备根据所述第二权重确定所述第一声纹特征信息的第一权重,并根据所述第一声纹特征信息、所述第一权重、所述第二声纹特征信息和所述第二权重,生成所述第三声纹特征信息。
21、在该实现方式提供的语音合成方法中,第二声纹特征信息可以由第一用户自行选择,以使得第一用户可以根据实际需要选择第二声纹特征信息对第一声纹特征信息进行调节,提升用户体验。
22、可选的,第一用户可以直接通过调节第四声纹特征信息的权重,来选择第二声纹特征信息。
23、例如,第一电子设备可以在显示界面中显示第一声纹特征信息的标识和第四声纹特征信息的标识以及对应的各编辑按钮。当第一用户点击第一声纹特征信息对应的编辑按钮时,第一电子设备可以显示第一声纹特征信息对应的语音管理界面,语音管理界面中可以显示第四声纹特征信息的标识以及各第四声纹特征信息对应的权重条,初始时,各第四声纹特征信息对应的权重条可以均为0。当第一用户想选择某一第四声纹特征信息来作为第二声纹特征信息时,第一用户可以调节该第四声纹特征信息对应的权重条,以将第四声纹特征信息的第二权重设置为大于0。
24、第一电子设备根据第一用户的调节操作,可以从第四声纹特征信息中,确定第二声纹特征信息和第二声纹特征信息的第二权重,并根据第二声纹特征信息的第二权重确定第一声纹特征信息的第一权重(例如,第一权重=1-各第二权重之和)。随后,第一电子设备可以根据第一声纹特征信息、第一权重、第二声纹特征信息和第二权重,生成第三声纹特征信息,例如可以通过第一权重和第二权重对第一声纹特征信息和第二声纹特征信息进行加权求和,得到第三声纹特征信息。
25、在另一个示例中,所述第一电子设备选择第二声纹特征信息,并基于所述第二声纹特征信息对所述第一声纹特征信息进行调节,得到第三声纹特征信息,可以包括:
26、所述第一电子设备显示所述第一声纹特征信息的标识和第四声纹特征信息的标识;
27、响应于所述第一用户对所述第四声纹特征信息的选择操作,所述第一电子设备确定所述第二声纹特征信息;
28、当所述第二声纹特征信息为一个时,所述第一电子设备显示调节条,所述调节条的一端为所述第一声纹特征信息,另一端为所述第二声纹特征信息;
29、响应于所述第一用户对所述调节条的调节操作,所述第一电子设备确定所述第一声纹特征信息的第一权重和所述第二声纹特征信息的第二权重,并根据所述第一声纹特征信息、所述第一权重、所述第二声纹特征信息和所述第二权重,生成所述第三声纹特征信息。
30、在该实现方式提供的语音合成方法中,第一用户也可以先选择第二声纹特征信息,然后对第二声纹特征信息的第一权重和第二声纹特征信息的第二权重进行调节。
31、例如,第一电子设备可以在显示界面中显示第一声纹特征信息的标识和第四声纹特征信息的标识以及对应的各编辑按钮。当第一用户点击第一声纹特征信息对应的编辑按钮时,第一电子设备可以显示第一声纹特征信息对应的语音管理界面,语音管理界面中可以显示第四声纹特征信息的标识以及各第四声纹特征信息对应的选择框。第一用户可以通过选择框选择一个或多个第二声纹特征信息,来对第一声纹特征信息进行调节。
32、其中,当第一用户选择一个第二声纹特征信息来对第一声纹特征信息进行调节时,第一电子设备可以在显示界面中显示调节条,调节条的一端为第一声纹特征信息,另一端为第二声纹特征信息。第一用户可以滑动调节条,来调整第二声纹特征信息的第二权重和第一声纹特征信息的第一权重。
33、当第一用户选择多个第二声纹特征信息时,第一电子设备可以在显示界面中显示各第二声纹特征信息的标识以及各第二声纹特征信息对应的权重条。第一用户可以通过权重条来设置各第二声纹特征信息的第二权重。
34、应理解,第三声纹特征信息可以作为一个新的声纹特征信息存储于第一电子设备,即第三声纹特征信息与第一声纹特征信息可以为同时存在的两个声纹特征信息。当第一用户选择使用第三声纹特征信息进行语音交互或内容播报时,第一电子设备可以将第三声纹特征信息与目标文本内容进行合成处理,得到目标文本内容对应的目标语音数据,来进行语音交互或内容播报。
35、或者,第三声纹特征信息可以直接作为第一声纹特征信息调节后的声纹特征信息。即当第一用户选择使用第一声纹特征信息进行语音交互或内容播报时,第一电子设备可以将调节后的第三声纹特征信息与第一目标文本内容进行合成处理,得到第一目标文本内容对应的第一目标语音数据,来进行语音交互或内容播报。
36、可选的,所述第一原始语音数据为语音交互过程中输入的语音数据;或,所述第一原始语音数据为上传的音频文件中的语音数据。
37、可选的,所述第一原始语音数据为时长大于预设时长,且包含任意内容的语音数据;或者,所述第一原始语音数据为包含指定文本内容的语音数据。
38、其中,任意内容是指第一原始语音数据包含的文本内容可以为任一文本内容,即第一原始语音数据包含的文本内容可以由第一用户自行确定,并不是某一指定文本内容。预设时长可以根据实际场景具体设置,例如可以将预设时长设置为3s等任一数值。
39、在该实现方式提供的语音合成方法中,第一电子设备可以根据包含任一文本内容的、较短的第一原始语音数据来进行个性化语音的录制,不需要第一用户录入较多或较长的语音数据,且不需要第一用户录入的语音数据与指定文本内容精确匹配,可以降低语音数据的采集时间和采集成本,使得个性化语音的录制可以短至几秒,可以提高个性化语音的录制效率,提升用户体验。
40、在一种可能的实现方式中,所述第一电子设备获取第一用户的第一原始语音数据,可以包括:
41、所述第一电子设备接收所述第一用户输入的语音指令,所述语音指令包括录制用户语音意图的指令;
42、所述第一电子设备将所述包括录制用户语音意图的语音指令确定为所述第一原始语音数据。
43、在该实现方式提供的语音合成方法中,在基于第一用户的语音指令(例如包含隐式录制意图的语音指令)启动个性化语音的在线录制时,第一电子设备可以直接将包含录制意图的语音指令(如“小艺小艺,学我说话”)确定为个性化语音录制中,第一用户所输入的第一原始语音数据,不需要第一用户另外输入任何其他语音数据,简化第一原始语音数据的录入过程,可以让用户无交互的快速体验语音合成特性,提高用户体验。
44、在一个示例中,第一电子设备也可以将包含录制意图的语音指令,以及该语音指令后的一句或多句语音数据a一起确定为第一原始语音数据,以通过较多或较长的语音数据来进行第一声纹特征信息的提取,可以提高个性化语音录制的效果,提升用户体验。其中,语音数据a可以是第一电子设备在接收到包含录制意图的语音指令之后,所接收到的另外的语音指令;或者,语音数据a可以是第一电子设备在接收到包含录制意图的语音指令之后,主动引导用户进行语音互动,所接收到的用户输入的语音数据。
45、在另一种可能的实现方式中,所述第一电子设备获取第一用户的第一原始语音数据,可以包括:
46、所述第一电子设备获取所述第一用户输入的语音指令,所述语音指令包括录制用户语音意图的指令,并根据所述语音指令输出交互信息,所述交互信息用于提示所述第一用户输入所述第一原始语音数据;
47、所述第一电子设备获取所述第一用户输入的所述第一原始语音数据。
48、在该实现方式提供的语音合成方法中,在基于第一用户的语音指令(例如包含显式录制意图的语音指令)启动个性化语音的离线录制后,第一电子设备可以输出交互信息,使得第一用户可以根据交互信息与第一电子设备进行语音交互。在语音交互过程中,第一电子设备可以获取第一用户输入的第一原始语音数据。其中,交互信息用于指示第一用户可以通过以下一种或多种方式录入第一原始语音数据:(1)自由说一句或多句话;(2)上传音频文件;(3)朗读指定文本内容。
49、可选的,在当前环境不方便进行语音输入时,例如在当前环境较嘈杂,或者在第一电子设备的麦克风无法使用时,第一用户可以上传已有的音频文件来进行个性化语音的录制,可以扩大个性化语音的录制场景,以方便用户在各个应用场景进行个性化语音的录制,提升个性化语音的录制效果,提升用户体验。
50、可选的,当第一用户需要录制其他用户(例如用户a),而用户a不方便进行语音输入时,例如用户a不在当前的录制地方时,第一电子设备可以获取用户a的音频文件,例如可以获取其他电子设备(如用户a所属的电子设备)发送的用户a的音频文件,并通过上传用户a的音频文件来录制用户a对应的个性化语音,从而可以快速、便捷地对其他用户进行个性化语音的录制,提升用户体验。
51、在一个示例中,第一电子设备也可以将包含录制意图的语音指令和第一用户输入的语音数据均确定为第一用户输入的第一原始语音数据,或将包含录制意图的语音指令和第一用户上传的音频文件中的语音数据均确定为第一用户输入的第一原始语音数据,以增加第一原始语音数据的时长或数量,提高个性化语音的录制效果。
52、示例性的,在第一用户录入的语音数据或音频文件中的语音数据较少时,例如,在第一用户仅录入一句较短的语音数据或音频文件中仅包括一句较短的语音数据时,第一电子设备可以将第一用户输入的包含录制意图的语音指令和录入的语音数据,或将第一用户输入的包含录制意图的语音指令和音频文件中的语音数据均确定为第一原始语音数据。
53、其中,语音数据是否较短可以根据语音数据的时长是否小于预设阈值来确定,即当语音数据的时长小于预设阈值时,第一电子设备可以确定语音数据较短。预设阈值可以由技术人员根据实际场景具体设置,例如可以设置为3秒、5秒等任一数值。
54、在一个示例中,在所述第一电子设备获取所述第一原始语音数据对应的第一声纹特征信息之后,所述方法还可以包括:
55、所述第一电子设备将所述第一电子设备的交互语音自动切换为所述第一声纹特征信息对应的语音。
56、在该实现方式提供的语音合成方法中,在得到第一声纹特征信息后,第一电子设备可以直接将第一声纹特征信息对应的个性化语音自动设置为第一电子设备的交互语音或者播报语音,使得第一电子设备可以通过第一声纹特征信息对应的个性化语音进行语音交互或内容播报。例如,在基于第一用户的语音指令(例如包含隐式录制意图的语音指令)启动个性化语音的在线录制时,在得到第一声纹特征信息后,第一电子设备可以直接将第一声纹特征信息对应的个性化语音自动设置为第一电子设备的交互语音或者播报语音,以让用户无交互的快速体验语音合成特性,提高用户体验。
57、在另一个示例中,在所述第一电子设备获取所述第一原始语音数据对应的第一声纹特征信息之后,所述方法还可以包括:
58、所述第一电子设备获取切换指令,所述切换指令用于指示切换所述第一电子设备的交互语音;
59、所述第一电子设备根据所述切换指令将所述第一电子设备的交互语音切换为所述第一声纹特征信息对应的语音。
60、在该实现方式提供的语音合成方法中,第一电子设备也可以基于第一用户的切换指令来进行交互语音的切换,以在第一用户需要进行交互语音的切换,来切换至第一用户所想要的个性化语音,提升用户体验。
61、其中,切换指令可以是第一用户输入的语音数据中所包含的,即第一用户可以直接通过语音来输入切换指令。或者,切换指令也可以是基于第一用户在显示界面中的预设操作生成的,例如第一电子设备可以在显示界面中显示交互语音的切换按钮,第一用户可以基于切换按钮进行交互语音的切换,即第一电子设备检测到切换按钮被触发时,可以生成切换指令来进行交互语音的切换。
62、在一种可能的实现方式中,所述方法还可以包括:
63、所述第一电子设备获取第二用户的第二原始语音数据;
64、所述第一电子设备获取所述第二原始语音数据对应的第五声纹特征信息,所述第五声纹特征信息包含所述第二用户相关的音色、韵律和风格中的至少一种;
65、所述第一电子设备将所述第五声纹特征信息和第二目标文本内容,输入所述语音合成模型,生成第二目标语音数据。
66、示例性的,所述第一电子设备获取第二用户的第二原始语音数据,可以包括:
67、所述第一电子设备接收第二电子设备发送的音频文件,并将所述音频文件中的语音数据确定为所述第二原始语音数据,所述音频文件包含的所述第二原始语音数据为时长大于预设时长,且包含任意内容的语音数据。
68、应理解,第一电子设备通过第二用户的第二原始语音数据生成第二目标语音数据来进行语音交互,与前述第一电子设备通过第一用户的第一原始语音数据生成第一目标语音数据来进行语音交互所使用的语音合成模型为同一个。即在第一电子设备使用不同用户的语音来进行语音交互或内容播报时,第一电子设备可以通过同一个语音合成模型来生成不同用户所对应的目标语音数据,而不需要针对每个用户分别训练不同的语音合成模型,可以节省模型自适应训练的耗时,减少个性化语音的录制时间,使得个性化语音的录制可以短至几秒,提高个性化语音的录制效率,提升用户体验。
69、示例性的,在所述第一电子设备根据所述第一声纹特征信息和第一目标文本内容,基于语音合成模型生成所述第一目标文本内容对应的第一目标语音数据之前,所述方法还可以包括:
70、所述第一电子设备获取所述第一用户输入的交互语音数据;
71、所述第一电子设备根据所述交互语音数据确定所述第一电子设备待交互的所述第一目标文本内容。
72、在一种可能的实现方式中,所述语音合成模型用于获取所述第一目标文本内容对应的文本特征信息,将所述第一目标文本内容对应的文本特征信息和所述第一声纹特征信息映射为所述第一目标文本内容对应的声学特征信息,并将所述第一目标文本内容对应的声学特征信息转换成所述第一目标语音数据;
73、其中,在训练所述语音合成模型时,利用不同的声纹特征信息对所述语音合成模型学习的映射关系进行调整,使得所述语音合成模型学习到声纹特征信息和文本特征信息与声学特征信息之间的映射关系。
74、应理解,语音合成模型可以包括文本前端处理模块、时长对齐模块、声学模块以及声码器。其中,文本前端处理模块用于对第一目标文本内容进行特征提取,得到第一目标文本内容对应的文本特征信息。时长对齐模块用于根据文本特征信息与第一声纹特征信息,将文本特征信息扩展为帧级别的文本特征信息,即建立文本特征信息与声学特征信息在时长上的对应关系。声学模块用于根据第一声纹特征信息和帧级别的文本特征信息输出对应的声学特征信息。声码器用于根据声学特征信息合成第一目标文本内容对应的第一目标语音数据。
75、其中,声学模块可以包括第一lstm网络和第二lstm网络。声学模块主要用于将文本特征信息映射为声学特征信息。由于文本特征信息本身不包含说话人的声音特性,因此,在训练时,可以加入不同说话人的声纹特征信息作为参考,以根据不同说话人的声纹特征信息调整文本特征信息与声学特征信息的映射关系,使得声学模块可以学习到不同说话人的声纹特征信息对这一映射关系的影响。
76、即可以同时输入声纹特征信息和文本特征信息至第一lstm网络,来进行网络训练,因此,在声纹特征信息与文本特征信息足够丰富的海量训练数据的条件下,第一lstm网络可以逐渐学习到(文本特征信息和声纹特征信息)与声学特征信息的映射关系,使得声学模块不需要对每个说话人去学习文本特征信息与声学特征信息的映射关系,即不需要对每个说话人进行声学模块的再训练。
77、第二方面,本技术实施例提供了一种语音合成装置,应用于第一电子设备,所述装置可以包括:
78、语音采集模块,用于获取第一用户的第一原始语音数据;
79、声纹提取模块,用于获取所述第一原始语音数据对应的第一声纹特征信息,所述第一声纹特征信息包含所述第一用户相关的音色、韵律和风格中的至少一种;
80、语音合成模块,用于根据所述第一声纹特征信息和第一目标文本内容,基于语音合成模型生成所述第一目标文本内容对应的第一目标语音数据。
81、示例性的,所述语音合成模块,具体用于将所述第一声纹特征信息和所述第一目标文本内容,输入所述语音合成模型,生成所述第一目标语音数据。
82、在一种可能的实现方式中,所述装置还可以包括:
83、声纹调节模块,用于选择第二声纹特征信息,并基于所述第二声纹特征信息对所述第一声纹特征信息进行调节,得到第三声纹特征信息;其中,所述第三声纹特征信息是所述第一声纹特征信息和所述第二声纹特征信息的融合;
84、所述语音合成模块,还可以用于根据所述第三声纹特征信息和所述第一目标文本内容,基于所述语音合成模型生成所述第一目标文本内容对应的第一目标语音数据。
85、在一个示例中,所述声纹调节模块,具体用于显示所述第一声纹特征信息的标识和第四声纹特征信息的标识;响应于所述第一用户的调节操作,从所述第四声纹特征信息中,确定所述第二声纹特征信息和所述第二声纹特征信息的第二权重;根据所述第二权重确定所述第一声纹特征信息的第一权重,并根据所述第一声纹特征信息、所述第一权重、所述第二声纹特征信息和所述第二权重,生成所述第三声纹特征信息。
86、在另一个示例中,所述声纹调节模块,还用于显示所述第一声纹特征信息的标识和第四声纹特征信息的标识;响应于所述第一用户对所述第四声纹特征信息的选择操作,确定所述第二声纹特征信息;当所述第二声纹特征信息为一个时,显示调节条,所述调节条的一端为所述第一声纹特征信息,另一端为所述第二声纹特征信息;响应于所述第一用户对所述调节条的调节操作,确定所述第一声纹特征信息的第一权重和所述第二声纹特征信息的第二权重,并根据所述第一声纹特征信息、所述第一权重、所述第二声纹特征信息和所述第二权重,生成所述第三声纹特征信息。
87、可选的,所述第一原始语音数据为语音交互过程中输入的语音数据;或,所述第一原始语音数据为上传的音频文件中的语音数据。
88、可选的,所述第一原始语音数据为时长大于预设时长,且包含任意内容的语音数据;或者,所述第一原始语音数据为包含指定文本内容的语音数据。
89、在一种可能的实现方式中,所述语音采集模块,具体用于接收所述第一用户输入的语音指令,所述语音指令包括录制用户语音意图的指令;将所述包括录制用户语音意图的语音指令确定为所述第一原始语音数据。
90、在另一种可能的实现方式中,所述语音采集模块,还用于获取所述第一用户输入的语音指令,所述语音指令包括录制用户语音意图的指令,并根据所述语音指令输出交互信息,所述交互信息用于提示所述第一用户输入所述第一原始语音数据;获取所述第一用户输入的所述第一原始语音数据。
91、在一个示例中,所述装置还可以包括:
92、语音切换模块,用于将所述第一电子设备的交互语音自动切换为所述第一声纹特征信息对应的语音。
93、在另一个示例中,所述装置还可以包括:指令获取模块,用于获取切换指令,所述切换指令用于指示切换所述第一电子设备的交互语音;
94、语音切换模块,还用于根据所述切换指令将所述第一电子设备的交互语音切换为所述第一声纹特征信息对应的语音。
95、在一种可能的实现方式中,所述语音采集模块,还用于获取第二用户的第二原始语音数据;
96、所述声纹提取模块,还用于获取所述第二原始语音数据对应的第五声纹特征信息,所述第五声纹特征信息包含所述第二用户相关的音色、韵律和风格中的至少一种;
97、所述语音合成模块,还用于将所述第五声纹特征信息和第二目标文本内容,输入所述语音合成模型,生成第二目标语音数据。
98、示例性的,所述语音采集模块,还用于接收第二电子设备发送的音频文件,并将所述音频文件中的语音数据确定为所述第二原始语音数据,所述音频文件包含的所述第二原始语音数据为时长大于预设时长,且包含任意内容的语音数据。
99、示例性的,所述装置还可以包括:
100、文本内容确定模块,用于获取所述第一用户输入的交互语音数据;根据所述交互语音数据确定所述第一电子设备待交互的所述第一目标文本内容。
101、在一种可能的实现方式中,所述语音合成模型用于获取所述第一目标文本内容对应的文本特征信息,将所述第一目标文本内容对应的文本特征信息和所述第一声纹特征信息映射为所述第一目标文本内容对应的声学特征信息,并将所述第一目标文本内容对应的声学特征信息转换成所述第一目标语音数据;
102、其中,在训练所述语音合成模型时,利用不同的声纹特征信息对所述语音合成模型学习的映射关系进行调整,使得所述语音合成模型学习到声纹特征信息和文本特征信息与声学特征信息之间的映射关系。
103、第三方面,本技术实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,使所述电子设备实现上述第一方面中任一项所述的语音合成方法。
104、第四方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被计算机执行时,使所述计算机实现上述第一方面中任一项所述的语音合成方法。
105、第五方面,本技术实施例提供了一种计算机程序产品,当计算机程序产品在电子设备上运行时,使得电子设备执行上述第一方面中任一项所述的语音合成方法。
106、可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。