一种歌曲合成模型的训练方法、装置、设备和存储介质与流程

文档序号：33708719发布日期：2023-03-31 22:45阅读：39来源：国知局

1.本发明涉及音频处理技术领域，尤其涉及一种歌曲合成模型的训练方法、装置、设备和存储介质。

背景技术：

2.随着科技的不断进步，歌曲音频除了歌曲录制(如录制歌手演唱的歌曲)之外，已经有了新的来源形式，即：歌曲合成。
3.目前，歌曲合成可以利用歌曲合成模型来完成。稳定的歌曲合成模型需要通过大量的歌曲样本训练而得到。歌曲样本为音频质量以及歌唱质量都较高的歌曲音频。但是，由于质量较高的歌曲音频数量少、价格高、不易获得等问题，导致歌曲样本库的构建成本较高，从而使得稳定的歌曲合成模型并不容易训练获得。
4.因此，提供一种成本较低的歌曲合成模型的训练方法，已经成为本领域亟待解决的问题。

技术实现要素：

5.本发明的主要目的在于提出一种歌曲合成模型的训练方法、装置、设备和存储介质，旨在解决现有的歌曲合成模型的训练方式成本较高的问题。
6.为实现上述技术问题，本发明是通过以下技术方案来实现的：
7.本发明实施例提供了一种歌曲合成模型的训练方法，包括：分别设置语音样本库和歌曲样本库；其中，所述语音样本库中的语音样本数量大于所述歌曲样本库中的歌曲样本数量；利用所述语音样本库，训练基础模型，直到所述基础模型收敛为止；利用所述歌曲样本库，重新训练所述基础模型，直到所述基础模型再次收敛为止，得到歌曲合成模型。
8.其中，在所述语音样本库中包括多个语音样本；其中，每个所述语音样本包括：相互对应的样本文本和样本语音；在所述歌曲样本库中包括多个歌曲样本；其中，每个所述歌曲样本包括：相互对应的歌词文本、歌曲音频和歌曲简谱。
9.其中，所述利用所述语音样本库，训练基础模型，包括：顺序获取所述语音样本库中的一个语音样本；基于所述语音样本中的样本文本和样本语音，确定所述样本文本中每个字对应的音高和时值；将所述样本文本以及所述样本文本中每个字对应的音高和时值输入所述基础模型，并且获取所述基础模型输出的预测语音；根据所述语音样本中的样本语音以及所述基础模型输出的预测语音，确定所述基础模型的损失值；根据所述基础模型的损失值，调整所述基础模型，并继续获取所述语音样本库中的语音样本，训练所述基础模型，直到所述基础模型收敛为止。
10.其中，所述基于所述语音样本中的样本文本和样本语音，确定所述样本文本中每个字对应的音高和时值，包括：针对互相对应的样本文本和样本语音执行音素对齐操作；在所述样本语音中，提取每个字对应的基频和时长；针对每个所述字，根据所述字对应的基频确定所述字对应的音高，并且，根据所述字对应的时长确定所述字对应的时值。
11.其中，所述利用所述歌曲样本库，重新训练所述基础模型，包括：顺序获取所述歌曲样本库中的一个歌曲样本；其中，所述歌曲样本包括：相互对应的歌词文本、歌曲音频和歌曲简谱；在所述歌曲简谱中包括音高和节拍信息；根据所述歌曲简谱中的音高和节拍信息，确定所述歌词文本中每个字对应的音高和时值；将所述歌词文本和所述歌词文本中每个字对应的音高和时值输入所述基础模型，并且获取所述基础模型输出的预测音频；根据所述歌曲样本中的歌曲音频和所述基础模型输出的预测音频，确定所述基础模型的损失值；根据所述基础模型的损失值，调整所述基础模型，并继续获取所述歌曲样本库中的歌曲样本，训练所述基础模型，直到所述基础模型收敛为止，得到歌曲合成模型。
12.其中，在得到歌曲合成模型之后，还包括：接收目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值；将所述目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值输入所述歌曲合成模型，并且获取所述歌曲合成模型输出的合成歌曲音频；在预设的显示界面中，显示合成歌曲图标；其中，所述合成歌曲图标用于触发所述合成歌曲音频的播放。
13.其中，在接收目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值之后，还包括：在所述显示界面中，显示所述目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值；检测歌曲修改指令；根据检测到的所述歌曲修改指令，修改所述目标歌词文本，和/或，修改所述目标歌词文本中指定字对应的音高，和/或，修改所述目标歌词文本中指定字对应的时值。
14.本发明实施例还提供了一种歌曲合成模型的训练装置，包括：设置模块，用于分别设置语音样本库和歌曲样本库；其中，所述语音样本库中的语音样本数量大于所述歌曲样本库中的歌曲样本数量；训练模块，用于利用所述语音样本库，训练基础模型，直到所述基础模型收敛为止；重训练模块，用于利用所述歌曲样本库，重新训练所述基础模型，直到所述基础模型再次收敛为止，得到歌曲合成模型。
15.本发明实施例还提供了一种歌曲合成模型的训练设备，所述歌曲合成模型的训练设备包括处理器、存储器；所述处理器用于执行所述存储器中存储的歌曲合成模型的训练程序，以实现上述所述的歌曲合成模型的训练方法。
16.本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一项所述的歌曲合成模型的训练方法。
17.本发明有益效果如下：
18.本发明实施例首先使用语音样本库训练基础模型，可以使基础模型在语音合成上具有稳定性。但是，此时基础模型输出的仅为合成准确性较高的语音而非歌曲。本发明实施例借助该语音合成稳定的基础模型，使用歌曲样本库对该基础模型进行重训练，使得基础模型输出的语音具有音律，从而使基础模型具备合成歌曲的能力。由于本发明实施例先使用大量的语音样本训练基础模型，保证基础模型合成效果的稳定，再以极小的歌曲样本库重新训练基础模型，大大降低了样本库构建的成本以及歌曲合成模型的训练难度。
附图说明
19.此处所说明的附图用来提供对本发明的进一步理解，构成本技术的一部分，本发
明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
20.图1为根据本发明一实施例的歌曲合成模型的训练方法的流程图；
21.图2为根据本发明一实施例的基础模型的初步训练步骤流程图；
22.图3为根据本发明一实施例的基础模型的重训练步骤流程图；
23.图4为根据本发明一实施例的歌曲合成处理的步骤流程图；
24.图5为根据本发明一实施例的歌曲合成模型的训练装置的结构图；
25.图6为根据本发明一实施例的歌曲合成模型的训练设备的结构图。
具体实施方式
26.为使本发明的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本发明作进一步地详细说明。
27.根据本发明的实施例，提供了一种歌曲合成模型的训练方法。如图1所示，为根据本发明一实施例的歌曲合成模型的训练方法的流程图。
28.步骤s110，分别设置语音样本库和歌曲样本库；其中，所述语音样本库中的语音样本数量大于所述歌曲样本库中的歌曲样本数量。
29.在所述语音样本库中包括多个语音样本；其中，每个所述语音样本包括：相互对应的样本文本和样本语音。进一步地，语音样本库可以包括大量的语音样本。语音样本中的样本语音为没有曲调的语音，可以通过录制得到，也可以通过语音合成技术得到。录制语音内容较为容易，而且语音合成技术较为成熟且成本较低。
30.在所述歌曲样本库中包括多个歌曲样本；其中，每个所述歌曲样本包括：相互对应的歌词文本、歌曲音频和歌曲简谱。进一步地，歌曲音频为具有曲调的音频。歌曲样本库可以设置数量较少的歌曲样本，这样可以有效降低构建样本库的成本。
31.步骤s120，利用所述语音样本库，训练基础模型，直到所述基础模型收敛为止。
32.经过训练，基础模型为语音合成模型，可以用于语音合成。
33.步骤s130，利用所述歌曲样本库，重新训练所述基础模型，直到所述基础模型再次收敛为止，得到歌曲合成模型。
34.经过重训练，基础模型转变为歌曲合成模型，可以用于歌曲合成。
35.本发明实施例首先使用语音样本库训练基础模型，可以使基础模型在语音合成上具有稳定性。但是，此时基础模型输出的仅为合成准确性较高的语音而非歌曲。本发明实施例借助该语音合成稳定的基础模型，使用歌曲样本库对该基础模型进行重训练，使得基础模型输出的语音具有音律，从而使基础模型具备合成歌曲的能力。由于本发明实施例先使用大量的语音样本训练基础模型，保证基础模型合成效果的稳定，再以极小的歌曲样本库(例如两首歌曲)重新训练基础模型，大大降低了样本库构建的成本以及歌曲合成模型的训练难度。
36.下面先对利用语音样本库训练基础模型的过程进行描述。
37.如图2所示，为根据本发明一实施例的基础模型的初步训练步骤流程图。
38.步骤s210，顺序获取语音样本库中的一个语音样本。
39.步骤s220，基于所述语音样本中的样本文本和样本语音，确定所述样本文本中每个字对应的音高和时值。
40.音高和时值为乐理概念。样本文本中字对应乐理中的音节。
41.步骤s1，针对互相对应的样本文本和样本语音执行音素对齐操作。
42.可以利用预设的音素对齐工具，针对互相对应的样本文本和样本语音执行音素对齐操作。
43.步骤s2，在所述样本语音中，提取每个字对应的基频和时长。
44.在语音中，基频和时长都为语音的基本特征。
45.字的基频可以反映该字的最低振荡频率。
46.字的时长可以反映该字的发声时长。
47.这样可以理解，字的基频可以对应到音素的音高，字的时长可以对应到音素的时值。
48.步骤s3，针对每个所述字，根据所述字对应的基频确定所述字对应的音高，并且，根据所述字对应的时长确定所述字对应的时值。
49.可以通过以下公式来确定字(音节)对应的时值(单位毫秒)：
50.时值＝round(1000di/20)；
51.其中，di表示第i个音节的时长(单位为秒)；round为四舍五入函数；20为可调参数，可以根据经验进行设置，也可以通过实验获得。
52.可以通过以下公式来确定字(音节)对应的音高：
[0053][0054]
其中，p表示简谱信息中标注的音高与中央c上a音符的距离(音高)，其单位为半音；f0表示字的基频；440表示中央c上a音符发出的频率(单位为hz)。
[0055]
步骤s230，将所述样本文本以及所述样本文本中每个字对应的音高和时值输入所述基础模型，并且获取所述基础模型输出的预测语音。
[0056]
步骤s240，根据所述语音样本中的样本语音以及所述基础模型输出的预测语音，确定所述基础模型的损失值。
[0057]
利用预设的第一损失函数确定基础模型的损失值。
[0058]
步骤s250，根据所述基础模型的损失值，调整所述基础模型，并继续获取所述语音样本库中的语音样本，训练所述基础模型，直到所述基础模型收敛为止。
[0059]
在训练基础模型的过程中，判断基础模型是否已经满足预设的第一收敛条件；在判定基础模型满足该第一收敛条件的情况下，确定基础模型已经收敛；在判定基础模型不符合该第一收敛条件的情况下，继续获取语音样本库中的语音样本，训练该基础模型。
[0060]
收敛条件可以至少包括以下条件之一：
[0061]
1、将基础模型的损失值小于第一损失阈值。
[0062]
2、基础模型中的参数趋于稳定。趋于稳定是指同一参数在调整前后，差值处于预设的范围之内。
[0063]
3、基础模型的训练次数达到预设的第一迭代次数阈值。
[0064]
下面再对利用歌曲样本库基础模型的重训练过程进行描述。
[0065]
如图3所示，为根据本发明一实施例的基础模型的重训练步骤流程图。
[0066]
步骤s310，顺序获取歌曲样本库中的一个歌曲样本。其中，所述歌曲样本包括：相
互对应的歌词文本、歌曲音频和歌曲简谱；在所述歌曲简谱中包括音高和节拍信息。
[0067]
歌曲简谱中的节拍信息包括：歌曲简谱中每分钟包含的节拍数以及每个音节(对应歌词文本中的字)的节拍。
[0068]
步骤s320，根据所述歌曲简谱中的音高和节拍信息，确定所述歌词文本中每个字对应的音高和时值。
[0069]
因为歌曲简谱和歌词文本具有对应关系，可以从歌曲简谱中直接提取到歌词文本中每个字对应的音高，可以根据歌曲简谱中的节拍信息计算出歌词文本中每个字对应的时值。
[0070]
例如：可以通过以下公式将音节的节拍转换为时值：
[0071][0072]
时值＝round(1000di/20)；
[0073]
其中，di表示第i个音节的时长(单位为秒)；tmpo为歌曲简谱中每分钟包含的节拍数；dnotei表示第i个音节的节拍；round为四舍五入函数；20为可调参数。
[0074]
步骤s330，将所述歌词文本和所述歌词文本中每个字对应的音高和时值输入所述基础模型，并且获取所述基础模型输出的预测音频。
[0075]
步骤s340，根据所述歌曲样本中的歌曲音频和所述基础模型输出的预测音频，确定所述基础模型的损失值。
[0076]
利用预设的第二损失函数确定基础模型的损失值。
[0077]
步骤s350，根据所述基础模型的损失值，调整所述基础模型，并继续获取所述歌曲样本库中的歌曲样本，训练所述基础模型，直到所述基础模型收敛为止，得到歌曲合成模型。
[0078]
在重训练基础模型的过程中，判断基础模型是否已经满足预设的第二收敛条件；在判定基础模型满足该第二收敛条件的情况下，确定基础模型已经收敛；在判定基础模型不符合该第二收敛条件的情况下，继续获取语音样本库中的语音样本，训练该基础模型。
[0079]
该第二收敛条件可以至少包括以下条件之一：
[0080]
1、将基础模型的损失值小于第二损失阈值。
[0081]
2、基础模型中的参数趋于稳定。趋于稳定是指同一参数在调整前后，差值处于预设的范围之内。
[0082]
3、基础模型的训练次数达到预设的第二迭代次数阈值。
[0083]
在本发明实施例中，由于歌曲样本的数量较少，为了扩充样本数量，可以将每个歌曲样本进行增量处理。进一步地，针对每个歌曲样本，分别将歌曲样本中的歌词文本、歌曲简谱和歌曲音频截取为数量相同且内容对应的多个片段。例如：先将歌词文本截取为预设数量的多段，在歌曲简谱中分别截取每个歌词文本片段对应的歌曲简谱片段，并且在歌曲音频中截取每个歌词文本片段对应的歌曲音频片段。将相互对应的歌词文本片段、歌曲简谱片段和歌曲音频片段作为一个歌曲样本，设置到歌曲样本库中，以供重训练基础模型使用。
[0084]
在得到歌曲合成模型之后，可以利用该歌曲合成模型进行歌曲合成处理。
[0085]
如图4所示，为根据本发明一实施例的歌曲合成处理的步骤流程图。
[0086]
步骤s410，接收目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值。
[0087]
在接收目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值之后，还可以在所述显示界面中，显示所述目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值；检测歌曲修改指令；根据检测到的所述歌曲修改指令，修改所述目标歌词文本，和/或，修改所述目标歌词文本中指定字对应的音高，和/或，修改所述目标歌词文本中指定字对应的时值。进一步地，歌曲修改指令用于指示对目标歌词文本中的文本内容、音高和/或时值的修改。
[0088]
修改后的歌词文本、歌词文本每个字对应的音高和时值，作为目标歌词文本以及目标歌词文本中每个字对应的音高和时值。
[0089]
例如：用户在显示界面中，选中待修改的文字，并在弹出的文本框中输入希望展示的修改后的文字，点击确定，歌曲修改指令被触发，根据该歌曲修改指令将待修改的文字替换为修改后的文字。
[0090]
步骤s420，将所述目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值输入所述歌曲合成模型，并且获取所述歌曲合成模型输出的合成歌曲音频。
[0091]
步骤s430，在预设的显示界面中，显示合成歌曲图标；其中，所述合成歌曲图标用于触发所述合成歌曲音频的播放。
[0092]
通过本实施例，用户可以利用歌曲合成模型合成所需的歌曲，并且可以在合成歌曲之前对歌曲进行修改，满足了用户的个性化需求，并且增加了歌曲合成的趣味性。
[0093]
本发明实施例还提供了一种歌曲合成模型的训练装置。如图5所示，为根据本发明一实施例的歌曲合成模型的训练装置的结构图。
[0094]
该歌曲合成模型的训练装置，包括：
[0095]
设置模块510，用于分别设置语音样本库和歌曲样本库；其中，所述语音样本库中的语音样本数量大于所述歌曲样本库中的歌曲样本数量。
[0096]
训练模块520，用于利用所述语音样本库，训练基础模型，直到所述基础模型收敛为止。
[0097]
重训练模块530，用于利用所述歌曲样本库，重新训练所述基础模型，直到所述基础模型再次收敛为止，得到歌曲合成模型。
[0098]
本发明实施例所述的装置的功能已经在上述方法实施例中进行了描述，故本实施例的描述中未详尽之处，可以参见前述实施例中的相关说明，在此不做赘述。
[0099]
本实施例提供一种歌曲合成模型的训练设备。如图6所示，为根据本发明一实施例的歌曲合成模型的训练设备的结构图。
[0100]
在本实施例中，所述歌曲合成模型的训练设备包括但不限于：处理器610、存储器620。
[0101]
所述处理器610用于执行存储器620中存储的歌曲合成模型的训练程序，以实现上述的歌曲合成模型的训练方法。
[0102]
具体而言，所述处理器610用于执行存储器620中存储的歌曲合成模型的训练程序，以实现以下步骤：分别设置语音样本库和歌曲样本库；其中，所述语音样本库中的语音样本数量大于所述歌曲样本库中的歌曲样本数量；利用所述语音样本库，训练基础模型，直
到所述基础模型收敛为止；利用所述歌曲样本库，重新训练所述基础模型，直到所述基础模型再次收敛为止，得到歌曲合成模型。
[0103]
其中，在所述语音样本库中包括多个语音样本；其中，每个所述语音样本包括：相互对应的样本文本和样本语音；在所述歌曲样本库中包括多个歌曲样本；其中，每个所述歌曲样本包括：相互对应的歌词文本、歌曲音频和歌曲简谱。
[0104]
其中，所述利用所述语音样本库，训练基础模型，包括：顺序获取所述语音样本库中的一个语音样本；基于所述语音样本中的样本文本和样本语音，确定所述样本文本中每个字对应的音高和时值；将所述样本文本以及所述样本文本中每个字对应的音高和时值输入所述基础模型，并且获取所述基础模型输出的预测语音；根据所述语音样本中的样本语音以及所述基础模型输出的预测语音，确定所述基础模型的损失值；根据所述基础模型的损失值，调整所述基础模型，并继续获取所述语音样本库中的语音样本，训练所述基础模型，直到所述基础模型收敛为止。
[0105]
其中，所述基于所述语音样本中的样本文本和样本语音，确定所述样本文本中每个字对应的音高和时值，包括：针对互相对应的样本文本和样本语音执行音素对齐操作；在所述样本语音中，提取每个字对应的基频和时长；针对每个所述字，根据所述字对应的基频确定所述字对应的音高，并且，根据所述字对应的时长确定所述字对应的时值。
[0106]
其中，所述利用所述歌曲样本库，重新训练所述基础模型，包括：顺序获取所述歌曲样本库中的一个歌曲样本；其中，所述歌曲样本包括：相互对应的歌词文本、歌曲音频和歌曲简谱；在所述歌曲简谱中包括音高和节拍信息；根据所述歌曲简谱中的音高和节拍信息，确定所述歌词文本中每个字对应的音高和时值；将所述歌词文本和所述歌词文本中每个字对应的音高和时值输入所述基础模型，并且获取所述基础模型输出的预测音频；根据所述歌曲样本中的歌曲音频和所述基础模型输出的预测音频，确定所述基础模型的损失值；根据所述基础模型的损失值，调整所述基础模型，并继续获取所述歌曲样本库中的歌曲样本，训练所述基础模型，直到所述基础模型收敛为止，得到歌曲合成模型。
[0107]
其中，在得到歌曲合成模型之后，还包括：接收目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值；将所述目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值输入所述歌曲合成模型，并且获取所述歌曲合成模型输出的合成歌曲音频；在预设的显示界面中，显示合成歌曲图标；其中，所述合成歌曲图标用于触发所述合成歌曲音频的播放。
[0108]
其中，在接收目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值之后，还包括：在所述显示界面中，显示所述目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值；检测歌曲修改指令；根据检测到的所述歌曲修改指令，修改所述目标歌词文本，和/或，修改所述目标歌词文本中指定字对应的音高，和/或，修改所述目标歌词文本中指定字对应的时值。
[0109]
本发明实施例还提供了一种计算机可读存储介质。这里的计算机可读存储介质存储有一个或者多个程序。其中，计算机可读存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。
[0110]
当计算机可读存储介质中一个或者多个程序可被一个或者多个处理器执行，以实
现上述的歌曲合成模型的训练方法。
[0111]
具体而言，所述处理器用于执行存储器中存储的歌曲合成模型的训练程序，以实现以下步骤：分别设置语音样本库和歌曲样本库；其中，所述语音样本库中的语音样本数量大于所述歌曲样本库中的歌曲样本数量；利用所述语音样本库，训练基础模型，直到所述基础模型收敛为止；利用所述歌曲样本库，重新训练所述基础模型，直到所述基础模型再次收敛为止，得到歌曲合成模型。
[0112]
其中，在所述语音样本库中包括多个语音样本；其中，每个所述语音样本包括：相互对应的样本文本和样本语音；在所述歌曲样本库中包括多个歌曲样本；其中，每个所述歌曲样本包括：相互对应的歌词文本、歌曲音频和歌曲简谱。
[0113]
其中，所述利用所述语音样本库，训练基础模型，包括：顺序获取所述语音样本库中的一个语音样本；基于所述语音样本中的样本文本和样本语音，确定所述样本文本中每个字对应的音高和时值；将所述样本文本以及所述样本文本中每个字对应的音高和时值输入所述基础模型，并且获取所述基础模型输出的预测语音；根据所述语音样本中的样本语音以及所述基础模型输出的预测语音，确定所述基础模型的损失值；根据所述基础模型的损失值，调整所述基础模型，并继续获取所述语音样本库中的语音样本，训练所述基础模型，直到所述基础模型收敛为止。
[0114]
其中，所述基于所述语音样本中的样本文本和样本语音，确定所述样本文本中每个字对应的音高和时值，包括：针对互相对应的样本文本和样本语音执行音素对齐操作；在所述样本语音中，提取每个字对应的基频和时长；针对每个所述字，根据所述字对应的基频确定所述字对应的音高，并且，根据所述字对应的时长确定所述字对应的时值。
[0115]
其中，所述利用所述歌曲样本库，重新训练所述基础模型，包括：顺序获取所述歌曲样本库中的一个歌曲样本；其中，所述歌曲样本包括：相互对应的歌词文本、歌曲音频和歌曲简谱；在所述歌曲简谱中包括音高和节拍信息；根据所述歌曲简谱中的音高和节拍信息，确定所述歌词文本中每个字对应的音高和时值；将所述歌词文本和所述歌词文本中每个字对应的音高和时值输入所述基础模型，并且获取所述基础模型输出的预测音频；根据所述歌曲样本中的歌曲音频和所述基础模型输出的预测音频，确定所述基础模型的损失值；根据所述基础模型的损失值，调整所述基础模型，并继续获取所述歌曲样本库中的歌曲样本，训练所述基础模型，直到所述基础模型收敛为止，得到歌曲合成模型。
[0116]
其中，在得到歌曲合成模型之后，还包括：接收目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值；将所述目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值输入所述歌曲合成模型，并且获取所述歌曲合成模型输出的合成歌曲音频；在预设的显示界面中，显示合成歌曲图标；其中，所述合成歌曲图标用于触发所述合成歌曲音频的播放。
[0117]
其中，在接收目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值之后，还包括：在所述显示界面中，显示所述目标歌词文本以及所述目标歌词文本中每个字对应的音高和时值；检测歌曲修改指令；根据检测到的所述歌曲修改指令，修改所述目标歌词文本，和/或，修改所述目标歌词文本中指定字对应的音高，和/或，修改所述目标歌词文本中指定字对应的时值。
[0118]
以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人
员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙见青梁家恩
技术所有人：云知声智能科技股份有限公司
我是此专利的发明人

上一篇：一种治疗胆结石的药食固体饮料及其制备方法与流程
上一篇：用于外部平台对接的方法以及对接系统与流程