基频处理方法、装置、设备及计算机可读存储介质与流程

文档序号：18088566发布日期：2019-07-06 10:38阅读：226来源：国知局

本发明涉及数据处理领域，尤其涉及一种基频处理方法、装置、设备及计算机可读存储介质。

背景技术：

现今的语音合成技术已经可以生成流畅、逼真的语音。而歌唱合成技术作为其延伸，可以进一步拓展ai语音的能力和效果，其娱乐性和社交性也可以带来市场价值。

现有的歌唱合成基频建模一般采用基于传统的语音合成中隐马尔可夫模型(hiddenmarkovmodel，简称hmm)的统计建模的方式进行建模，同时为了解决数据稀疏的问题，对歌手基频值和乐谱音符换算基频值的差值而不是基频本身进行建模，为了增强表现力，在统计建模的基础上加入规则，以增加诸如颤音等表现方式、解决音符和音位的对应关系问题等等。

但是由于真实的歌声中，类似的技巧种类、变化繁多，单一的方法只能解决特定的问题，因此，采用上述方法只能够解决部分问题，从而导致基频表现力不高。

技术实现要素：

本发明提供一种基频处理方法、装置、设备及计算机可读存储介质，用于解决现有歌唱合成基频建模方法只能够解决部分问题，从而导致基频表现力不高的技术问题。

本发明的第一个方面是提供一种基频处理方法，包括：

接收第一基频提取工具提取的歌唱音频的第一基频，以及第二基频提取工具提取的音符音频的第二基频；

根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作，获得待处理文件；

根据预设的提取规则从所述待处理文件中提取待训练数据；

通过所述待训练数据对预设的待训练模型进行训练，获得基频建立模型。

本发明的另一个方面是提供一种基频处理装置，包括：

基频接收模块，用于接收第一基频提取工具提取的歌唱音频的第一基频，以及第二基频提取工具提取的音符音频的第二基频；

对齐模块，用于根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作，获得待处理文件；

提取模块，用于根据预设的提取规则从所述待处理文件中提取待训练数据；

训练模块，用于通过所述待训练数据对预设的待训练模型进行训练，获得基频建立模型。

本发明的又一个方面是提供一种基频处理设备，包括：存储器，处理器；

存储器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为由所述处理器执行如上述的基频处理方法。

本发明的又一个方面是提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述的基频处理方法。

本发明提供的基频处理方法、装置、设备及计算机可读存储介质，通过接收第一基频提取工具提取的歌唱音频的第一基频，以及第二基频提取工具提取的音符音频的第二基频；根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作，获得待处理文件；根据预设的提取规则从所述待处理文件中提取待训练数据；通过所述待训练数据对预设的待训练模型进行训练，获得基频建立模型。从而后续能够根据该基频建立模型实现对基频的建立，由于该基频建立模型通过待处理文件中提取出的待训练数据进行训练，从而根据该基频建立模型得到的基频能够模拟真实歌声中的多种技巧种类，基频表现力较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的基频处理方法的流程示意图；

图2为本发明实施例二提供的基频处理方法的流程示意图；

图3为本发明实施例三提供的基频处理方法的流程示意图；

图4为本发明实施例四提供的基频处理方法的流程示意图；

图5为本发明实施例提供的使用两层长短期记忆网络的神经网络模型的结构示意图；

图6为本发明实施例提供的使用扩张卷积的神经网络模型的结构示意图；

图7为本发明实施例提供的使用扩张卷积以及自回归方式的神经网络模型的结构示意图；

图8为本发明实施例五提供的基频处理装置的结构示意图；

图9为本发明实施例六提供的基频处理设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例，都属于本发明保护的范围。

现有的歌唱合成基频建模一般采用基于传统的语音合成中隐马尔可夫模型的统计建模的方式进行建模，同时为了解决数据稀疏的问题，对歌手基频值和乐谱音符换算基频值的差值而不是基频本身进行建模，为了增强表现力，在统计建模的基础上加入规则，以增加诸如颤音等表现方式、解决音符和音位的对应关系问题等等。但是由于真实的歌声中，类似的技巧种类、变化繁多，单一的方法只能解决特定的问题，因此，采用上述方法只能够解决部分问题，从而导致基频表现力不高。为了解决上述技术问题本发明提供了一种基频处理方法、装置、设备及计算机可读存储介质。

需要说明的是，本申请提供基频处理方法、装置、设备及计算机可读存储介质可运用在任意一种基频建立的场景中。

图1为本发明实施例一提供的基频处理方法的流程示意图，如图1所示，所述方法包括：

步骤101、接收第一基频提取工具提取的歌唱音频的第一基频，以及第二基频提取工具提取的音符音频的第二基频；

步骤102、根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作，获得待处理文件；

步骤103、根据预设的提取规则从所述待处理文件中提取待训练数据；

步骤104、通过所述待训练数据对预设的待训练模型进行训练，获得基频建立模型。

在本实施例中，为了实现对基频的建立，首先需要对歌唱音频以及音符音频进行基频的提取，具体地，可以通过第一基频提取工具提取歌唱音频的第一基频，可以通过第二基频提取工具提取音符音频的第二基频，其中，改第一基频提取工具与第二基频提取工具可以是任意一种能够实现基频提取的工具，本发明在此不做限制，举例来说，该第二基频提取工具可以为midi提取工具。可以理解的是，由于第一基频与第二基频分别采用不同的基频提取工具提取，因此，二者可能存在出入，为了提高建模的精准度，需要根据预设的对齐规则对第一基频与第二基频进行对齐操作，获得待处理文件。为了实现对基频建立神经网络模型的建立，首先需要确定该基频建立神经网络模型的输入特征与输出特征。具体地，可以根据预设的提取规则从待处理文件中获取待训练数据，其中，待处理数据中包括输入特征与输出特征。进而可以根据该待训练数据对预先建立的待训练模型进行训练，直至待训练模型收敛，获得基频建立模型。从而后续可以通过该基频实现对基频的建立。

本实施例提供的基频处理方法，通过接收第一基频提取工具提取的歌唱音频的第一基频，以及第二基频提取工具提取的音符音频的第二基频；根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作，获得待处理文件；根据预设的提取规则从所述待处理文件中提取待训练数据；通过所述待训练数据对预设的待训练模型进行训练，获得基频建立模型。从而后续能够根据该基频建立模型实现对基频的建立，由于该基频建立模型通过待处理文件中提取出的待训练数据进行训练，从而根据该基频建立模型得到的基频能够模拟真实歌声中的多种技巧种类，基频表现力较高。

图2为本发明实施例二提供的基频处理方法的流程示意图，在上述任一实施例的基础上，所述方法包括：

步骤201、接收第一基频提取工具提取的歌唱音频的第一基频，以及第二基频提取工具提取的音符音频的第二基频；

步骤202、按照预设的时间间隔，分别将所述第一基频与所述第二基频分割为至少一段基频片段；

步骤203、针对第一基频与所述第二基频中位置相对应的各基频片段，根据音高的接近程度和/或预设数量音符时长对所述基频片段进行边界对齐操作，获得所述待处理文件；

步骤204、根据预设的提取规则从所述待处理文件中提取待训练数据；

步骤205、通过所述待训练数据对预设的待训练模型进行训练，获得基频建立模型。

在本实施例中，由于第一基频与第二基频分别采用不同的基频提取工具提取，因此，二者可能存在出入，为了提高建模的精准度，需要根据预设的对齐规则对第一基频与第二基频进行对齐操作。具体地，可以首先按照预设的时间间隔，分别将第一基频与第二基频分割为至少一段基频片段。通过将第一基频与第二基频分割为至少一段基频片段再进行第一基频与第二基频的对齐操作，从而能够提高基频对齐的精准性，此外，对每一段基频片段进行对齐操作，还能够提高对齐操作的效率。进一步地，对第一基频与第二基频进行分割之后，可以分别确定第一基频与第二基频中位置相对应的基频片段，针对各基频片段，可以根据其音高的接近程度进行对齐操作。可以理解的是，若第一基频的基频片段与第二基频的基频片段相似度超过预设的阈值，则可以表征二者为同一位置，从而根据音高相似度进行对齐操作能够精准地使第一基频与第二基频保持对齐，进而能够提高建模的精准度。作为一种可以实施的方式，还可以根据预设数量音符时长对所述基频片段进行边界对齐操作，获得所述待处理文件。可选第，上述两个实施方式可以单独实施，也可以结合实施，本发明在此不做限制。

本实施例提供的基频处理方法，通过按照预设的时间间隔，分别将所述第一基频与所述第二基频分割为至少一段基频片段，针对第一基频与所述第二基频中位置相对应的各基频片段，根据音高的接近程度和/或预设数量音符时长对所述基频片段进行边界对齐操作，获得所述待处理文件，从而能够精准地使第一基频与第二基频保持对齐，进而能够提高建模的精准度。

图3为本发明实施例三提供的基频处理方法的流程示意图，在上述任一实施例的基础上，所述待处理数据中包括输入特征与输出特征；如图3所示，所述方法包括：

步骤301、接收第一基频提取工具提取的歌唱音频的第一基频，以及第二基频提取工具提取的音符音频的第二基频；

步骤302、根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作，获得待处理文件；

步骤303、根据预设的经验知识从所述待处理文件中提取输入特征；

步骤304、将所述第一基频与第二基频的差值作为所述输出特征；

步骤305、通过所述待训练数据对预设的待训练模型进行训练，获得基频建立模型。

在本实施例中，对第一基频与第二基频进行对齐操作之后，可以从待处理文件中提取待处理数据。该待处理数据具体包括输入特征以及输出特征。其中，可以根据预设的经验知识从待处理文件中提取输入特征。可以根据历史经验总结出对基频影响较大的特征，并将对基频影响较大的特征作为该预设的经验知识，从而能够有效地解决现有技术中只能够满足基频多样化中的部分特征而造成的基频表现力不高的问题。此外，可以将第一基频与第二基频的差值作为输出特征，需要说明的是，由于现代音律都采用十二平均律，音符对应的基频在log域下是等差排列的，因此如果输入的特征不采用音符转换的基频值，而是采用他们之间的相对差值，则进一步降低了对数据量的要求，部分解决了基频建模数据稀疏的问题，进一步地提高模型的精度。确定输入特征以及输出特征之后，可以根据该输入特征以及输出特征实现对待训练模型的训练，从而在训练过程中，待训练模型能够对输入特征以及输出特征之间的关联关系进行学习，以便后续根据该训练后的基频建立模型实现基频的建立。

本实施例提供的基频处理方法，通过根据预设的经验知识从所述待处理文件中提取输入特征，将所述第一基频与第二基频的差值作为所述输出特征，从而能够在有效地解决现有技术中只能够满足基频多样化中的部分特征而造成的基频表现力不高的问题的基础上，解决了基频建模数据稀疏的问题，进一步地提高模型的精度。

进一步地，在上述任一实施例的基础上，所述预设的经验知识包括以下至少一项：

当前帧所属保持音和前一个保持音之间的基频差值；当前帧所属保持音与下一个保持音之间的基频差值；与当前帧所属保持音距离小于预设阈值的保持音的时长；与当前帧所属保持音距离小预设的阈值的无声音节的时长；当前帧所属保持音的时长；当前帧所属保持音在当前乐句中的前向位置；当前帧在所属保持音中的粗码；当前帧所属音位在当前乐句中的前向位置；当前帧在所属音位中的粗码。

在本实施例中，通过历史经验对基频中的特征进行整理，能够确定多个对基频多样化影响较大的特征，因此，获取到第一基频以及第二基频，并对第一基频与第二基频进行对齐操作之后，可以确定第一基频与第二基频中当前帧所属保持音和前一个保持音之间的基频差值；当前帧所属保持音与下一个保持音之间的基频差值；与当前帧所属保持音距离小于预设阈值的保持音的时长；与当前帧所属保持音距离小预设的阈值的无声音节的时长；当前帧所属保持音的时长；当前帧所属保持音在当前乐句中的前向位置；当前帧在所属保持音中的粗码；当前帧所属音位在当前乐句中的前向位置；当前帧在所属音位中的粗码。

本实施例提供的基频处理方法，通过根据预设的经验知识从所述待处理文件中提取输入特征，从而能够有效地解决现有技术中只能够满足基频多样化中的部分特征而造成的基频表现力不高的问题。

进一步地，在上述任一实施例的基础上，所述方法包括：

接收第一基频提取工具提取的歌唱音频的第一基频，以及第二基频提取工具提取的音符音频的第二基频；

根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作，获得待处理文件；

根据预设的提取规则从所述待处理文件中提取待训练数据；

将所述待训练数据输入至所述待训练模型，以使所述待训练模型根据所述待训练数据进行迭代训练；

直至所述待训练模型输出的结果与所述输出特征的差值小于预设的阈值，获得所述基频建立模型。

在本实施例中，获取第一基频以及第二基频，并对第一基频与第二基频进行对齐操作，从第一基频与第二基频中提取出待训练文件之后，可以根据该待训练数据对预设的待训练模型进行训练，实现基频建立模型的生成。具体地，可以将待训练数据输入至待训练模型中，以使待训练模型根据该待训练数据进行迭代训练，并不断调整待训练模型的参数，直至待训练模型的输出结果与输出特征的差值小于预设的阈值，获得基频建立模型。

本实施例提供的基频处理方法，通过将所述待训练数据输入至所述待训练模型，以使所述待训练模型根据所述待训练数据进行迭代训练；直至所述待训练模型输出的结果与所述输出特征的差值小于预设的阈值，获得所述基频建立模型，从而能够实现对基频建立模型的生成，为后续基频的建立提供了基础。

图4为本发明实施例四提供的基频处理方法的流程示意图，在上述任一实施例的基础上，所述方法还包括：

步骤401、接收第一基频提取工具提取的歌唱音频的第一基频，以及第二基频提取工具提取的音符音频的第二基频；

步骤402、根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作，获得待处理文件；

步骤403、根据预设的提取规则从所述待处理文件中提取待训练数据；

步骤404、通过所述待训练数据对预设的待训练模型进行训练，获得基频建立模型；

步骤405、获取待建立基频数据，将所述待建立基频数据输入至所述基频建立模型中，获得处理结果；

步骤406、根据所述处理结果对所述待建立基频数据进行调整，获得调整后的基频数据。

在本实施例中，获得基频建立模型之后，可以根据该基频建立模型实现对基频的建立。具体地，可以获取待建立基频数据，并将待建立基频数据输入至基频建立模型中，获得基频建立模型输出的处理结果。可以理解的是，基频建立模型输出的处理结果为基频的差值，从而得到处理结果之后，可以根据该处理结果对输入的待建立基频数据进行调整，获得调整后的基频数据。由于基频建立模型是通过历史总结的对基频多样化影响较大的多个特征获得的待训练数据训练获得的，因此能够有效地解决现有技术中只能够满足基频多样化中的部分特征而造成的基频表现力不高的问题，从而通过该基频建立模型输出的处理结果调整获得的调整后的基频数据表现力较强。

本实施例提供的基频处理方法，通过获取待建立基频数据，将所述待建立基频数据输入至所述基频建立模型中，获得处理结果，根据所述处理结果对所述待建立基频数据进行调整，获得调整后的基频数据。由于基频建立模型是通过历史总结的对基频多样化影响较大的多个特征获得的待训练数据训练获得的，因此能够有效地解决现有技术中只能够满足基频多样化中的部分特征而造成的基频表现力不高的问题，从而通过该基频建立模型输出的处理结果调整获得的调整后的基频数据表现力较强。

进一步地，在上述任一实施例的基础上，图5为本发明实施例提供的使用两层长短期记忆网络的神经网络模型的结构示意图，图6为本发明实施例提供的使用扩张卷积的神经网络模型的结构示意图，图7为本发明实施例提供的使用扩张卷积以及自回归方式的神经网络模型的结构示意图，如图5-7所示，所述待训练模型为使用两层长短期记忆网络的神经网络模型、使用扩张卷积的神经网络模型、使用扩张卷积以及自回归方式的神经网络模型中的任意一种。

在本实施例中，如图5所示，待训练模型具体可以为使用两层长短期记忆网络(long-shorttermmemory，简称lstm)神经网络模型，其中，t为tanh激活函数，通过使用两层长短期记忆网络的神经网络模型能够比较好地建模特征序列到目标序列的映射关系。可选地，如图6所示，待训练模型具体可以为使用扩张卷积的神经网络模型，扩张卷积可以增加神经网络的感受域，并且不会因历史时序过长而导致的梯度消失问题。同时，可利用残差机制增加网络深度，以进一步增加对历史信息的累积，从而能够使模型的视野域更广，同时可以增加训练速度和生成速度。可选地，如图7所示，待训练模型具体可以为使用扩张卷积以及自回归方式的神经网络模型，建立了从目标序列到目标序列自身的映射关系，并叠加了特征信息。从而能够使模型的视野域更广，同时考虑了目标序列自身的历史信息，建模更准确，此外还能够提高模型训练速度。

本实施例提供的基频处理方法，通过待训练模型为使用两层长短期记忆网络的神经网络模型、使用扩张卷积的神经网络模型、使用扩张卷积以及自回归方式的神经网络模型中的任意一种，从而能够提高模型训练速度以及精度。

图8为本发明实施例五提供的基频处理装置的结构示意图，在上述任一实施例的基础上，所述基频处理装置包括：

基频接收模块51，用于接收第一基频提取工具提取的歌唱音频的第一基频，以及第二基频提取工具提取的音符音频的第二基频；

对齐模块52，用于根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作，获得待处理文件；

提取模块53，用于根据预设的提取规则从所述待处理文件中提取待训练数据；

训练模块54，用于通过所述待训练数据对预设的待训练模型进行训练，获得基频建立模型。

本实施例提供的基频处理装置，通过接收第一基频提取工具提取的歌唱音频的第一基频，以及第二基频提取工具提取的音符音频的第二基频；根据预设的对齐规则对所述第一基频以及所述第二基频进行边界对齐操作，获得待处理文件；根据预设的提取规则从所述待处理文件中提取待训练数据；通过所述待训练数据对预设的待训练模型进行训练，获得基频建立模型。从而后续能够根据该基频建立模型实现对基频的建立，由于该基频建立模型通过待处理文件中提取出的待训练数据进行训练，从而根据该基频建立模型得到的基频能够模拟真实歌声中的多种技巧种类，基频表现力较高。

进一步地，在上述任一实施例的基础上，所述对齐模块包括：

分割单元，用于按照预设的时间间隔，分别将所述第一基频与所述第二基频分割为至少一段基频片段；

对齐单元，用于针对第一基频与所述第二基频中位置相对应的各基频片段，根据音高的接近程度和/或预设数量音符时长对所述基频片段进行边界对齐操作，获得所述待处理文件。

进一步地，在上述任一实施例的基础上，所述待处理数据中包括输入特征与输出特征；

相应地，所述提取模块包括：

第一提取单元，用于根据预设的经验知识从所述待处理文件中提取输入特征；

第二提取单元，用于将所述第一基频与第二基频的差值作为所述输出特征。

进一步地，在上述任一实施例的基础上，所述预设的经验知识包括以下至少一项：

进一步地，在上述任一实施例的基础上，所述训练模块包括：

训练单元，用于将所述待训练数据输入至所述待训练模型，以使所述待训练模型根据所述待训练数据进行迭代训练，直至所述待训练模型输出的结果与所述输出特征的差值小于预设的阈值，获得所述基频建立模型。

进一步地，在上述任一实施例的基础上，所述装置还包括：

处理模块，用于获取待建立基频数据，将所述待建立基频数据输入至所述基频建立模型中，获得处理结果；

调整模块，用于根据所述处理结果对所述待建立基频数据进行调整，获得调整后的基频数据。

进一步地，在上述任一实施例的基础上，所述待训练模型为使用两层长短期记忆网络的神经网络模型、使用扩张卷积的神经网络模型、使用扩张卷积以及自回归方式的神经网络模型中的任意一种。

图9为本发明实施例六提供的基频处理设备的结构示意图，如图9所示，所述基频处理设备，包括：存储器61，处理器62；

存储器61；用于存储所述处理器62可执行指令的存储器61；

其中，所述处理器62被配置为由所述处理器62执行如上述任一实施例所述的基频处理方法。

本发明又一实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的基频处理方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙晨曦;盖于涛;李昊
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人