一种基于神经网络的歌曲生成方法和系统与流程

文档序号:17747331发布日期:2019-05-24 20:43阅读:256来源:国知局
一种基于神经网络的歌曲生成方法和系统与流程

本发明涉及神经网络领域,尤其涉及一种基于神经网络的歌曲生成方法和系统。



背景技术:

游戏开发和影视领域中,对主题区或片尾曲等歌曲的需求与日俱增,日渐形一条成熟的产业链。

对于游戏开发和影视的公司而言,歌曲的成本大部分来自于知名歌手的演唱费用。由于大部分中小企业难以负担高额的演唱费用,退而求其次,选择知名度不高的歌手进行演唱,而专业水平则得不到保证。

因此,如何节约游戏开发和影视领域中主题曲或片尾曲等歌曲的制作成本成为了游戏开发和影视的公司需要面对的问题。



技术实现要素:

本申请的目的是解决现有技术的不足,提供一种基于神经网络的歌曲生成方法和系统,能够获得降低歌曲制作成本和缩短歌曲制作周期的效果。

为了实现上述目的,本申请采用以下的技术方案。

首先,本申请提出一种基于神经网络的歌曲生成方法,适用于根据歌词自动生成歌曲。该方法包括以下步骤:

s100)获取歌词文本并确定演唱者;

s200)从所述歌词文本中提取音素;

s300)根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;

s400)将所述音素、持续时间和基频结合,得到目标歌曲音频。

进一步地,在本申请的上述方法中,所述步骤s100还包括以下子步骤:

s101)获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;

s102)从所述歌曲生成页面获取歌词文本;

s103)确定所述歌曲生成页面中被选中的演唱者。

进一步地,在本申请的上述方法中,所述步骤s200还包括以下子步骤:

s201)根据标准音素字典生成样本集以训练得到语素音素转换模型,其中,样本集存放有音素和语素的键值对,语素音素转换模型为神经网络模型;

s202)使用所述语素音素转换模型将所述歌词文本中的语素转换为所述音素。

进一步地,在本申请的上述方法中,所述步骤s300还包括以下子步骤:

s301)从所述演唱者对应的音频文件样本集合获取被文本样本标记的音频文件样本;

s302)从所述文本样本中提取第一音素样本,并根据分割模型将所述音频文件样本分割得到每个所述第一音素样本对应的音频剪辑;

s303)根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合;

s304)根据所述训练样本集合训练所述音素预测模型;

s305)根据训练得到的所述音素预测模型预测所述歌词文本中每个所述音素对应的持续时间和基频。

进一步地,在本申请的上述方法中,每个所述第一音素样本的音频剪辑至少包括在所述音频文件样本中的起始时间。

进一步地,在本申请的上述方法中,所述步骤s400还包括以下子步骤:

s401)获取语音合成模型,所述语音合成模型为使用语音合成样本集合训练得到的神经网络模型,所述语音合成样本包括带有持续时间和基频信息的第二音素样本和对应的语音剪辑;

s402)将所述音素、持续时间和基频作为所述语音合成模型的输入,以经过语音合成模型处理后输出所述歌词文本对应的目标歌曲音频。

进一步地,在本申请的上述方法中,还包括步骤:

s500)获取伴奏音频;

s600)将所述伴奏音频与所述目标歌曲音频合成,得到新的目标歌曲音频。

进一步地,在本申请的上述方法中,所述音素预测模型是基于tensorflow和kerass学习框架建立。

其次,本申请还公开了一种基于神经网络的歌曲生成系统,适用于根据歌词自动生成歌曲。该系统包括以下模块:导入模块,用于获取歌词文本并确定演唱者;音素提取模块,用于从所述歌词文本中提取音素;音素预测模块,用于据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;结合模块,用于将所述音素、持续时间和基频结合,得到目标歌曲音频。

进一步地,在本申请的上述系统中,所述导入模块还包括以下子模块:页面获取模块,用于获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;歌词问问获取模块,用于从所述歌曲生成页面获取歌词文本;演唱者确定模块,用于确定所述歌曲生成页面中被选中的演唱者。

进一步地,在本申请的上述系统中,所述音素提取模块还包括以下子模块:语素音素转换模型训练模块,用于根据标准音素字典生成样本集以训练得到语素音素转换模型,其中,样本集存放有音素和语素的键值对,语素音素转换模型为神经网络模型;音素转换模块,用于使用所述语素音素转换模型将所述歌词文本中的语素转换为所述音素。

进一步地,在本申请的上述系统中,所述音素预测模块还包括以下子模块:音频文件样本获取模块,用于从所述演唱者对应的音频文件样本集合获取被文本样本标记的音频文件样本;音频剪辑获取模块,用于从所述文本样本中提取第一音素样本,并根据分割模型将所述音频文件样本分割得到每个所述第一音素样本对应的音频剪辑;训练样本集合获取模块,用于根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合;音素预测模型训练模块,用于根据所述训练样本集合训练所述音素预测模型;持续时间和基频预测模块,用于根据训练得到的所述音素预测模型预测所述歌词文本中每个所述音素对应的持续时间和基频。

进一步地,在本申请的上述系统中,每个所述第一音素样本的音频剪辑至少包括在所述音频文件样本中的起始时间。

进一步地,在本申请的上述系统中,所述结合模块还包括以下子模块:语音合成模型获取模块,用于获取语音合成模型,所述语音合成模型为使用语音合成样本集合训练得到的神经网络模型,所述语音合成样本包括带有持续时间和基频信息的第二音素样本和对应的语音剪辑;目标歌曲音频输出模块,用于将所述音素、持续时间和基频作为所述语音合成模型的输入,以经过语音合成模型处理后输出所述歌词文本对应的目标歌曲音频。

进一步地,在本申请的上述系统中,还包括:

伴奏音频获取模块,用于获取伴奏音频;

合成模块,用于将所述伴奏音频与所述目标歌曲音频合成,得到新的目标歌曲音频。

进一步地,在本申请的上述系统中,所述音素预测模型是基于tensorflow和kerass学习框架建立。

最后,本申请还提出一种计算机可读存储介质,其上存储有计算机指令。上述指令被处理器执行时,执行如下步骤:

s100)获取歌词文本并确定演唱者;

s200)从所述歌词文本中提取音素;

s300)根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;

s400)将所述音素、持续时间和基频结合,得到目标歌曲音频。

进一步地,在处理器执行上述指令时,所述步骤s100还包括以下子步骤:

s101)获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;

s102)从所述歌曲生成页面获取歌词文本;

s103)确定所述歌曲生成页面中被选中的演唱者。

进一步地,在处理器执行上述指令时,所述步骤s200还包括以下子步骤:

s201)根据标准音素字典生成样本集以训练得到语素音素转换模型,其中,样本集存放有音素和语素的键值对,语素音素转换模型为神经网络模型;

s202)使用所述语素音素转换模型将所述歌词文本中的语素转换为所述音素。

进一步地,在处理器执行上述指令时,所述步骤s300还包括以下子步骤:

s301)从所述演唱者对应的音频文件样本集合获取被文本样本标记的音频文件样本;

s302)从所述文本样本中提取第一音素样本,并根据分割模型将所述音频文件样本分割得到每个所述第一音素样本对应的音频剪辑;

s303)根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合;

s304)根据所述训练样本集合训练所述音素预测模型;

s305)根据训练得到的所述音素预测模型预测所述歌词文本中每个所述音素对应的持续时间和基频。

进一步地,在处理器执行上述指令时,每个所述第一音素样本的音频剪辑至少包括在所述音频文件样本中的起始时间。

进一步地,在处理器执行上述指令时,所述步骤s400还包括以下子步骤:

s401)获取语音合成模型,所述语音合成模型为使用语音合成样本集合训练得到的神经网络模型,所述语音合成样本包括带有持续时间和基频信息的第二音素样本和对应的语音剪辑;

s402)将所述音素、持续时间和基频作为所述语音合成模型的输入,以经过语音合成模型处理后输出所述歌词文本对应的目标歌曲音频。

进一步地,在处理器执行上述指令时,还包括步骤:

s500)获取伴奏音频;

s600)将所述伴奏音频与所述目标歌曲音频合成,得到新的目标歌曲音频。

进一步地,在处理器执行上述指令时,所述音素预测模型是基于tensorflow和kerass学习框架建立。

本申请的有益效果为:利用神经网络对从歌词文本提取处的音素进行持续时间和基频的预测,进而将所述音素、持续时间和基频结合,得到目标歌曲音频,使得游戏开发和影视的公司无需负担歌手的高额演唱费用,从而降低歌曲制作成本和缩短歌曲制作周期。

附图说明

图1所示为本申请所公开的基于神经网络的歌曲生成方法的流程图;

图2所示为在本申请的一个实施例中,歌词文本和演唱者确定子方法的流程图;

图3所示为在本申请的另一个实施例中,音素提取子方法的流程图;

图4所示为在本申请的又一个实施例中,音素预测子方法的流程图;

图5所示为在本申请的又一个实施例中,目标歌曲音频生成子方法的流程图;

图6所示为本申请所公开的基于神经网络的歌曲生成方法的另一实施例的流程图;

图7所示为本申请所公开的基于神经网络的歌曲生成系统的结构图。

具体实施方式

以下将结合实施例和附图对本申请的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本申请的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本申请中所使用的上、下、左、右等描述仅仅是相对于附图中本申请各组成部分的相互位置关系来说的。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。

此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解,尽管在本申请中可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本申请范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”。

参照图1所示的方法流程图,在本申请的一个或多个实施例中,本申请提出一种基于神经网络的歌曲生成方法,适用于根据歌词自动生成歌曲。该方法包括以下步骤:

s100)获取歌词文本并确定演唱者;

s200)从所述歌词文本中提取音素;

s300)根据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;

s400)将所述音素、持续时间和基频结合,得到目标歌曲音频。

具体的,游戏开发和影视的公司在进行歌曲创作时,只需要输入歌词文本并选择演唱者,即可根据本申请提供的基于神经网络的歌曲生成方法自动生成目标歌曲音频。进一步的,音素是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。以汉语的音节为例进行说明,如汉语音节ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。通过从歌词文本中提取音素可以确定歌词文本的对应的语音,但由于不同的发音主体(人或乐器)对不同的音素或音素组合的发音有些许不同,为了达到以确定的演唱者对歌词文本进行演唱,需要进一步使用预先训练好的演唱者对应的音素预测模型对提取的音素进行分析,进而确定每个音素对应的持续时间和基频。由于多个音素在组合后会有诸如音调或音色的变化,当音素预测模型确定每个音素对应的持续时间和基频后,即可确定每个音素的音调或音色等,进而将所述音素、持续时间和基频结合,得到目标歌曲音频,达到使用神经网络的深度学习方法模拟演唱者对歌词文本进行演唱的效果。进一步的,音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型。该音频文件样本集合中的样本是演唱者对应的演唱音频,通过使用该音频文件样本集合训练的到音素预测模型,使得该音素预测模型可以较好的代表演唱者的演唱特色。

对于上述歌词文本和演唱者的确定,参照图2所示的子方法流程图,在本申请的一个或多个实施例中,可以通过以下子步骤实现:

s101)获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;

s102)从所述歌曲生成页面获取歌词文本;

s103)确定所述歌曲生成页面中被选中的演唱者。

在上述子方法流程中,可以通过制作网站或相关客户端提供歌曲生成页面,用户可以通过该歌曲生成页面导入或输入歌词文本。该歌曲生成页面还可以提供已有的演唱者以供用户选择,该已有的演唱者都有各自对应存储的音素预测模型。该歌曲生成页面还可以设置有按钮,用于被点击后进行歌曲生成的步骤。

进一步地,参照图3所示的子方法流程图,在本申请的上述一个或多个实施例中,所述步骤s200还包括以下子步骤:

s201)根据标准音素字典生成样本集以训练得到语素音素转换模型,其中,样本集存放有音素和语素的键值对,语素音素转换模型为神经网络模型;

s202)使用所述语素音素转换模型将所述歌词文本中的语素转换为所述音素。

其中,语素是最小的语音、语义结体,是最小的有意义的语言单位。语素不是独立运用的语言单位,它的主要功能是作为构成词语的材料。说它是语音、语义结合体,有意义的语言单位,目的是把它跟音节区分开来,有些音节光有音没有意义,不能看作语素,如“雳”、“馄”。说它是最小的有意义的语言单位,不属于独立运用的语言单位,目的是把它跟词区分开来。语素分成三种构词方式:

单音节语素:构词由一个字才有意思的词组成;

双音节语素:构词由两个字才有意思的词组成;

多音节语素:构词由两个字以上才有意思的词组成。

进一步的,标准音素字典中存储有音素和语素的键值对,从标准音素字典中可以提取出语素音素转换模型的样本集合,通过使用该样本集合进行训练得到语素音素转换模型,用于将歌词文本中的语素转换为音素。

进一步地,参照图4所示的子方法流程图,在本申请的上述一个或多个实施例中,所述步骤s300还包括以下子步骤:

s301)从所述演唱者对应的音频文件样本集合获取被文本样本标记的音频文件样本;

s302)从所述文本样本中提取第一音素样本,并根据分割模型将所述音频文件样本分割得到每个所述第一音素样本对应的音频剪辑;

s303)根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合;

s304)根据所述训练样本集合训练所述音素预测模型;

s305)根据训练得到的所述音素预测模型预测所述歌词文本中每个所述音素对应的持续时间和基频。

具体的,收集演唱者的演唱音频作为音频文件样本,并对音频文件样本的演唱内容使用文本样本进行标记,也就是说该音频文件样本是带有歌词的演唱音频。音频文件样本可以堪称是第一音素样本的集合。进一步的,分割模型也是一种神经网络模型,可以将每个音素发声的场景进行匹配,从而获取其对应的音频分割片段和其在音频中的发声位置,具体的,可以将音频文件样本按照第一音素样本进行分割,得到第一音素样本对应的音频剪辑。在本申请的一个或多个实施例中,每个所述第一音素样本的音频剪辑至少包括在所述音频文件样本中的起始时间。进一步的,可以根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合,以训练所述音素预测模型,并进一步根据训练得到的所述音素预测模型预测所述歌词文本中每个所述音素对应的持续时间和基频。

进一步地,参照图5所示的子方法流程图,在本申请的上述一个或多个实施例中,所述步骤s400还包括以下子步骤:

s401)获取语音合成模型,所述语音合成模型为使用语音合成样本集合训练得到的神经网络模型,所述语音合成样本包括带有持续时间和基频信息的第二音素样本和对应的语音剪辑;

s402)将所述音素、持续时间和基频作为所述语音合成模型的输入,以经过语音合成模型处理后输出所述歌词文本对应的目标歌曲音频。

具体的,在训练过程中,语音合成模型的输入是带有持续时间和基频信息的第二音素样本,形如[(hh,0.05s,140hz),(eh,0.07s,141hz),...],标签是第二音素样本对应的语音剪辑。训练完成得到的语音合成模型可以用于将输入的所述音素、持续时间和基频进行处理,输出所述歌词文本对应的目标歌曲音频。

进一步地,参照图6所示的方法流程图,在本申请的上述一个或多个实施例中,还包括步骤:

s500)获取伴奏音频;

s600)将所述伴奏音频与所述目标歌曲音频合成,得到新的目标歌曲音频。

具体的,在合成过程中,可以是对伴奏音频和目标歌曲音频进行混音。混音是一种对由录音、采样或者合成等方式形成的多轨声音素材的一种处理,即把这些多轨素材经过平衡和调整,混合为多声道的成品。经过合成后,得到的新的目标歌曲音频具有伴奏。

在本申请的一个或多个实施例中,所述音素预测模型是基于tensorflow和kerass学习框架建立。具体地,通过神经网络tensorflow的机器学习和深度学习计算,结合kerasapi的卷积神经网络和相信函数,在音频文件样本集合中进行机器训练,从而实现预测音素对应的持续时间和基频的深度学习。当然本申请中提及的语素音素转换模型、分割模型和语音合成模型也可以是基于tensorflow和kerass学习框架建立。本领域技术人员可以根据采用现有的神经网络训练方式建立并训练相应的分类器,本申请对此不予具体限定。

参照图7所示的模块结构图,在本申请的一个或多个实施例中,本申请还公开了一种基于神经网络的歌曲生成系统,适用于根据歌词自动生成歌曲。该系统包括以下模块:导入模块,用于获取歌词文本并确定演唱者;音素提取模块,用于从所述歌词文本中提取音素;音素预测模块,用于据音素预测模型预测每个所述音素对应的持续时间和基频,其中,所述音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型;结合模块,用于将所述音素、持续时间和基频结合,得到目标歌曲音频。具体的,游戏开发和影视的公司在进行歌曲创作时,只需要输入歌词文本并选择演唱者,即可根据本申请提供的基于神经网络的歌曲生成方法自动生成目标歌曲音频。进一步的,音素是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音、辅音两大类。以汉语的音节为例进行说明,如汉语音节ā(啊)只有一个音素,ài(爱)有两个音素,dāi(呆)有三个音素等。通过从歌词文本中提取音素可以确定歌词文本的对应的语音,但由于不同的发音主体(人或乐器)对不同的音素或音素组合的发音有些许不同,为了达到以确定的演唱者对歌词文本进行演唱,需要进一步使用预先训练好的演唱者对应的音素预测模型对提取的音素进行分析,进而确定每个音素对应的持续时间和基频。由于多个音素在组合后会有诸如音调或音色的变化,当音素预测模型确定每个音素对应的持续时间和基频后,即可确定每个音素的音调或音色等,进而将所述音素、持续时间和基频结合,得到目标歌曲音频,达到使用神经网络的深度学习方法模拟演唱者对歌词文本进行演唱的效果。进一步的,音素预测模型为根据所述演唱者对应的音频文件样本集合训练得到的神经网络模型。该音频文件样本集合中的样本是演唱者对应的演唱音频,通过使用该音频文件样本集合训练的到音素预测模型,使得该音素预测模型可以较好的代表演唱者的演唱特色。

进一步地,在本申请的上述一个或多个实施例中,所述导入模块还包括以下子模块:页面获取模块,用于获取歌曲生成页面,所述歌曲生成页面用于设置所述歌词文本和演唱者;歌词问问获取模块,用于从所述歌曲生成页面获取歌词文本;演唱者确定模块,用于确定所述歌曲生成页面中被选中的演唱者。具体的,可以通过制作网站或相关客户端提供歌曲生成页面,用户可以通过该歌曲生成页面导入或输入歌词文本。该歌曲生成页面还可以提供已有的演唱者以供用户选择,该已有的演唱者都有各自对应存储的音素预测模型。该歌曲生成页面还可以设置有按钮,用于被点击后进行歌曲生成的步骤。

进一步地,在本申请的上述一个或多个实施例中,所述音素提取模块还包括以下子模块:语素音素转换模型训练模块,用于根据标准音素字典生成样本集以训练得到语素音素转换模型,其中,样本集存放有音素和语素的键值对,语素音素转换模型为神经网络模型;音素转换模块,用于使用所述语素音素转换模型将所述歌词文本中的语素转换为所述音素。其中,语素是最小的语音、语义结体,是最小的有意义的语言单位。语素不是独立运用的语言单位,它的主要功能是作为构成词语的材料。说它是语音、语义结合体,有意义的语言单位,目的是把它跟音节区分开来,有些音节光有音没有意义,不能看作语素,如“雳”、“馄”。说它是最小的有意义的语言单位,不属于独立运用的语言单位,目的是把它跟词区分开来。语素分成三种构词方式:单音节语素:构词由一个字才有意思的词组成;双音节语素:构词由两个字才有意思的词组成;多音节语素:构词由两个字以上才有意思的词组成。进一步的,标准音素字典中存储有音素和语素的键值对,从标准音素字典中可以提取出语素音素转换模型的样本集合,通过使用该样本集合进行训练得到语素音素转换模型,用于将歌词文本中的语素转换为音素。

进一步地,在本申请的上述一个或多个实施例中,所述音素预测模块还包括以下子模块:音频文件样本获取模块,用于从所述演唱者对应的音频文件样本集合获取被文本样本标记的音频文件样本;音频剪辑获取模块,用于从所述文本样本中提取第一音素样本,并根据分割模型将所述音频文件样本分割得到每个所述第一音素样本对应的音频剪辑;训练样本集合获取模块,用于根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合;音素预测模型训练模块,用于根据所述训练样本集合训练所述音素预测模型;持续时间和基频预测模块,用于根据训练得到的所述音素预测模型预测所述歌词文本中每个所述音素对应的持续时间和基频。具体的,收集演唱者的演唱音频作为音频文件样本,并对音频文件样本的演唱内容使用文本样本进行标记,也就是说该音频文件样本是带有歌词的演唱音频。音频文件样本可以堪称是第一音素样本的集合。进一步的,分割模型也是一种神经网络模型,可以将每个音素发声的场景进行匹配,从而获取其对应的音频分割片段和其在音频中的发声位置,具体的,可以将音频文件样本按照第一音素样本进行分割,得到第一音素样本对应的音频剪辑。在本申请的一个或多个实施例中,每个所述第一音素样本的音频剪辑至少包括在所述音频文件样本中的起始时间。进一步的,可以根据所述音频剪辑获取每个所述第一音素样本对应的持续时间和基频,以构建训练样本集合,以训练所述音素预测模型,并进一步根据训练得到的所述音素预测模型预测所述歌词文本中每个所述音素对应的持续时间和基频。

进一步地,在本申请的上述一个或多个实施例中,所述结合模块还包括以下子模块:语音合成模型获取模块,用于获取语音合成模型,所述语音合成模型为使用语音合成样本集合训练得到的神经网络模型,所述语音合成样本包括带有持续时间和基频信息的第二音素样本和对应的语音剪辑;目标歌曲音频输出模块,用于将所述音素、持续时间和基频作为所述语音合成模型的输入,以经过语音合成模型处理后输出所述歌词文本对应的目标歌曲音频。具体的,在训练过程中,语音合成模型的输入是带有持续时间和基频信息的第二音素样本,形如[(hh,0.05s,140hz),(eh,0.07s,141hz),...],标签是第二音素样本对应的语音剪辑。训练完成得到的语音合成模型可以用于将输入的所述音素、持续时间和基频进行处理,输出所述歌词文本对应的目标歌曲音频。

进一步地,在本申请的上述一个或多个实施例中,还包括:

伴奏音频获取模块,用于获取伴奏音频;

合成模块,用于将所述伴奏音频与所述目标歌曲音频合成,得到新的目标歌曲音频。具体的,在合成过程中,可以是对伴奏音频和目标歌曲音频进行混音。混音是一种对由录音、采样或者合成等方式形成的多轨声音素材的一种处理,即把这些多轨素材经过平衡和调整,混合为多声道的成品。经过合成后,得到的新的目标歌曲音频具有伴奏。

在本申请的一个或多个实施例中,所述音素预测模型是基于tensorflow和kerass学习框架建立。具体地,通过神经网络tensorflow的机器学习和深度学习计算,结合kerasapi的卷积神经网络和相信函数,在音频文件样本集合中进行机器训练,从而实现预测音素对应的持续时间和基频的深度学习。当然本申请中提及的语素音素转换模型、分割模型和语音合成模型也可以是基于tensorflow和kerass学习框架建立。本领域技术人员可以根据采用现有的神经网络训练方式建立并训练相应的分类器,本申请对此不予具体限定。

应当认识到,本申请的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。该方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。

进一步地,该方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本申请的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、ram、rom等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文该步骤的指令或程序时,本文所述的申请包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本申请所述的方法和技术编程时,本申请还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本申请优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。

因此,应以说明性意义而不是限制性意义来理解本说明书和附图。然而,将明显的是:在不脱离如权利要求书中阐述的本申请的更宽广精神和范围的情况下,可以对本申请做出各种修改和改变。

其他变型在本申请的精神内。因此,尽管所公开的技术可容许各种修改和替代构造,但在附图中已示出并且在上文中详细描述所示的其某些实施例。然而,应当理解,并不意图将本申请局限于所公开的一种或多种具体形式;相反,其意图涵盖如所附权利要求书中所限定落在本申请的精神和范围内的所有修改、替代构造和等效物。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1