一种模拟真人朗读发音的方法及系统的制作方法_2

文档序号:8544681阅读:来源:国知局
换为音频并通过播放器进行播放。该方法通过预先构建的分类模型将待发 音文本拆分为多个单词,并依据获取的单词的文本向量得到其对应的语音矢量,输出对应 音频进行播放,该样产生的声音自然,能够W句子、段落作为基本单位来朗读整段文本,每 一个词都有不同的发音、语气、停顿等独特性质,达到了真人发音的效果。
[0063] 实施例二
[0064] 在实施例一的基础上,本申请实施例二提供了一种模拟真人朗读发音的方法,该 方法包括:
[00化]在预先构建的分类模型中输入待发音文本。
[0066] 将待发音文本拆分为多个单词,并依次获取每个单词的文本向量。
[0067] 根据单词的文本向量获取单词对应的语音矢量。
[0068] 将语音矢量转换为音频并通过播放器进行播放。
[0069] 如图2所示,图2为本申请实施例二提供的一种构建分类模型的流程图。具体的, 该分类模型的构建方法包括:
[0070] S201 ;收集训练样本集。
[0071] 具体的,需要事先进行大量采样,一般将一句话作为一个样本。需要注意的是,在 采样时,不是简单地给出一个单词,然后提取它的发音,而是要在朗读过程中收集语音片段 及其文字,而且数据集中的样本数要尽可能的大,尽量将所有词的各种读音都包含在内,从 而我们可W建立一个基本单词表。该样,我们训练出来的模型才更加鲁椿。
[0072] S202 ;将训练样本集中的文本拆分为多个单词,并得到每个单词的向量表示。
[0073] 在本实施例中,具体的,可W通过word2vec技术将所述样本集中的文本拆分为多 个单词,并得到每个单词的向量表示,其中,本申请不限于使用word2vec技术,Word2vec是 深度学习的一种应用,从理论上讲其他只要能做分词的机器学习方法均可W达到我们该里 的目的,即将文本做成向量,例如,主题建模算法等。
[0074] 为了更好的适应模型输入及模型判别,我们采用word2vec技术等可W将文本转 变为向量的工具将文本做成向量。Word2vec技术先将文本进行分词,然后通过它自身的 deeplearning深度学习模型学习出每个单词的向量表示,即每个单词都对应一组向量,单 词意思相近的向量表示也类似。
[0075] S203 ;将文本对应的语音切分为与多个单词一一对应的语音单元,并得到每个语 音单元的矢量表示。
[0076] 文本对应的语音也可W通过已有技术做成矢量。
[0077] 声音是一种波,且声音有单通道双通道之分,还有四通道的等等。对语音识别任务 来说,一般单通道就足够,因此一般要把声音转成单通道的来处理。时域的波形必须要分 帖,也就是把波形切开成一小段一小段,每小段称为一帖。分帖操作通常使用移动窗函数来 实现,分帖之前还要做一些预加重等操作,帖与帖之间是有交叠的。分帖后,语音就变成了 很多小段,但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方 法是提取MFCC(MelRrequen巧CepstrumCoefficient,Mel频率倒谱系数)特征,把每一 帖波形变成一个12维向量,该12个点是根据人耳的生理特性提取的,可W理解为该12个 点包含了该帖语音的内容信息,该个过程叫做声学特征提取。实际应用中,该一步有很多细 节,比如差分、均值方差规整、高斯化、降维去冗余等,且声学特征也不止有MFCC该一种。至 此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,该 里N为总帖数。
[007引 S204 ;根据单词的向量表示和语音单元的矢量表示构建基本单词表。
[0079] 将单词的向量表示和语音单元的矢量表示对应起来,构成 < 单词,发音〉对,将训 练样本集中获取的多对 < 单词,发音〉对整理成为基本单词表。
[0080] S205 ;利用深度学习模型训练基本单词表得到分类模型。
[0081] 深度学习是一个新型的机器学习算法,它的概念源于人工神经网络的研究。含多 隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高 层表示属性类别或特征,W发现数据的分布式特征表示。它凭借着其对海量数据所具备的 强大的建模能力,能够直接对那些未标注数据进行处理。深度学习的概念由Jeff化nton 等人于2006年提出。他基于深信度网值eepBeliefNetworks)提出非监督贪屯、逐层训练 算法,为解决深层结构相关的优化难题带来希望,随后提出多层自动编码器深层结构。此外 Le州n等人提出的卷积神经网络(ConvolutionalNeuralNetworks)是第一个真正多层结 构学习算法,它利用空间相对关系减少参数数目W提高训练性能。深度学习发起于学术界, 目前各大互联网巨头也纷纷投入研究,如Google的猫脸识别W及化cebook的深度学习团 队。深度学习的发展速度迅猛,而且在语音、图像、自然语言处理方面相对于传统机器学习 取得了较大的突破。
[0082] 深度学习的基本思想是假设我们有一个系统S,它有n层(Si,. . .,S。),它的输入 是I,输出是0,形象地表示为;/二Si二5*;^......二0,如果输出0等于输入I,即输 入I经过该个系统变化之后没有任何的信息损失,保持了不变,该意味着输入I经过每一层Si都没有任何的信息损失,即在任何一层Si,它都有原有信息(即输入I)的另外一种表示。 归根到底深度学习需要自动学习特征,假设我们有一堆输入I(如一堆图像或者文本),假 设我们设计了一个系统S,我们通过调整系统中参数,使得它的输出仍然是输入,那么我们 就可W自动地获取得到输入的一系列层次特征。
[0083] 根据构建的基本单词表,我们使用深度神经网络算法来训练模型,具体可选但不 限于的模型如CNN(Convolutionneuralnetwork,卷积神经网络)等。我们将文本向量作 为模型的输入,语音矢量作为我们的样本标签,训练之后产生一个分类模型。
[0084] 其中,如图3所示,图3为本申请实施例二提供的另一种构建分类模型的流程图。
[0085] 除上述所述的步骤之外,还可W包括:
[0086]S206;判断分类模型的性能。
[0087] 为了保证分类模型的性能好坏,还可W进一步判断训练出的分类模型的性能。具 体的,如图4所示,图4为本申请实施例二提供的一种判断分类模型的性能的流程图,该方 法包括:
[008引 S301 ;在分类模型中输入测试样本的文本W得到文本对应的语音矢量。
[0089] 其中,该测试样本可W为新获取的样本集,也可W为在构建分类模型时所收集的 训练样本集的一部分,即训练样本集的一部分用于训练分类器,另一部分用于测试判断分 类模型的性能好坏,具体的分配比可W为训练集:样本集=8:2或者7:3,具体不做限定,可 w根据实际情况进行设置。
[0090]S302;将语音矢量与测试样本的语音标签进行对比W得到语音矢量差。
[0091] S303 ;利用语音矢量差判断分类模型的性能。
[0092] 若矢量差越大则证明分类模块的性能不好,发音失真,若矢量差小甚至为零,则证 明分类模块的性能优,能够基本保证真人朗读发音。
[0093] 由W上技术方案可知,本申请实施例二提供了另一种模拟真人朗读发音的方法, 该方法使产生的声音更加自然,且能够W句子、段落作为基本单位来朗读整段文本,每一个 词都有不同的发音、语气、停顿等独特性质,达到了真人发音的效果。
[0094] 实施例S
[0095]为实现实施例一所述的模拟真人朗读发音的方法,本申请实施例=提供了一种模 拟真人朗读发音的系统。如图5所示,图5为本申请实施例=提供的一种模拟真人朗读发 音的系统的结构示意图。该系统包括:构建单元401、输入单元402、拆分单元403、获取单 元404W及转换单元405,其中,
[0096] 构建单元401,用于预先构建分类模型。
[0097] 其中,分类模型是构建单元401通过在网络上捜集的网络播音员的大量音频W及 与其对应的文本进行预先构建的。该样,在输入待发音文本后,可W根据该分类模型找出适 合的语音,进一步进行发音。
[009引输入单元402,用于在分类模型中输入待发音文本。
[0099] 拆分单元403,用于将待发音文本拆分为多个单词,并依次获取每个单词的文本向 量。
[0100] 获取单元404,用于根据单词的文本向量获取单词对应的语音矢量。
[0101] 转换单元405,用于将语音矢量转换为音频并通过播放器进行播放。
[0102] 获取单元通过该分类模型获得与待发音文本相对应的语音后,再由转换单元将语 音矢量转换为音频并通过播放器进行播放。由于分类模型是通过播音员发音音频及其文本 训练而成的,当输入待发音文本后,分类模型可W调出与该带发音文本相对应的播音员发 音,从而实现真人朗读发音
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1