一种模拟真人朗读发音的方法及系统的制作方法_2

文档序号：8544681阅读：来源：国知局

换为音频并通过播放器进行播放。该方法通过预先构建的分类模型将待发音文本拆分为多个单词，并依据获取的单词的文本向量得到其对应的语音矢量，输出对应音频进行播放，该样产生的声音自然，能够W句子、段落作为基本单位来朗读整段文本，每一个词都有不同的发音、语气、停顿等独特性质，达到了真人发音的效果。
[0063] 实施例二
[0064] 在实施例一的基础上，本申请实施例二提供了一种模拟真人朗读发音的方法，该方法包括：
[00化]在预先构建的分类模型中输入待发音文本。
[0066] 将待发音文本拆分为多个单词，并依次获取每个单词的文本向量。
[0067] 根据单词的文本向量获取单词对应的语音矢量。
[0068] 将语音矢量转换为音频并通过播放器进行播放。
[0069] 如图2所示，图2为本申请实施例二提供的一种构建分类模型的流程图。具体的，该分类模型的构建方法包括：
[0070] S201 ;收集训练样本集。
[0071] 具体的，需要事先进行大量采样，一般将一句话作为一个样本。需要注意的是，在采样时，不是简单地给出一个单词，然后提取它的发音，而是要在朗读过程中收集语音片段及其文字，而且数据集中的样本数要尽可能的大，尽量将所有词的各种读音都包含在内，从而我们可W建立一个基本单词表。该样，我们训练出来的模型才更加鲁椿。
[0072] S202 ;将训练样本集中的文本拆分为多个单词，并得到每个单词的向量表示。
[0073] 在本实施例中，具体的，可W通过word2vec技术将所述样本集中的文本拆分为多个单词，并得到每个单词的向量表示，其中，本申请不限于使用word2vec技术，Word2vec是深度学习的一种应用，从理论上讲其他只要能做分词的机器学习方法均可W达到我们该里的目的，即将文本做成向量，例如，主题建模算法等。
[0074] 为了更好的适应模型输入及模型判别，我们采用word2vec技术等可W将文本转变为向量的工具将文本做成向量。Word2vec技术先将文本进行分词，然后通过它自身的 deeplearning深度学习模型学习出每个单词的向量表示，即每个单词都对应一组向量，单词意思相近的向量表示也类似。
[0075] S203 ;将文本对应的语音切分为与多个单词一一对应的语音单元，并得到每个语音单元的矢量表示。
[0076] 文本对应的语音也可W通过已有技术做成矢量。
[0077] 声音是一种波，且声音有单通道双通道之分，还有四通道的等等。对语音识别任务来说，一般单通道就足够，因此一般要把声音转成单通道的来处理。时域的波形必须要分帖，也就是把波形切开成一小段一小段，每小段称为一帖。分帖操作通常使用移动窗函数来实现，分帖之前还要做一些预加重等操作，帖与帖之间是有交叠的。分帖后，语音就变成了很多小段，但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC(MelRrequen巧CepstrumCoefficient,Mel频率倒谱系数）特征，把每一帖波形变成一个12维向量，该12个点是根据人耳的生理特性提取的，可W理解为该12个点包含了该帖语音的内容信息，该个过程叫做声学特征提取。实际应用中，该一步有很多细节，比如差分、均值方差规整、高斯化、降维去冗余等，且声学特征也不止有MFCC该一种。至此，声音就成了一个12行（假设声学特征是12维）、N列的一个矩阵，称之为观察序列，该里N为总帖数。
[007引 S204 ;根据单词的向量表示和语音单元的矢量表示构建基本单词表。
[0079] 将单词的向量表示和语音单元的矢量表示对应起来，构成 < 单词，发音〉对，将训练样本集中获取的多对 < 单词，发音〉对整理成为基本单词表。
[0080] S205 ;利用深度学习模型训练基本单词表得到分类模型。
[0081] 深度学习是一个新型的机器学习算法，它的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，W发现数据的分布式特征表示。它凭借着其对海量数据所具备的强大的建模能力，能够直接对那些未标注数据进行处理。深度学习的概念由Jeff化nton 等人于2006年提出。他基于深信度网值eepBeliefNetworks)提出非监督贪屯、逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外 Le州n等人提出的卷积神经网络（ConvolutionalNeuralNetworks)是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目W提高训练性能。深度学习发起于学术界，目前各大互联网巨头也纷纷投入研究，如Google的猫脸识别W及化cebook的深度学习团队。深度学习的发展速度迅猛，而且在语音、图像、自然语言处理方面相对于传统机器学习取得了较大的突破。
[0082] 深度学习的基本思想是假设我们有一个系统S，它有n层（Si，. . .，S。)，它的输入是I，输出是0,形象地表示为；/二Si二5*;^......二0,如果输出0等于输入I，即输入I经过该个系统变化之后没有任何的信息损失，保持了不变，该意味着输入I经过每一层Si都没有任何的信息损失，即在任何一层Si，它都有原有信息（即输入I)的另外一种表示。归根到底深度学习需要自动学习特征，假设我们有一堆输入I(如一堆图像或者文本），假设我们设计了一个系统S，我们通过调整系统中参数，使得它的输出仍然是输入，那么我们就可W自动地获取得到输入的一系列层次特征。
[0083] 根据构建的基本单词表，我们使用深度神经网络算法来训练模型，具体可选但不限于的模型如CNN(Convolutionneuralnetwork,卷积神经网络）等。我们将文本向量作为模型的输入，语音矢量作为我们的样本标签，训练之后产生一个分类模型。
[0084] 其中，如图3所示，图3为本申请实施例二提供的另一种构建分类模型的流程图。
[0085] 除上述所述的步骤之外，还可W包括：
[0086]S206;判断分类模型的性能。
[0087] 为了保证分类模型的性能好坏，还可W进一步判断训练出的分类模型的性能。具体的，如图4所示，图4为本申请实施例二提供的一种判断分类模型的性能的流程图，该方法包括：
[008引 S301 ;在分类模型中输入测试样本的文本W得到文本对应的语音矢量。
[0089] 其中，该测试样本可W为新获取的样本集，也可W为在构建分类模型时所收集的训练样本集的一部分，即训练样本集的一部分用于训练分类器，另一部分用于测试判断分类模型的性能好坏，具体的分配比可W为训练集：样本集=8:2或者7:3,具体不做限定，可 w根据实际情况进行设置。
[0090]S302;将语音矢量与测试样本的语音标签进行对比W得到语音矢量差。
[0091] S303 ;利用语音矢量差判断分类模型的性能。
[0092] 若矢量差越大则证明分类模块的性能不好，发音失真，若矢量差小甚至为零，则证明分类模块的性能优，能够基本保证真人朗读发音。
[0093] 由W上技术方案可知，本申请实施例二提供了另一种模拟真人朗读发音的方法，该方法使产生的声音更加自然，且能够W句子、段落作为基本单位来朗读整段文本，每一个词都有不同的发音、语气、停顿等独特性质，达到了真人发音的效果。
[0094] 实施例S
[0095]为实现实施例一所述的模拟真人朗读发音的方法，本申请实施例=提供了一种模拟真人朗读发音的系统。如图5所示，图5为本申请实施例=提供的一种模拟真人朗读发音的系统的结构示意图。该系统包括：构建单元401、输入单元402、拆分单元403、获取单元404W及转换单元405,其中，
[0096] 构建单元401，用于预先构建分类模型。
[0097] 其中，分类模型是构建单元401通过在网络上捜集的网络播音员的大量音频W及与其对应的文本进行预先构建的。该样，在输入待发音文本后，可W根据该分类模型找出适合的语音，进一步进行发音。
[009引输入单元402,用于在分类模型中输入待发音文本。
[0099] 拆分单元403,用于将待发音文本拆分为多个单词，并依次获取每个单词的文本向量。
[0100] 获取单元404,用于根据单词的文本向量获取单词对应的语音矢量。
[0101] 转换单元405,用于将语音矢量转换为音频并通过播放器进行播放。
[0102] 获取单元通过该分类模型获得与待发音文本相对应的语音后，再由转换单元将语音矢量转换为音频并通过播放器进行播放。由于分类模型是通过播音员发音音频及其文本训练而成的，当输入待发音文本后，分类模型可W调出与该带发音文本相对应的播音员发音，从而实现真人朗读发音

完整全部详细技术资料下载

当前第2页1 2 3