一种模拟真人朗读发音的方法及系统的制作方法

文档序号:8544681阅读:1422来源:国知局
一种模拟真人朗读发音的方法及系统的制作方法
【技术领域】
[0001] 本申请设及真人发音技术领域,尤其设及一种模拟真人朗读发音的方法及系统。
【背景技术】
[0002] 现在市面上有很多文字发音系统,比如灵格斯、文字转语音播音系统等,能够将一 段文字转化为语音。传统的文字发音技术用到TTSCTextToSpeech,语音合成)技术,TTS 就是一个将文本转化为语音输出的过程,该个过程的工作主要是将输出的文本按字或词分 解为音素,并且对文本中的数字、货币单位、单词变形W及标点等要特殊处理的符号进行分 析,W及将音素生成数字音频然后用扬声器播放出来或者存为声音文件W后用多媒体软件 播放。
[0003] 现在比较通用的TTS技术,是采用波形拼接的语音生成方法来实现,在合成时采 用恰当的技术手段挑选出所需的语音基本单元进行拼接,从而形成语音输出。该个技术前 提是建立一个庞大的语音数据库记录所有单词的读音,每个词语作为语音基本单元,发音 时将该些语音基本单元进行拼接,该样就导致发音不够自然,每个单词只有一种读音和发 音时间,发音死板不生动,读出来的内容语气感情色彩不够丰富,无法做到真人朗读发音。

【发明内容】

[0004] 有鉴于此,本申请提供了一种模拟真人朗读发音的方法及系统,W克服现有技术 中的文字发音系统发音死板不生动,语气感情色彩不够丰富,无法做到真人朗读发音的问 题。
[0005] 为实现上述目的,本申请提供了W下技术方案:
[0006] 一种模拟真人朗读发音的方法,包括:在预先构建的分类模型中输入待发音文 本;
[0007] 将所述待发音文本拆分为多个单词,并依次获取每个单词的文本向量;
[000引根据所述单词的文本向量获取所述单词对应的语音矢量;
[0009] 将所述语音矢量转换为音频并通过播放器进行播放。
[0010] 优选的,所述分类模型的构建方法包括:
[0011] 收集训练样本集;
[0012] 将所述训练样本集中的文本拆分为多个单词,并得到每个单词的向量表示;
[0013] 将所述文本对应的语音切分为与所述多个单词一一对应的语音单元,并得到每个 语音单元的矢量表示;
[0014] 根据所述单词的向量表示和所述语音单元的矢量表示构建基本单词表;
[0015] 利用深度学习模型训练所述基本单词表得到所述分类模型。
[0016] 优选的,将所述训练样本集中的文本拆分为多个单词,并得到每个单词的向量表 示,包括:
[0017] 通过word2vec技术将所述样本集中的文本拆分为多个单词,并得到每个单词的 向量表示。
[0018] 优选的,所述深度学习模型包括;卷积神经网络。
[0019] 优选的,还包括;判断所述分类模型的性能。
[0020] 优选的,所述判断所述分类模型的性能包括:
[0021] 在所述分类模型中输入测试样本的文本W得到所述文本对应的语音矢量;
[0022] 将所述语音矢量与所述测试样本的语音标签进行对比W得到语音矢量差;
[0023] 利用所述语音矢量差判断所述分类模型的性能。
[0024] 一种模拟真人朗读发音的系统,包括:
[00巧]构建单元,用于预先构建分类模型;
[0026] 输入单元,用于在所述分类模型中输入待发音文本;
[0027] 拆分单元,用于将所述待发音文本拆分为多个单词,并依次获取每个单词的文本 向量;
[002引获取单元,用于根据所述单词的文本向量获取所述单词对应的语音矢量;
[0029] 转换单元,用于将所述语音矢量转换为音频并通过播放器进行播放。
[0030] 优选的,所述构建单元包括:
[0031] 收集单元,用于收集训练样本集;
[0032]第一拆分单元,用于将所述训练样本集中的文本拆分为多个单词,并得到每个单 词的向量表示;
[0033] 第二拆分单元,用于将所述文本对应的语音切分为与所述多个单词一一对应的语 音单元,并得到每个语音单元的矢量表示;
[0034] 子构建单元,用于根据所述单词的向量表示和所述语音单元的矢量表示构建基本 单词表;
[0035] 训练单元,用于利用深度学习模型训练所述基本单词表得到所述分类模型。
[0036] 优选的,还包括:判断单元,用于判断所述分类模型的性能。
[0037] 优选的,所述判断单元包括:
[0038] 子输入单元,用于在所述分类模型中输入测试样本的文本W得到所述文本对应的 语音矢量;
[0039] 对比单元,用于将所述语音矢量与所述测试样本的语音标签进行对比W得到语音 矢量差;
[0040] 子判断单元,用于利用所述语音矢量差判断所述分类模型的性能。
[0041]由W上技术方案可知,本申请提供了一种模拟真人朗读发音的方法及系统,该方 法包括:在预先构建的分类模型中输入待发音文本;将所述待发音文本拆分为多个单词, 并依次获取每个单词的文本向量;根据所述单词的文本向量获取所述单词对应的语音矢 量;将所述语音矢量转换为音频并通过播放器进行播放。该方法通过预先构建的分类模型 将待发音文本拆分为多个单词,并依据获取的单词的文本向量得到其对应的语音矢量,输 出对应音频进行播放,该样产生的声音自然,能够W句子、段落作为基本单位来朗读整段文 本,每一个词都有不同的发音、语气、停顿等独特性质,达到了真人发音的效果。
【附图说明】
[0042] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据 提供的附图获得其他的附图。
[0043] 图1为本申请实施例一提供的一种模拟真人朗读发音的方法的流程图;
[0044] 图2为本申请实施例二提供的一种构建分类模型的流程图;
[0045] 图3为本申请实施例二提供的另一种构建分类模型的流程图;
[0046] 图4为本申请实施例二提供的一种判断分类模型的性能的流程图;
[0047] 图5为本申请实施例S提供的一种模拟真人朗读发音的系统的结构示意图;
[0048] 图6为本申请实施例四提供的一种构建单元的结构示意图;
[0049] 图7为本申请实施例四提供的另一种构建单元的结构示意图;
[0050] 图8为本申请实施例四提供的一种判断单元的结构示意图。
【具体实施方式】
[0化1] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0化2] 为克服现有技术中的文字发音系统发音死板不生动,语气感情色彩不够丰富,无 法做到真人朗读发音的问题,本申请提供了一种模拟真人朗读发音的方法及系统,具体方 案如下所述:
[005引实施例一
[0化4] 如图1所示,图1为本申请实施例一提供的一种模拟真人朗读发音的方法的流程 图。该方法包括:
[0化5] S101 ;在预先构建的分类模型中输入待发音文本。
[0056] 其中,分类模型是通过在网络上捜集的网络播音员的大量音频W及与其对应的文 本进行预先构建的。该样,在输入待发音文本后,可W根据该分类模型找出适合的语音,进 一步进行发音。
[0化7] S102 ;将待发音文本拆分为多个单词,并依次获取每个单词的文本向量。
[005引实际应用中,待发音文本可能为一句话或者一段话。当待发音文本为一句话时,直 接将该句话拆分为多个单词即可;当待发音文本为一段话时,首先需要将待发音文本W句 号、问号、感叹号等作为断句符号拆分为多个句子,然后再将每一个完整句子拆分为多个单 词。
[0059] S103 ;根据单词的文本向量获取单词对应的语音矢量。
[0060] S104 ;将语音矢量转换为音频并通过播放器进行播放。
[0061] 通过该分类模型获得与待发音文本相对应的语音后,通过播放器进行播放。由于 分类模型是通过播音员发音音频及其文本训练而成的,当输入待发音文本后,分类模型可 W调出与该带发音文本相对应的播音员发音,从而实现真人朗读发音。
[0062]由W上技术方案可知,本申请实施例一提供了一种模拟真人朗读发音的方法,包 括:在预先构建的分类模型中输入待发音文本;将所述待发音文本拆分为多个单词,并依 次获取每个单词的文本向量;根据所述单词的文本向量获取所述单词对应的语音矢量;将 所述语音矢量转
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1