语音合成系统和方法

文档序号：10571082阅读：356来源：国知局

语音合成系统和方法
【专利摘要】本发明提供一种语音合成系统和方法，所述方法包括：采集若干项合成素材信息，并分别对各项所述合成素材信息进行预处理以提取合成特征信息；其中，所述合成素材信息包括文本信息，以及语音信息和图像信息中的至少一类信息；通过预测模型对各项所述合成特征信息进行预测，以生成声学参数信息；根据所述声学参数信息生成语音合成结果信息。本发明提供的语音合成系统和方法通过分别采集文本信息，以及语音信息和图像信息中的至少一类信息，以提取各项合成特征信息，并通过预测模型进行预测，最终生成语音，通过语音信息和/或图像信息所提取的特征信息预测用户的情感或语境，实现了合成表达用户情感或语境的个性化语音。
【专利说明】
语音合成系统和方法
技术领域
[0001 ]本申请涉及语音合成技术领域，具体涉及一种语音合成系统和方法。
【背景技术】
[0002]现有的文本转换语音(TextTo Speech，简称TTS)的语音合成解决方案主要有两类，一类是拼接系统，另外一类是参数生成系统。两类系统的相同之处在于都需要进行文本分析，不同之处在于拼接系统利用大量录制的片段语音，结合文本分析结果，将录音片段进行拼接得到合成语音;而参数生成系统利用文本分析的结果，通过模型产生语音的参数，如基频等，进而转化成波形。
[0003]现有系统的模型训练建模，只采用了文本的特征，或者离线声音的特征，预测时只使用了文本的特征，而没有考虑用户的表情、周围环境以及用户在不同情感状态下使用不同语境表达的语音等信息。因此现有系统由于上述无法观察周围环境和用户的状态的缺陷，导致所生成的语音不够自然，且缺乏情感，对于在不同语境下的同样文本，每次生成的都是同样的语音。

【发明内容】

[0004]鉴于现有技术中的上述缺陷或不足，期望提供一种通过结合文本和图像、语音，合成表达用户情感或语境的个性化语音的语音合成系统和方法。
[0005]第一方面，本发明提供一种语音合成系统，所述系统包括:
[0006]特征提取单元，用于采集若干项合成素材信息，并分别对各项所述合成素材信息进行预处理以提取合成特征信息;其中，所述合成素材信息包括文本信息，以及语音信息和图像信息中的至少一类信息；
[0007]预测单元，用于通过预测模型对各项所述合成特征信息进行预测，以生成声学参数信息；
[0008]合成单元，用于根据所述声学参数信息生成语音合成结果信息。
[0009]第二方面，本发明提供一种语音合成方法，所述方法包括:
[0010]采集若干项合成素材信息，并分别对各项所述合成素材信息进行预处理以提取合成特征信息;其中，所述合成素材信息包括文本信息，以及语音信息和图像信息中的至少一类信息；
[0011 ]通过预测模型对各项所述合成特征信息进行预测，以生成声学参数信息；
[0012]根据所述声学参数信息生成语音合成结果信息。
[0013]本发明诸多实施例提供的语音合成系统和方法通过分别采集文本信息，以及语音信息和图像信息中的至少一类信息，以提取各项合成特征信息，并通过预测模型进行预测，最终生成语音，通过语音信息和/或图像信息所提取的特征信息预测用户的情感或语境，实现了合成表达用户情感或语境的个性化语音；
[0014]本发明一些实施例提供的语音合成系统和方法进一步通过采集文本信息，以及语音信息和图像信息中的至少一类信息，以提取各项训练特征信息，训练预测模型，扩展了预测模型的匹配类型，提升了预测的精准度。
【附图说明】
[0015]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显:
[0016]图1为本发明一实施例中语音合成系统的结构示意图。
[0017]图2为本发明一实施例中语音合成方法的流程图。
[0018]图3为本发明一优选实施例中语音合成系统的结构示意图。
[0019]图4为本发明一优选实施例中语音合成方法的流程图。
[0020]图5为本发明一优选实施例中语音合成系统的结构示意图。
【具体实施方式】
[0021]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。
[0022]需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0023]图1为本发明一实施例中语音合成系统的结构示意图。
[0024]如图1所示，在本实施例中，本发明提供的语音合成系统包括特征提取单元10、预测单元30和合成单元50。
[0025]特征提取单元10用于采集若干项合成素材信息，并分别对各项所述合成素材信息进行预处理以提取合成特征信息。
[0026]预测单元30用于通过预测模型对各项所述合成特征信息进行预测，以生成声学参数信息。
[0027]合成单元50用于根据所述声学参数信息生成语音合成结果信息。
[0028]在一些实施例中，所述合成素材信息包括文本信息和语音信息；在另一些实施例中，所述合成素材信息包括文本信息和图像信息;在其它一些实施例中，所述合成素材信息同时包括文本信息、语音信息和图像信息。
[0029]在本实施例中，预测单元30存储有训练好的预测模型;在一些实施例中，可进一步通过无线通信等方式接收更新的预测模型。
[0030]在本实施例中，合成单元50为声码器，所述声学参数信息包括基频和共振峰频率。在更多实施例中，合成单元50可根据实际需求采用不同的声音合成设备，所述声学参数信息可采用与之对应的声学参数。
[0031]在一些实施例中，所述预测模型为逻辑回归模型;在另一些实施例中，所述预测模型为深度神经网络模型。
[0032]图2为本发明一实施例中语音合成方法的流程图。图2所示的语音合成方法可应用于图1所示的语音合成系统中。
[0033]如图2所示，在本实施例中，本发明提供的语音合成方法包括:
[0034]S30:采集若干项合成素材信息，并分别对各项所述合成素材信息进行预处理以提取合成特征信息。其中，所述合成素材信息包括文本信息，以及语音信息和图像信息中的至少一类信息。
[0035]S50:通过预测模型对各项所述合成特征信息进行预测，以生成声学参数信息。
[0036]S70:根据所述声学参数信息生成语音合成结果信息。
[0037]具体地，通过预测模型对基于语音信息和/或图像信息所提取的合成特征信息进行预测，实现对用户的情感和语境进行判断，从而生成对应的声学参数信息。例如，对于文本信息“请把门关上”，现有的语音合成系统通常只会生成一句平淡的、不带情感和语气的语音;而在本实施例中，通过语音信息提取出对应于轻柔语气的合成特征信息，或通过图像信息提取出对应于生气表情的合成特征信息，再通过预测模型对合成特征信息进行预测，生成对应轻柔语气或激动语气的声学参数信息，最后生成与用户的语气或表情对应的、能表达用户情感或语境的语音合成结果信息。
[0038]上述实施例提供的语音合成系统和方法通过分别采集文本信息，以及语音信息和图像信息中的至少一类信息，以提取各项合成特征信息，并通过预测模型进行预测，最终生成语音，通过语音信息和/或图像信息所提取的特征信息预测用户的情感或语境，实现了合成表达用户情感或语境的个性化语音。
[0039]图3为本发明一优选实施例中语音合成系统的结构示意图。
[0040]如图3所示，在一优选实施例中，所述系统还包括模型训练单元20。特征提取单元10还用于采集若干项训练素材信息，并分别对各项所述训练素材信息进行预处理以提取训练特征信息。模型训练单元20用于根据各项所述训练特征信息训练预测模型。
[0041]与所述合成素材信息相似地，在一些实施例中，所述训练素材信息包括文本信息和语音信息;在另一些实施例中，所述训练素材信息包括文本信息和图像信息;在其它一些实施例中，所述训练素材信息同时包括文本信息、语音信息和图像信息。
[0042]具体地，在本实施例中，通过模型训练单元20可以训练新的预测模型，也可对预测单元30预存的训练模型进行进一步的训练以提高预测的准确率。
[0043]图4为本发明一优选实施例中语音合成方法的流程图。图4所示的语音合成方法可以应用于图3所示的语音合成系统中。
[0044]如图4所示，在一优选实施例中，步骤S30之前还包括:
[0045]S10:采集若干项训练素材信息，并分别对各项所述训练素材信息进行预处理以提取训练特征信息。其中，所述训练素材信息包括文本信息，以及语音信息和图像信息中的至少一类信息。
[0046]S20:根据各项所述训练特征信息训练预测模型。
[0047]上述实施例提供的语音合成系统和方法进一步通过采集文本信息，以及语音信息和图像信息中的至少一类信息，以提取各项训练特征信息，训练预测模型，扩展了预测模型的匹配类型，提升了预测的精准度。
[0048]图5为本发明一优选实施例中语音合成系统的结构示意图。
[0049]如图5所示，在一优选实施例中，特征提取单元10包括:
[0050]文本特征提取子单元101，用于采集第一文本信息，并对所述第一文本信息进行预处理，以提取用于预测的第一文本特征信息；[0051 ] 同时还包括以下至少一项:
[0052]语音特征提取子单元103，用于采集第一语音信息，并对所述第一语音信息进行预处理，以提取用于预测采集环境和用户语境的第一语音特征信息；
[0053]图像特征提取子单元105，用于采集第一图像信息，并对所述第一图像信息进行预处理，以提取用于预测用户表情的第一图像特征信息。
[0054]具体地，第一语音特征信息除了用于预测用户语境之外，还可预测采集环境的嘈杂程度等特征，以进一步提高预测的准确率。
[0055]在一对应的优选实施例中，步骤S30包括:
[0056]S301:采集第一文本信息，并对所述第一文本信息进行预处理，以提取用于预测的第一文本特征信息；
[0057]同时还包括以下至少一项:
[0058]S302:采集第一语音信息，并对所述第一语音信息进行预处理，以提取用于预测采集环境和用户语境的第一语音特征信息；
[0059]S303:采集第一图像信息，并对所述第一图像信息进行预处理，以提取用于预测用户表情的第一图像特征信息。
[0060]在一优选实施例中，所述对所述第一文本信息进行预处理包括对所述第一文本信息进行文本归一化处理和韵律预测。
[0061]所述对所述第一语音信息进行预处理包括对所述第一语音信息进行梅尔频率倒谱系数(简称mfcc)特征提取和数字化处理。
[0062]所述对所述第一图像信息进行预处理包括对所述第一图像信息进行人脸识别，并提取相关的颜色、纹理、形状和空间关系特征。
[0063]在一优选实施例中，文本特征提取子单元101还用于采集第二文本信息，并对所述第二文本信息进行预处理，以提取用于训练预测模型的第二文本特征信息。
[0064]语音特征提取子单元103还用于采集第二语音信息，并对所述第二语音信息进行预处理，以提取用于训练预测模型的第二语音特征信息。
[0065]图像特征提取子单元105还用于采集第二图像信息，并对所述第二图像信息进行预处理，以提取用于训练预测模型的第二图像特征信息。
[0066]在一对应的优选实施例中，步骤SlO包括:
[0067]SlOl:采集第二文本信息，并对所述第二文本信息进行预处理，以提取用于训练预测模型的第二文本特征信息；
[0068]同时还包括以下至少一项:
[0069]S103:采集第二语音信息，并对所述第二语音信息进行预处理，以提取用于训练预测模型的第二语音特征信息；
[0070]S105:采集第二图像信息，并对所述第二图像信息进行预处理，以提取用于训练预测模型的第二图像特征信息。
[0071]在一些实施例中，所述预测模型为逻辑回归模型;在另一些实施例中，所述预测模型为深度神经网络模型。
[0072]附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以通过执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以通过专用硬件与计算机指令的组合来实现。
[0073]描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，预测单元30可以是设置在计算机或智能设备中的软件程序;也可以是单独进行预测的硬件装置。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定，例如，预测单元30还可以被描述为“用于将特征信息与模型进行匹配打分以生成参数的比较单元”。
[0074]作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本申请的公式输入方法。
[0075]以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
【主权项】
1.一种语音合成系统，其特征在于，所述系统包括: 特征提取单元，用于采集若干项合成素材信息，并分别对各项所述合成素材信息进行预处理以提取合成特征信息;其中，所述合成素材信息包括文本信息，以及语音信息和图像信息中的至少一类信息；预测单元，用于通过预测模型对各项所述合成特征信息进行预测，以生成声学参数信息; 合成单元，用于根据所述声学参数信息生成语音合成结果信息。2.根据权利要求1所述的语音合成系统，其特征在于，所述特征提取单元还用于采集若干项训练素材信息，并分别对各项所述训练素材信息进行预处理以提取训练特征信息；其中，所述训练素材信息包括文本信息，以及语音信息和图像信息中的至少一类信息；所述系统还包括: 模型训练单元，用于根据各项所述训练特征信息训练预测模型。3.根据权利要求1或2所述的语音合成系统，其特征在于，所述特征提取单元包括: 文本特征提取子单元，用于采集第一文本信息，并对所述第一文本信息进行预处理，以提取用于预测的第一文本特征信息；同时还包括以下至少一项: 语音特征提取子单元，用于采集第一语音信息，并对所述第一语音信息进行预处理，以提取用于预测采集环境和用户语境的第一语音特征信息；图像特征提取子单元，用于采集第一图像信息，并对所述第一图像信息进行预处理，以提取用于预测用户表情的第一图像特征信息。4.根据权利要求3所述的语音合成系统，其特征在于，所述对所述第一文本信息进行预处理包括对所述第一文本信息进行文本归一化处理和韵律预测；所述对所述第一语音信息进行预处理包括对所述第一语音信息进行梅尔频率倒谱系数(简称mfcc)特征提取和数字化处理；所述对所述第一图像信息进行预处理包括对所述第一图像信息进行人脸识别，并提取相关的颜色、纹理、形状和空间关系特征。5.根据权利要求3所述的语音合成系统，其特征在于，所述文本特征提取子单元还用于采集第二文本信息，并对所述第二文本信息进行预处理，以提取用于训练预测模型的第二文本特征信息；所述语音特征提取子单元还用于采集第二语音信息，并对所述第二语音信息进行预处理，以提取用于训练预测模型的第二语音特征信息；所述图像特征提取子单元还用于采集第二图像信息，并对所述第二图像信息进行预处理，以提取用于训练预测模型的第二图像特征信息。6.根据权利要求1所述的语音合成系统，其特征在于，所述预测模型为逻辑回归模型或深度神经网络模型。7.一种语音合成方法，其特征在于，所述方法包括: 采集若干项合成素材信息，并分别对各项所述合成素材信息进行预处理以提取合成特征信息;其中，所述合成素材信息包括文本信息，以及语音信息和图像信息中的至少一类信息; 通过预测模型对各项所述合成特征信息进行预测，以生成声学参数信息；根据所述声学参数信息生成语音合成结果信息。8.根据权利要求7所述的语音合成方法，其特征在于，所述采集若干项合成素材信息，并分别对各项所述合成素材信息进行预处理以提取合成特征信息之前还包括: 采集若干项训练素材信息，并分别对各项所述训练素材信息进行预处理以提取训练特征信息;其中，所述训练素材信息包括文本信息，以及语音信息和图像信息中的至少一类信息; 根据各项所述训练特征信息训练预测模型。9.根据权利要求7或8所述的语音合成方法，其特征在于，所述采集若干项合成素材信息，并分别对各项所述合成素材信息进行预处理以提取合成特征信息包括: 采集第一文本信息，并对所述第一文本信息进行预处理，以提取用于预测的第一文本特征信息；同时还包括以下至少一项: 采集第一语音信息，并对所述第一语音信息进行预处理，以提取用于预测采集环境和用户语境的第一语音特征信息；采集第一图像信息，并对所述第一图像信息进行预处理，以提取用于预测用户表情的第一图像特征信息。10.根据权利要求9所述的语音合成方法，其特征在于，所述对所述第一文本信息进行预处理包括对所述第一文本信息进行文本归一化处理和韵律预测；所述对所述第一语音信息进行预处理包括对所述第一语音信息进行梅尔频率倒谱系数(简称mfcc)特征提取和数字化处理；所述对所述第一图像信息进行预处理包括对所述第一图像信息进行人脸识别，并提取相关的颜色、纹理、形状和空间关系特征。11.根据权利要求8所述的语音合成方法，其特征在于，所述采集若干项训练素材信息，并分别对各项所述训练素材信息进行预处理以提取训练特征信息包括: 采集第二文本信息，并对所述第二文本信息进行预处理，以提取用于训练预测模型的第二文本特征信息；同时还包括以下至少一项: 采集第二语音信息，并对所述第二语音信息进行预处理，以提取用于训练预测模型的第二语音特征信息；采集第二图像信息，并对所述第二图像信息进行预处理，以提取用于训练预测模型的第二图像特征信息。12.根据权利要求7所述的语音合成方法，其特征在于，所述预测模型为逻辑回归模型或深度神经网络模型。
【文档编号】G10L13/08GK105931631SQ201610236400
【公开日】2016年9月7日
【申请日】2016年4月15日
【发明人】曹立新
【申请人】北京地平线机器人技术研发有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹立新;
技术所有人：北京地平线机器人技术研发有限公司;
我是此专利的发明人

上一篇：口考作弊检测方法和装置的制造方法
上一篇：一种提高金属纤维毡低频吸声性能的复合吸声结构的制作方法