语音合成方法和装置的制造方法

文档序号：9598796阅读：694来源：国知局

语音合成方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音合成技术领域，尤其涉及一种语音合成方法和装置。
【背景技术】
[0002]语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。
[0003]现有的语音合成系统中，输入文本通过文本预处理、分词等一系列处理后，进入韵律层级预测模块，然后利用声学模型，生成目标声学参数序列，并最终合成语音。在参数合成系统中，语音生成是通过声码器来实现的，由于这种语音生成方式，不需要利用原始声音片段进行拼接，可以做到比较小的尺寸，所以在嵌入式设备上得到了广泛应用。
[0004]近几年，神经网络技术快速发展，被应用到了越来越多的领域，其中包括语音识另I1、语音合成等。其中，长短期记忆(Long-Short Term Memory ;以下简称:LSTM)技术被成功地应用到了语音合成的声学建模当中，但是，基于LSTM的声学模型，在合成系统中用于声学参数预测时，其计算量，相比基于隐马尔可夫模型(Hidden Markov Model ;以下简称:HMM)的方案，也有比较明显的增长。
[0005]众所周知，嵌入式设备的计算能力差异很大。不但不同平台、不同厂家的设备之间差异很大，即便是同一个厂家，不同时期的产品，也有很大差异，而这些产品可能同时在不同的用户手中使用。
[0006]但是，对于现有的离线合成系统，其声学模型往往是固定的，不能自动针对不同的终端进行处理或者优化，从而导致相同的合成系统在不同终端上的运行效果差异很大，造成低端机上的语音合成不流畅，或者无法为高端机提供更好的语音合成服务。

【发明内容】

[0007]本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
[0008]为此，本发明的第一个目的在于提出一种语音合成方法。该方法可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。
[0009]本发明的第二个目的在于提出一种语音合成装置。
[0010]为了实现上述目的，本发明第一方面实施例的语音合成方法，包括:向服务器发送数据文件查询请求，所述数据文件查询请求携带终端设备的计算能力数据；接收所述服务器发送的适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少一个音色对应的声学模型；将所述声学模型列表显示给使用所述终端设备的用户，以供所述用户从所述声学模型列表中选择音色对应的声学模型；下载并保存所述用户选择的音色对应的声学模型；通过保存的声学模型进行语音合成。
[0011]本发明实施例的语音合成方法中，向服务器发送携带终端设备的计算能力数据的数据文件查询请求之后，接收上述服务器发送的适合上述终端设备的计算能力的声学模型列表，然后将上述声学模型列表显示给使用上述终端设备的用户，下载并保存上述用户选择的音色对应的声学模型，进而通过保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。
[0012]为了实现上述目的，本发明第二方面实施例的语音合成方法，包括:接收终端设备发送的数据文件查询请求，所述数据文件查询请求携带所述终端设备的计算能力数据；根据所述终端设备的计算能力数据确定适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少两个音色对应的声学模型；将所述声学模型列表发送给所述终端设备，以供所述终端设备下载并保存使用所述终端设备的用户从所述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成。
[0013]本发明实施例的语音合成方法中，接收终端设备发送的数据文件查询请求之后，根据上述终端设备的计算能力数据确定适合上述终端设备的计算能力的声学模型列表，然后将上述声学模型列表发送给终端设备，以供上述终端设备下载并保存使用上述终端设备的用户从上述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。
[0014]为了实现上述目的，本发明第三方面实施例的语音合成装置，包括:发送模块，用于向服务器发送数据文件查询请求，所述数据文件查询请求携带终端设备的计算能力数据；接收模块，用于接收所述服务器发送的适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少一个音色对应的声学模型；显示模块，用于将所述接收模块接收的声学模型列表显示给使用所述终端设备的用户，以供所述用户从所述声学模型列表中选择音色对应的声学模型；下载模块，用于下载所述用户选择的音色对应的声学模型；保存模块，用于保存所述下载模块下载的声学模型；语音合成模块，用于通过所述保存模块保存的声学模型进行语音合成。
[0015]本发明实施例的语音合成装置中，发送模块向服务器发送携带终端设备的计算能力数据的数据文件查询请求之后，接收模块接收上述服务器发送的适合上述终端设备的计算能力的声学模型列表，然后显示模块将上述声学模型列表显示给使用上述终端设备的用户，下载模块和保存模块下载并保存上述用户选择的音色对应的声学模型，进而通过保存模块保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。
[0016]为了实现上述目的，本发明第四方面实施例的语音合成装置，包括:接收模块，用于接收终端设备发送的数据文件查询请求，所述数据文件查询请求携带所述终端设备的计算能力数据；确定模块，用于根据所述终端设备的计算能力数据确定适合所述终端设备的计算能力的声学模型列表，所述声学模型列表中包括至少两个音色对应的声学模型；发送模块，用于将所述确定模块确定的声学模型列表发送给所述终端设备，以供所述终端设备下载并保存使用所述终端设备的用户从所述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成。
[0017]本发明实施例的语音合成装置中，接收模块接收终端设备发送的数据文件查询请求之后，确定模块根据上述终端设备的计算能力数据确定适合上述终端设备的计算能力的声学模型列表，然后发送模块将上述声学模型列表发送给终端设备，以供上述终端设备下载并保存使用上述终端设备的用户从上述声学模型列表中选择的音色对应的声学模型，并通过保存的声学模型进行语音合成，从而可以使得语音合成在不同计算能力的终端设备上，都有很好地表现，在计算能力较差的设备上，可以流畅地进行语音合成，不影响用户接收语音中所包含的信息；在计算能力较好的设备上，可以合成出更加自然的语音，改善用户的人机交互体验。
[0018]本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【附图说明】
[0019]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中:
[0020]图1为本发明语音合成方法一个实施例的流程图；
[0021]图2为本发明语音合成方法另一个实施例的流程图；
[0022]图3为本发明语音合成方法再一个实施例的流

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李秀林;唐海员;李维高;白洁;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人