一种语音合成方法和语音合成系统的制作方法

文档序号：2829109阅读：538来源：国知局

专利名称：一种语音合成方法和语音合成系统的制作方法
技术领域：
本发明涉及语音信号处理及语音合成技术领域，尤其是涉及一种语音合成方法和语音合成系统。
背景技术：
目前，在文本受限领域(如银行的电话客服系统，机场航班播报等)中，合成文本往往具有相对固定模式，合成文本通常由固定不变成分(即固定成分文本)及可变参数成分(即可变成分文本)构成。对此在现有技术中，系统可以将固定成分文本通过预先录制自然语音的方式获取部分语音片断，对可变成分文本执行语音合成得到另一语音片断，并将所述两段语音片断信号拼接获取到最后的连续语音信号。这样的方法虽然实现简单且保持了自然语音部分的自然流畅性，然而在实际应用中依然存在以下问题自然语音段和基于文本合成的语音段之间的衔接自然度难以保证；另外，由于获取方式的不同，自然语音的语音段和基于文本合成的语音段在音质上也难以保持一致。

发明内容
本发明实施例提供了一种语音合成方法和语音合成系统，用于提高语音的合成音质和自然度。有鉴于此，本发明第一方面提供一种语音合成方法，可包括获取合成文本；将所述合成文本划分为固定成分文本和可变成分文本；对所述固定成分文本进行分析，确定所述固定成分文本中各基本合成单元的合成时长参数，得到所述固定成分文本的合成时长参数序列；以及对所述可变成分文本进行分析，确定所述可变成分文本中各基本合成单元的合成时长参数，得到所述可变成分文本的合成时长参数序列；根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成基频参数序列；以及根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成频谱参数序列；根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列，生成连续语音信号。在某些实施方式中，所述将所述合成文本划分为固定成分文本和可变成分文本具体包括采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合；将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较，若所述分词或分词组合与所述韵律词标注信息一致，则确定出所述分词或分词组合为固定成分文本，若否，则确定出所述分词或分词组合为可变成分文本。在某些实施方式中，所述对所述固定成分文本进行分析，确定所述固定成分文本中各基本合成单元的合成时长参数，得到所述固定成分文本的合成时长参数序列，包括从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元的时长参数Ti ；从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列{/ )};基于公式
权利要求
1.一种语音合成方法，其特征在于，包括获取合成文本；将所述合成文本划分为固定成分文本和可变成分文本；对所述固定成分文本进行分析，确定所述固定成分文本中各基本合成单元的合成时长参数，得到所述固定成分文本的合成时长参数序列；以及对所述可变成分文本进行分析，确定所述可变成分文本中各基本合成单元的合成时长参数，得到所述可变成分文本的合成时长参数序列；根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成基频参数序列；以及根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成频谱参数序列；根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列，生成连续语音信号。
2.根据权利要求1所述的方法，其特征在于，所述将所述合成文本划分为固定成分文本和可变成分文本具体包括采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合；将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较，若所述分词或分词组合与所述韵律词标注信息一致，则确定出所述分词或分词组合为固定成分文本，若否，则确定出所述分词或分词组合为可变成分文本。
3.根据权利要求2所述的方法，其特征在于，所述对所述固定成分文本进行分析，确定所述固定成分文本中各基本合成单元的合成时长参数，得到所述固定成分文本的合成时长参数序列，包括从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元的时长参数Ti ；从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列&(<)}; 基于公式
4.根据权利要求2或3所述的方法，其特征在于，所述对所述可变成分文本进行分析，确定所述可变成分文本的各基本合成单元的合成时长参数，得到所述可变成分文本的合成时长参数序列，包括从所述预置模板库中获取所述可变成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列)}；基于公式
5.根据权利要求4所述的方法，其特征在于，根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成基频参数序列，包括从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的基频模型_p(c/); 对所述各基本合成单元的基频模型#(./ ).根据其所对应合成时长参数&重复相应次数，获取所述基本合成单元的基频模型序列；根据合成文本的基本语音单元序列，拼接各基本语音单元对应的所述基本合成单元的基频t吴型序列，获取所述合成文本的基频t吴型序列；从所述预置模板库中获取所述固定成分文本所对应的自然语音段的基频参数序列Ygf; 基于公式
6.根据权利要求4所述的方法，其特征在于，根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成频谱参数序列，包括从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的频谱模型Mc/)；对所述各基本合成单元的频谱模型根据其所对应合成时长参数g重复相应次数，获取所述基本合成单元的频谱模型序列；根据合成文本的基本语音单元序列，拼接各基本语音单元对应的所述基本合成单元的频谱模型序列，获取所述合成文本的频谱模型序列；从所述预置模板库中获取所述固定成分文本所对应的自然语音段的频谱参数序列Ygs; 基于公式
7.—种语音合成系统,其特征在于,包括获取模块，用于获取合成文本；文本划分模块，用于将所述合成文本划分为固定成分文本和可变成分文本；时长参数获取模块，用于对所述固定成分文本进行分析，确定所述固定成分文本中各基本合成单元的合成时长参数，得到所述固定成分文本的合成时长参数序列；以及对所述可变成分文本进行分析，确定所述可变成分文本中各基本合成单元的合成时长参数，得到所述可变成分文本的合成时长参数序列；基频参数获取模块，用于根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成基频参数序列；频谱参数获取模块，用于根据所述固定成分文本的合成时长参数序列及可变成分文本的合成时长参数序列，确定所述合成文本的合成频谱参数序列；语音信号生成模块，用于根据所述固定成分文本的合成时长参数序列、所述可变成分文本的合成时长参数序列、所述合成基频参数序列和所述合成频谱参数序列，生成连续语音信号。
8.根据权利要求7所述的系统，其特征在于，所述文本划分模块，具体用于采用前后向最大分词算法对所述合成文本进行字词划分并得到分词或分词组合；将所述分词或分词组合与预置模板库中的韵律词标注信息进行比较，若所述分词或分词组合与所述韵律词标注信息一致，则确定出所述分词或分词组合为固定成分文本，若否，则确定出所述分词或分词组合为可变成分文本。
9.根据权利要求8所述的系统，其特征在于，所述时长参数获取模块具体用于从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元的时长参数Ti ；从所述预置模板库中获取所述固定成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列IMi//)}; 基于公式
10.根据权利要求8或9所述的系统，其特征在于，所述时长参数获取模块还用于从所述预置模板库中获取所述可变成分文本对应自然语音段中各基本语音单元所对应的基本合成单元序列的合成时长参数模型序列{MO};基于公式K
11.根据权利要求10所述的系统，其特征在于，所述基频参数获取模块具体用于从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的基频模型); 对所述各基本合成单元的基频模型卜根据其所对应合成时长参数i重复相应次数，获取所述基本合成单元的基频模型序列；根据合成文本的基本语音单元序列，拼接各基本语音单元对应的所述基本合成单元的基频t吴型序列，获取所述合成文本的基频t吴型序列；从所述预置模板库中获取所述固定成分文本所对应的自然语音段的基频参数序列Ygf; 基于公式
12.根据权利要求10所述的系统，其特征在于，所述频谱参数获取模块具体用于从所述预置模板库中获取所述固定成分文本及可变成分文本的基本语音单元的各基本合成单元的频谱模型>y(c/)；对所述各基本合成单元的频谱模型根据其所对应合成时长参数g重复相应次数，获取所述基本合成单元的频谱模型序列；根据合成文本的基本语音单元序列，拼接各基本语音单元对应的所述基本合成单元的频谱模型序列，获取所述合成文本的频谱模型序列；从所述预置模板库中获取所述固定成分文本所对应的自然语音段的频谱参数序列Ygs; 基于公式
全文摘要
本发明的实施例公开了一种语音合成方法和语音合成系统，用于提高语音的合成音质和自然度。该方法包括将获取的合成文本划分为固定成分文本和可变成分文本；对固定成分文本进行分析，确定固定成分文本中各基本合成单元的合成时长参数，得到固定成分文本的合成时长参数序列；对可变成分文本进行分析，确定可变成分文本中各基本合成单元的合成时长参数，得到可变成分文本的合成时长参数序列；根据固定成分文本及可变成分文本的合成时长参数序列，确定合成文本的合成基频参数序列及确定合成文本的合成频谱参数序列；根据固定成分文本及可变成分文本的合成时长参数序列、合成基频参数序列和合成频谱参数序列，生成连续语音信号。
文档编号G10L13/06GK103065619SQ201210575160
公开日2013年4月24日申请日期2012年12月26日优先权日2012年12月26日
发明者孙见青, 凌震华, 何婷婷, 胡国平, 胡郁, 刘庆峰申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙见青;凌震华;何婷婷;胡国平;胡郁;刘庆峰
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人

上一篇：一种基于软件实现的音乐内容截幅检测方法
上一篇：一种自动识别音乐旋律调号的方法