一种建立语音转换模型的方法、语音转换的方法及系统的制作方法

文档序号:2819007阅读:379来源:国知局
专利名称:一种建立语音转换模型的方法、语音转换的方法及系统的制作方法
技术领域
本发明涉及利用计算机实现不同语音转换的技术,特别涉及一种建立语音转换模 型的方法以及实现第一语言与第二语言之间语音转换的方法及系统。
背景技术
目前,从中国普通话到方言之间的转换有两种实现方式。第一种常用的转换方式 是完全的人工转换,这就是说,如果想把普通话语音转换成相应的方言语音,需要知道普通 话语音的内容,再将用方言读出的所述语音内容的每个句子录制下来。由于普通话语音内 容的多少是没有限制的,这就导致转换工作既费时又费力。
第二种是利用计算机的语音合成技术来实现,典型的如申请号为200610038587. O 的中国专利申请就公开了一种在方言语音合成系统中进行文本方言化处理的方法。该方法 首先建立普通话与目标方言之间的同意翻译的方言化规则,然后根据该规则,将输入方言 语音合成系统的普通话文本转换为方言文本,再将方言文本输入到语音合成模块,由语音 合成模块将方言文本转换为方言语音输出。该方法在刚开始方言化规则建立阶段,需要对 所有的方言和普通话建立标注句库,这等于新建了一个文本语音系统,因此也很费时。
虽然,第二种实现方式比第一种实现方式提高了适应性,能够将任意的普通话文 本转换为方言语音,但是,第二种方式一个明显的问题就是由语音合成系统转换的方言语 音是固定的音质,再有就是只能将普通话文本转换为方言语音,而不能实现普通话语音与 方言语音之间的实时转换。发明内容
有鉴于此,本发明提供了一种建立语言转换模型的方法以及实现第一语言与第二 语言之间的语音转换方法及系统,应用该方法及系统能够实现第一语言语音与第二语言语 音之间的实时转换,且能够基本保持输入语音和经转换后输出语音音质的一致性。
本发明的实施例提供的建立语言转换模型的方法包括建立存储第一语言语音和 针对同一文本的第二语言语音的语音数据库;对语音数据库中存储的第一语言语音进行语 音切分得到第一语言音节,并对针对同一文本的第二语言语音进行语音切分得到第二语言 音节;记录通过语音切分得到的各个第一语言音节和各个第二语言音节的音节时长参数; 分别提取通过语音切分得到的各个第一语言音节和各个第二语言音节的基频参数;以及根 据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第 二语言之间的语音转换模型。
上述根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建 立第一语言和第二语言之间的语音转换模型包括根据各个第一语言音节和各个第二语言 音节的基频参数,建立第一语言和第二语言之间的基频转换模型;以及分别统计第一语言 音节以及第二语言音节的音节时长参数,并根据音节时长参数的统计结果建立第一语言和 第二语言之间的时长转换模型。
上述基频参数包括每个音节内所有基频点的基频值、基频开始位置以及基频峰值点信息;其中,建立第一语言和第二语言之间的基频转换模型包括分别根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数,其中,基频曲线特征参数包括基频的均值特征参数、基频开始位置以及四个调型特征参数,其中,所述四个调型特征参数为用三次多项式Ax3+Bx2+Cx+D = y拟合第一语言音节或第二语言音节的基频曲线获得的三次多项式的四个系数;应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类,得到至少一个第一基频曲线类别;分别根据各个第二语言音节的基频参数确定各个第二语言音节的基频曲线特征参数,应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类,得到至少一个第二基频曲线类别;其中,第一基频曲线类别和第二基频曲线类别一一对应;针对每一对一一对应的第一基频曲线类别和第二基频曲线类别,建立属于该第一基频曲线类别的第一语言音节的基频曲线特征参数与属于该第二基频曲线类别的第二语言音节的基频曲线特征参数之间的对应关系。
特别地,应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类包括为各个第一语音音节的基频曲线特征参数设置相同或不同的权重,并应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类;以及应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类包括为各个第二语音音节的基频曲线特征参数设置相同或不同的权重,并应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类。
上述音节时长参数包括每个音节的音节时长、每个音节的韵律位置特征参数以及该音节各个该韵律位置下的声调值;其中,所述韵律位置特征参数表示该音节在句中的位置,包括句首韵律词、句尾韵律词、句中非韵律短语边界或句中韵律短语边界;此时,建立第一语言和第二语言之间的时长转换模型包括统计出各个第一语言音节和各个第二语言音节在各个韵律位置、各声调下的平均音节时长;对平均音节时长进行归一化处理后,再求出各个韵律位置同声调下第二语言音节与第一语言音节的平均音节时长的比值,得到如下公式所示的时长变换系数矩阵
权利要求
1.一种建立语音转换模型的方法,所述方法包括 建立存储第一语言语音和针对同一文本的第二语言语音的语音数据库; 对所述语音数据库中存储的第一语言语音进行语音切分得到第一语言音节,并对针对同一文本的第二语言语音进行语音切分得到第二语言音节; 记录通过语音切分得到的各个第一语言音节和各个第二语言音节的音节时长参数; 分别提取通过语音切分得到的各个第一语言音节和各个第二语言音节的基频参数;以及 根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第二语言之间的语音转换模型。
2.根据权利要求1所述的方法,其中,所述根据各个第一语言音节和各个第二语言音节的音节时长参数和基频参数建立第一语言和第二语言之间的语音转换模型,包括 根据各个第一语言音节和各个第二语言音节的基频参数,建立第一语言和第二语言之间的基频转换1 型;以及 分别统计第一语言音节以及第二语言音节的音节时长参数,并根据所述音节时长参数的统计结果建立第一语言和第二语言之间的时长转换模型。
3.根据权利要求2所述的方法,其中, 所述基频参数包括每个音节内所有基频点的基频值、基频开始位置以及基频峰值点信息; 所述建立第一语言和第二语言之间的基频转换模型包括 分别根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数,其中,所述基频曲线特征参数包括基频的均值特征参数、基频开始位置以及四个调型特征参数;其中,所述四个调型特征参数为用三次多项式Ax3+Bx2+Cx+D = y拟合第一语言音节或第二语言音节的基频曲线获得的三次多项式的四个系数(A、B、C、D); 应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类,得到至少一个第一基频曲线类别; 分别根据各个第二语言音节的基频参数确定各个第二语言音节的基频曲线特征参数,应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类,得到至少一个第二基频曲线类别;其中,所述第一基频曲线类别和所述第二基频曲线类别--对应; 针对每一对一一对应的第一基频曲线类别和第二基频曲线类别,建立属于该第一基频曲线类别的第一语言音节的基频曲线特征参数与属于该第二基频曲线类别的第二语言音节的基频曲线特征参数之间的对应关系。
4.根据权利要求3所述的方法,其中,所述应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类包括为各个第一语音音节的基频曲线特征参数设置相同或不同的权重,并应用各个第一语言音节的基频曲线特征参数对各个第一语言音节对应的基频曲线进行聚类;以及 所述应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类包括为各个第二语音音节的基频曲线特征参数设置相同或不同的权重,并应用各个第二语言音节的基频曲线特征参数对各个第二语言音节对应的基频曲线进行聚类。
5.根据权利要求2所述的方法,其中,所述音节时长参数包括每个音节的音节时长、每个音节的韵律位置特征参数以及该音节各个该韵律位置下的声调值;其中,所述韵律位置特征参数表示该音节在句中的位置,包括句首韵律词、句尾韵律词、句中非韵律短语边界或句中韵律短语边界; 所述建立第一语言和第二语言之间的时长转换模型包括 统计出各个第一语言音节和各个第二语言音节在各个韵律位置、各声调下的平均音节时长; 对平均音节时长进行归一化处理后,再求出各个韵律位置同声调下第二语言音节与第一语言音节的平均音节时长的比值,得到如下公式所示的时长变换系数矩阵
6.根据权利要求1所述的方法,其中,该方法进一步包括通过个性化语音训练过程建立个性化语音数据库,其中,所述个性化语音数据库存储第二语言的特殊词汇的语音波形。
7.一种语音转换方法,该方法包括 对待转换的第一语言语音进行语音切分得到至少一个第一语言音节,并记录通过语音切分得到的各个第一语言音节的音节时长参数; 提取通过语音切分得到的各个第一语言音节的基频参数; 按照根据权利要求1至6中任一项所建立的第一语言和第二语言之间的语音转换模型,根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长; 对应各个第二语言音节,用其基频参数和音节时长调整所对应第一语言音节的语音波形,获得各个第二语言音节的语音波形,并输出所获得的各个第二语言音节的语音波形。
8.根据权利要求7所述的方法,其中,所述根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长包括 按照第一语言和第二语言之间的基频转换模型,根据各个第一语言音节的基频参数确定所对应各个第二语言音节的基频参数;以及 按照第一语言和第二语言的之间音节时长转换模型,根据各个第一语言音节的音节时长参数确定所对应各个第二语言音节的音节时长。
9.根据权利要求8所述的方法,其中,所述根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数包括 根据各个第一语言音节的基频参数确定各个第一语言音节的基频曲线特征参数;其中,所述基频参数包括每个音节内所有基频点的基频值、基频开始位置以及基频峰值点信息;所述基频曲线特征参数包括基频的均值特征参数、基频开始位置以及四个调型特征参数;其中,所述四个调型特征参数为用三次多项式Ax3+Bx2+Cx+D = y拟合第一语言音节或第二语言音节的基频曲线获得的三次多项式的四个系数(A、B、C、D);根据各个第一语言音节的基频曲线特征參数,与所建立的语音转换模型中的各个基频曲线类别进行匹配,分别找到各个第一语言音节对应的基频曲线类型,从而得到各个第一语言音节的基频曲线特征參数和第二语言音节的基频曲线特征參数之间的对应关系; 按照各个第一语言音节的基频曲线特征參数与第二语言音节的基频曲线特征參数之间的对应关系,获得与各个第一语言音节对应的第二语言音节的基频曲线特征參数;以及根据各个第一语言音节对应的第二语言语音的基频曲线特征參数,确定各个第一语言音节所对应的第二语言音节的基频參数。
10.根据权利要求9所述的方法,其中,所述确定各个第一语言音节所对应的第二语言音节的基频參数包括 记录各个第一语言音节对应的第二语言音节的基频曲线特征參数中的基频开始位置; 根据各个第二语言音节的基频曲线特征參数中的基频开始位置以及四个调型特征參数分别进行三次多项式插值,获得各个第二语言音节的基频值; 用各个第一语言音节的基频峰值点信息以及对应的第二语言音节的基频值进行计算,获得各个第二语言音节的基频峰值点信息。
11.根据权利要求7所述的方法,其特征在于,在对待转换的第一语言语音进行语音切分后,进ー步包括 对待转换各个第一语言音节进行语音识别,对识别出的特殊词汇,到个性化语音数据库查找对应的第二语言音节的语音波形; 对除特殊词汇之外的各个第一语言音节,根据各个第一语言音节的基频參数和音节时长參数,按照所述语音转换模型,确定各个第二语言音节的基频參数和音节时长,对第一语言的语音波形进行调整,获得各个第二语言音节的语音波形。
12.根据权利要求1至11中任一项所述的方法,其特征在于,所述第一语言为中国普通话,所述第二语言为北方方言;或者所述第一语言为北方方言,所述第二语言为中国普通话。
13.—种语音转换系统,该系统包括第一语言语音输入模块(310)、语音转换模块(320)以及第ニ语言语音输出模块(330);其中, 所述第一语言语音输入模块(310)用于接收用户输入的待转换的第一语言语音,并发送给所述语音转换模块(320); 所述语音转换模块(320)用于对接收的第一语言语音进行语音切分得到至少ー个第ー语言音节,并记录各个第一语言音节的音节时长參数,然后提取各个第一语言音节的基频參数,再按照存储的根据权利要求1至6任ー项所建立的语音转换模型确定各个第一语言音节对应的第二语言音节的基频參数和音节时长,再用各个第二语言音节的基频參数和音节时长调整对应各个第一语言音节的语音波形,获得各个第二语言音节的语音波形,并输出给所述第二语言语音输出模块(330); 所述第二语言语音输出模块(330)用于将各个第二语言音节的语音波形输出给用户。
14.根据权利要求13所述的系统,其中,所述语音转换模块(320)包括语音切分単元(321)、语音转换单元(322)、语音转换模型存储单元(323)和波形调整单元(324);其中,所述语音切分単元(321)对接收的第一语言语音进行语音切分得到至少ー个第一语言音节,并将该第一语言音节发送给所述语音转换单元(322); 所述语音转换单元(322)记录各个第一语言音节的音节时长參数,提取各个第一语言音节的基频參数,再按照所述语音转换模型存储单元(323)中存储的语音转换模型,确定与各个第一语言音节对应的第二语言音节的基频參数和音节时长,并各个将第二语言音节的基频參数和音节时长发送给所述波形调整单元(324);以及 所述波形调整单元(324)用各个第二语言音节的基频參数和音节时长调整所对应各个第一语言音节的语音波形,获得各个第二语言音节的语音波形,并输出给所述第二语言语音输出模块(330)。
15.根据权利要求13所述的系统,其中,进ー步包括个性化语音数据库(450),用于存储与第一语言特殊词汇对应的第二语言特殊词汇的每个音节的语音波形; 所述语音转换模块(420)将对接收的待转换的第一语言语音进行语音切分得到至少ー个第一语言音节,然后对第一语言音节进行识别判断是否有特殊词汇,如果有,则针对特殊词汇音节到个性化语音数据库(450)查找对应的第二语言语音波形,并对除特殊词汇语音段外的每个第一语言音节,记录各个第一语言音节的音节时长參数,然后提取各个第一语言音节的基频參数,再按照存储的语音转换模型确定各个第一语言音节对应的第二语言音节的基频參数和音节时长,再用各个第二语言音节的基频參数和音节时长调整对应各个第一语言音节的语音波形,获得各个第二语言音节的语音波形,而对特殊词汇音节,用第二语言音节的语音波形替换对应第一语言音节语音波形,然后将获得各个第二语言音节的语音波形输出给第二语言语音输出模块(430)。
16.一种机器可读的存储介质,存储用于使ー机器执行如权利要求1至12中任意ー项所述方法的指令。
17.一种计算机程序,当所述计算机程序运行于一机器中时使所述ー机器执行如权利要求I至12中任意一项所述方法。
全文摘要
本发明公开了一种建立语音转换模型的方法和实现第一语言与第二语言之间的语音转换方法和装置,该转换方法包括对待转换的第一语言语音进行语音切分得到至少一个第一语言音节,并记录通过语音切分得到的各个第一语言音节的音节时长参数;提取各个第一语言音节的基频参数;按照第一语言和第二语言的语音转换模型,根据各个第一语言音节的基频参数以及音节时长参数确定所对应各个第二语言音节的基频参数以及音节时长;对应各个第二语言音节,用其基频参数和音节时长调整所对应第一语言音节的语音波形,获得各个第二语言音节的语音波形,并输出。应用本发明进行语音转换时,能够基本保持输入语音和经转换后输出语音音质的一致性,且能够实时转换。
文档编号G10L21/003GK103035251SQ201110297068
公开日2013年4月10日 申请日期2011年9月30日 优先权日2011年9月30日
发明者杨晨, 蔡莲红, 周卫 申请人:西门子公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1