一种汉藏双语跨语言语音转换的方法及其系统与流程

文档序号:11867359阅读:748来源:国知局
一种汉藏双语跨语言语音转换的方法及其系统与流程
本发明属于多语种语音合成
技术领域
,具体涉及一种汉藏双语跨语言语音转换的方法及其系统。
背景技术
:随着科技的迅速发展,人工智能已逐渐进入人们的生活,而语音转换技术是人工智能技术的重要组成部分,因此语音转换技术是科研领域一个重要的研究方向。语音转换技术是人工智能较新的研究方向,是一项修改源说话者的语音特征,使之具有目标说话者的语音特征。同语种语音转换是源说话者与目标说话者说同一门语言,跨语言语音转换是源说话者与目标说话者说不同的语言。跨语言语音转换就是把A说的汉语进行转换成像B说的,使本来不会说汉语的B能够说出汉语。通常将说话人A叫做源说话者,说话人B叫做目标说话者。也就是说跨语言语音转换技术是将源说话人发出的目标说话人不会讲的语言转换成由目标说话人发出该语言的语音转换技术。我国是一个具有众多民族的大国,除了通用的汉语外,还有许多少数民族语言。其中藏族是我国有着古老历史和文化意义少数民族之一,藏语的使用人数总数众多,分布区域广泛。藏语的使用人数在450万以上,主要分布在我国甘肃、青海、西藏和四川等多个省市及不丹、印度等国家的一些地区。无论从使用人数还是从分布地区而言,藏语和汉语跨语言语音转换的研究都具有重要的应用价值。目前在做汉藏双语跨语言转换的研究的并不是很多,国内主要有中国科学院和西藏大学,西北民族大学和西北师范大学在这方面进行研究,主要做的是基于波形拼接的语音合成方法,波形拼接合成方法的基本原理是根据输入文本进行分析,得到基本的单元信息,然后从预先录制和标注好的语音库中挑选出合适的单元,进行少量的调整,再经过拼接,最终得到合成的语音。但是但是没有对韵律的特征进行研究,并没有对韵律进行控制和修改,因此语音单调自然度不高。因此对汉藏双语跨语言语音转换中韵律控制方法进行研究有着重要的价值。目前国内外的研究中,并没有实现基于韵律控制的汉藏双语跨语言语音转换系统。技术实现要素:针对上现有技术存在跨语言语音转换中语音的自然度不高,可懂性差的问题问题,本发明提供了一种汉藏双语跨语言语音转换的方法及其系统,主要对藏语到汉语跨语言语音转换的韵律方法进行了研究并最终实现汉藏双语的跨语言转换,不但能够促进藏语语音信息处理技术的快速发展,而且对推动民族间语音技术的交流将发挥至关重要的作用。一种汉藏双语跨语言语音转换的方法,包括以下步骤:A、通过设计相应的文本语料,录制语音语料,对所述语音语料进行切分与标注,基元归类和目录索引等,完成藏语拉萨话音节库和汉语普通话韵律特征分析库的建立;B、利用五度字调模型建立基频模型,同时建立时长转换模型和停顿时长转换模型,完成韵律模型的建立;C、输入藏语文本,利用决策树算法从建立的藏语拉萨话音节库中选取出合适的音节,完成基于波形拼接技术的语音转换;D、利用STRAIGHT算法对转换的语音进行基频,时长、停顿时长等韵律参数的修改,完成韵律控制,输出汉语普通话语音。进一步的,所述步骤A中,所述藏语拉萨话音节库的建立包括如下步骤:首先根据藏语进行藏语的文本语料的设计,然后根据设计的文本语料进行语音语料的录制,再进行切分及标注得到所有的音节信息,最后对藏语拉萨话的音节进行归类,建立目录索引,从而完成藏语拉萨话音节库建立。进一步的,所述步骤A中,所述汉语普通话韵律特征分析库的建立包括如下步骤:首先根据汉语语料库的作用进行汉语的文本语料的设计,然后根据设计的文本语料进行语音语料的录制,再进行切分及标注得到所有的音节信息,最后对汉语的音节进行归类,而且对双字词,韵律短语进行切分和标注,建立目录索引,从而完成汉语普通话韵律特征分析库的建立。4.根据权利要求1所述的一种汉藏双语跨语言语音转换的方法,其特征在于,所述步骤B包括如下步骤:首先利用归一化非线性多项式声调模型,建立普通话的基频模型,利用五度字调模型建立基频曲线,以中值音高、调域和字调的五度调值为输入参数,生成所需声调的基频曲线,用于指导合成普通话语音;通过统计同文本的汉语普通话和藏语拉萨话语料,对比分析了普通话和藏语的单音节、双音节的时长关系,以及不同层级停顿时长关系,利用统计的方法建立了时长转换模型和停顿时长转换模型,得到韵律模型。进一步的,所述步骤C包括如下步骤:首先,输入藏语文本,对输入藏语的文本利用软件翻译成汉语,并对汉语文本进行文本分析,根据文本获取相应的汉语音节;然后,依据所得的汉语音节,在该说话人的藏语拉萨话音节库中利用决策树查找与汉语音节发音相似的藏语音节,且位置和音质最佳;最后,利用波形拼接合成技术,直接把从藏语拉萨话音节库中的查找的音节波形级联起来,输出连续语流,得到初步生成语音。进一步的,所述步骤C中还包括:在输入藏语文本的同时进行操作者的麦克风语音采集。进一步的,所述步骤D包括如下步骤:首先,利用STRAIGHT算法对初步生成语音提取音节基频,音节时长,音节频谱和周期索引等相关声学参数。然后,在建立的韵律模型的指导下对提取的这些声学进行修改,从而进行韵律控制,输出自然度较高的汉语普通话语音。一种藏汉双语跨语言语音转换系统,应用如上所述的藏双语跨语言语音转换的方法。进一步的,所述藏汉双语跨语言语音转换系统包括:韵律模型训练单元,用于建立语音数据的韵律模型;韵律控制单元,用于修改初步合成语音的声学参数。进一步的,所述律模型训练单元包括:语音分析子单元,用于提取语音库中语音数据的声学参数,主要提取基频、频谱和时长参数;目标韵律模型子单元,用于确定基频、频谱和时长参数;所述韵律控制单元包括依次相连的韵律模型子单元和语音合成子单元,根据确定的韵律模型来修改初步合成语音中的声学参数从而完成韵律控制。本发明具有的优点和积极效果是:藏汉双语跨语言语音转换方法和系统,用于利用预先建立好的以藏语音节为基元的语料库,对输入的待转换的藏语进行翻译成汉语同时合成出汉语语音,利用本发明的方法和系统,基本实现了汉藏双语跨语言语音的转换。与传统的直接基于波形拼接技术的语音合成系统相比,本系统在训练阶段利用五度字调模型建立音调模型,利用统计方法建立时长转换模型和停顿时长转换模型,从而完成对韵律的建模,然后利用STRAIGHT对韵律参数进行修改,最终实现汉藏双语的跨语言转换中对韵律控制,提高了输出汉语的自然度。本发明通过实现汉藏双语的跨语言转换中韵律控制,提高自然度,不但能够促进藏语语音信息处理技术的快速发展,而且对推动民族间语音技术的交流将发挥至关重要的作用。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为一种汉藏双语跨语言语音转换的方法的模块示意图;图2为建立藏语拉萨话音节库和汉语普通话的韵律特征分析库的流程图;图3为建立藏语拉萨话音节库和汉语普通话的韵律特征分析库的另一流程示意图;图4为模型训练的流程示意图;图5为五度标记法的示意图;图6表示归一化字调模型的示意图;图7表示韵律控制的流程图;图8为汉藏双语跨语言语音转换流程图。具体实施方式本发明提供了一种汉藏双语跨语言语音转换的方法,在训练阶段利用五度字调模型建立音调模型,从而完成对韵律的建模,然后利用STRAIGHT对提取的韵律参数进行修改,最终实现汉藏双语的跨语言转换中对韵律控制,提高了输出汉语的自然度。下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。参见图1所示,本发明公开了一种汉藏双语跨语言语音转换的方法,包括以下步骤:A、通过设计相应的文本语料,录制语音语料,对所述语音语料进行切分与标注,基元归类和目录索引等,完成藏语拉萨话音节库和汉语普通话韵律特征分析库的建立;B、利用五度字调模型建立基频模型,同时利用统计方法建立时长转换模型和停顿时长转换模型,完成韵律模型的建立;C、输入藏语文本,利用决策树算法从建立的藏语拉萨话音节库中选取出合适的音节,完成基于波形拼接技术的语音转换;D、利用STRAIGHT算法对转换的语音进行基频,时长,停顿时长等韵律参数的修改,完成韵律控制,输出汉语普通话语音。所述步骤A中,所述藏语拉萨话音节库的建立包括如下步骤:首先根据藏语进行藏语的文本语料的设计,然后根据设计的文本语料进行语音语料的录制,再进行切分及标注得到所有的音节信息,最后对藏语拉萨话的音节进行归类,建立目录索引,从而完成藏语拉萨话音节库建立。所述汉语普通话韵律特征分析库的建立包括如下步骤:首先根据汉语语料库的作用进行汉语的文本语料的设计,然后根据设计的文本语料进行语音语料的录制,再进行切分及标注得到所有的音节信息,最后对汉语的音节进行归类,而且对双字词,韵律短语进行切分和标注,建立目录索引,从而完成汉语普通话韵律特征分析库的建立。参见图2和图3所示,建立语音语料库包括:首先,文本语料的设计:本发明要建立汉语普通话和藏语拉萨话两种不同的语料库,两个语料库在研究中的作用并不相同,所以语料库中的文本语料应结合其作用特点分别进行设计。简单来说藏语语料库的只要作用体现在语音合成上,而汉语普通话的语料库主要作用体现在韵律建模上,故而藏语文本语料的设计重点在藏语单音节种类上的丰富性,而汉语普通话文本语料的设计重点在词语和句子韵律的多样性上。1>藏语拉萨话文本语料的设计本发明主要是对藏语拉萨话进行语料设计,尽管藏语主要有卫藏、康和安多三种方言,但是与其它藏族地区的方言相比,拉萨话具有发展快速、语音简单清楚、表现力强和词汇量巨大等一系列的特点,具有很强的代表性。更为重要的是拉萨话在藏族地区使用的人数最多、产生的影响最为深远,是我国藏族自治地区的官方语言。需要说明的是,采用其它藏族地区的方言进行拉萨话替换的技术方案,也应包括在本发明的保护范围之中。在藏语文本语料设计上,目前有不少介绍藏语学习的书籍,它们包含的藏语语料较为丰富如:使用频率较高的词语和生活言语交流中常用的句子,这些书籍能够较大程度的涵盖藏语中的音节,其中在这些书籍中有的书本是简单的将藏语的发音标注了最接近的汉文谐音,从而达到能够简单的说出藏语的目的,结合本文的研究方案,这类书籍恰好是本文藏语文本语料设计很好的选择,但是书中标注的汉文谐音也并非是准确的,相对准确的发音在后期的录制后,要以藏语的音节为基元进行反复回放以确定该藏语音节最后的汉文谐音。2>汉语普通话文本语料的设计汉语普通话语料库的建立是为建立韵律模型做准备的,汉语普通话语料库的建立是否符合科学性和多样行,这直接关乎着接下来利用该语料库所训练的韵律模型是否标准。同时由于利用汉语普通话语料库所训练的模型正是对初步转换的语音进行控制,所以该汉语普通话的文本语料设计也要与藏语拉萨话的文本语料保持一定的相关性。(1)单字:使单音节词包括4个声调,完成了汉语普通话总共800个单音节词的设计。因为无相邻音节的影响,它具有发音相对平稳和调值稳定的特点,能够进行其静态语音特征的研究和对比,可以较好地研究汉语普通话的声学特征。(2)双字词:汉语普通话句子中出现的变调现象是根据单音节及双音节变调现象发展起来的。主要对汉语普通话的四种声调进行匹配组合,同时增加四种声调和汉语中的第五声调—轻声的组合,展开对汉语普通话声调连续性变化这一现象的探究和相关分析。(3)语句:为了研究在连续语音流中普通话的发音特点和词组间的相互影响,设计的语句尽可能包括陈述句、疑问句和祈使句等多种类型。只有包含多种句式句型才能尽可能的覆盖汉语普通话中所有的发音现象,为实现汉语普通话库的建立奠定坚实的基础。实现了汉语普通话韵律模型的创建。把音节作为基本单元,多数语句的长度位于3至15个单元之间,这些语句的选取需要仔细分析音韵的平衡性,从而便于应用到汉藏双语跨语言语音转换的韵律控制中。然后,本发明的语音语料录制,利用录音棚进行录制,这为满足获取高质量的语音语料提供了可靠保证。同时考虑到学校内有不少藏语学生的情况,于是在校内找到发音标准的一男一女藏族学生进行藏语语音录制。另外找普通话标准的一男一女汉语普通话标准的汉族学生进行汉语语音录制。在环境良好的录音棚中运用了录音软件cooledit、外置声卡、专用电容话筒和电脑等相关设备完成录音;在录音的过程中,每隔半小时休五分钟。录制过程中使用电脑的屏幕提示系统,可以极大程度地减少录音人的工作量,避免无关噪声。录制的语音采用单声道、16位采样精度,采样率是16kHz格式的WAV文件保存。从总体上权衡,在录音时,需要录音人维持平稳的语速与音量.可以根据电脑显示屏上呈现的波形实现语速的控制,从而使录制的语音尽可能的达到更好的效果和满足切分及标注的要求。最后,语音语料的切分与标注:汉语普通话和藏语拉萨话都是以音节作为基本单位的,故分析过程以音节为基元展开分析,因此需要把录制的每个藏语语句和汉语语句进行切分得到全部的音节,也就是把每个音节的起始时间点和结束时间点标注出来,划分为音节单位。对于每句藏语语句完成音节边界的标注后,使用标注软件把字对所有音节中的名称、时长、基频曲线和声调等相关信息进行了标注,然后采用手工校对的方法完成校准,最终把音节的标注信息、位置信息和韵律边界等信息都写进标注文件里。其中汉语的双字词,韵律短语也直接按上述步骤进行标注,然后再进行对音节的切分标注。汉语普通话的韵律特征分析库就算完成了。所述步骤B包括如下步骤:首先利用归一化非线性多项式声调模型,建立普通话的基频模型,利用五度字调模型建立基频曲线,以中值音高、调域和字调的五度调值为输入参数,生成所需声调的基频曲线,用于指导合成普通话语音;通过统计同文本的汉语普通话和藏语拉萨话语料,对比分析了普通话和藏语的单音节、双音节的时长关系,以及不同层级停顿时长关系,利用统计的方法建立了时长转换模型和停顿时长转换模型,得到韵律模型。参见图4所示,藏汉跨语言语音转换系统中韵律模型建立,利用归一化非线性多项式声调模型,建立普通话的基频模型。通过统计方法,建立时长转换模型和停顿时长转换模型。1>汉语普通话和藏语拉萨话都是具有声调这一特性的语言,声调可以反映出说话者的诸多喜怒哀乐等情绪变化。基频曲线是声调参数的最为直观的表现,因为声调参数在连续语流中变化复杂,与此同时涵盖了发音实体情感、语音、语法等各种不同的信息,所以基频成为韵律参数中最重要的研究对象。精确的基频模型在语音合成和语音识别的研究中起至关重要的作用,继续对高质量基频模型进行研究刻不容缓。所谓模型就是利用数学的方法分析出合理恰当的一系列参数,这些参数可以很好的反映出语音信号的声调走势,也就是刻画出基频曲线。分析出高精确度的参数,能够使所建立的声学模型较好的去逼近事实上的基频曲线。对于基频建模的研究,本文主要从参数化模型中的五度字调模型进行研究。把说话人的声调划定为五个不同的调值,即为阴平、阳平、上声、去声以及基调,这是五度字调模型的中心思想。尽管由于性别、年龄的不同,音高变化也不相同,但所有的音高值都在一个基准值范围上下波动,这个基准值就称为音高基准值,并且音高变化范围也是相对稳定的。五度标记法是由赵元任先生提出的,如图5所示,图中有五条间距相等的水平横线,并从下到上分别视作为五个音高的调值线,同时三条垂直线将五条线切分为四个区域,即认为每个区域内都有一条表示为不同声调走势的线条。不同人由于个体生理不同导致其发音的音高值不同,但是其声调的走势变化都是符合五度字调的。我们采用归一化五度字调模型来刻画出不同调值的基频曲线,公式表示如下,F0i(t)=log-1[fc+fd*f0i(t)]f0i(t)=at4+bt3+ct2+dt+e其中,i代表阴、阳、上、去四种声调;t代表范围为[0,1]归一化时间;F0i(t)代表生成的基频曲线;log-1[]代表以10为底的对数的逆运算;fc表示用取对数后的中值基频,其主要体现嗓音的高低;fd代表对数表示的基频变化的调域;f0i(t)是由{a,b,c,d,e}五个参数表示的四次曲线。五度字调模型是由{a,b,c,d,e,fc,fd}七个模型参数决定的基频曲线,当然也是一种参数化的语音基频模型。如图6所示,为归一化的五度字调模型的结构图:由于基频在一定的范围内,我们从主观听觉上判断音高的大小,实际上并不是与频率值成正比关系的,而是与频率值的对数成正比关系。特别是在韵律研究中,不同音高间的关系比起音高的基频值甚至更为重要,故而本发明在五度字调模型的基础上,对分析参数全部取对数。2>时长转换模型和停顿时长转换模型:通过统计同文本的普通话和藏语语料,对比分析了普通话和藏语的音节的时长关系,以及不同位置的停顿时长关系,利用统计的方法建立时长转换模型和停顿时长转换模型。(1)时长转换模型:从建立好的语料库中,分别选取汉语普通话和藏语拉萨话的单音节进行统计分析,统计每种声调单字的时长均值,进而得到拉萨话和普通话声调时长的比值关系。建立下式所示的时长转换模型。Tp=Δ·Tz式中,Tp代表转换后的语音的音节时长;Tz代表藏语音节的时长,Δ为变换系数,由拉萨话和普通话的时长比值关系确定。(2)停顿时长转换模型:一句话的语音流中是有停顿的,其中停顿的时长随着停顿位置不同而不同,本专利以处于不同位置的韵律词之间的停顿时间作为语句的停顿时长,将韵律词在句中处于的位置分为句首、句中和句尾。在此基础上停顿时长被分为三种,分别是句首到句中的停顿时长,句中到句中的停顿时长,句中到句尾的停顿时长。利用统计方法得到普通话的停顿时长,并与初步合成的汉语普通话的停顿时长进行对比求出比值关系,建立如下式所示的停顿时长转换模型。Tpt=Δ·Tzt式中,Tpt代表转换后的语音停顿时长;Tzt代表以藏语音节为基元进行拼接初步合成汉语普通话的停顿时长;Δ为变换系数。所述步骤C包括如下步骤:首先,输入藏语文本,在输入藏语文本的同时进行操作者的麦克风语音采集;对输入藏语的文本利用软件翻译成汉语,并对汉语文本进行文本分析,根据文本获取相应的汉语音节;然后,依据所得的汉语音节,在该说话人的藏语拉萨话音节库中利用决策树查找与汉语音节发音相似的藏语音节,且位置和音质最佳;最后,利用波形拼接合成技术,直接把从藏语拉萨话音节库中的查找的音节波形级联起来,输出连续语流,得到初步生成语音。具体的,拼接合成语音。首先,文本翻译与分析。利用软件对藏语文本翻译成对应的汉语文本,并将得到待转换的汉语文本进行文本分析,得到其对应的音节等相关信息,从而得到里面的音节和边界等相关信息。文本分析(TextAnalysis)是进行语音转换的首要工作,首先分析输入的汉语文本,为后面进行下一步的处理提供相关的信息,如读音和停顿等相关信息[i]。就现在语音转换技术的现状而言,文本分析是限制转换后语音音质一个关键的因素。文本分析器需要根据模块化的方法进行建立,每个模块中出现的问题能够进行相对孤立地分析,采用不同的方法来处理出现的每个问题,能够灵活地将新的方法或相关模块加入到转换过程中来。从下表中可以看出文本分析总共分为以下五个部分:表1文本分析各个模块介绍然后,在所建立的语料库中利用决策树来查找音节。本发明把藏语拉萨话为研究对象,以藏语的音节为基元建立了藏语的音节库。根据待转换的汉语进行文本分析得到全部的音节信息,然后得到选取发该音的音节,利用决策树算法选取出位置和音质最好的声韵母,广泛的决策树不仅能把语境特征与声学特征类似的候选基元分成一类,还可以很好地处理数据稀疏的问题。所以,为解决藏语语音中人工听辨方法缺点的问题,采用决策树可以有效地选择合适的基元。首先,采用决策树把藏语语句中的音节根据所在句子中的语境信息进行聚类,这样就将有共同语境信息的音节位于决策树的同一叶子结点。因为决策树是采用原始的藏语语句建立的,在决策树叶子结点中的基元具有相同的语境特征,它们最满足该基元在藏语语句中的语境信息,所以能够用来替代同种语境下人工听辨得到的结果,进而纠正人工听辨方法的缺点。分类与回归树在语音合成中广泛采用的一种基元选择方法,在它的每个结点下都有一个“是/否”问题,那些可以进入根结点的候选基元必须回答这个结点上的问题,按照回答问题的结果选择进入相应的枝。最后,全部位于根结点的候选基元都按照对这些结点问题的回答选取相应的叶子结点。将位于相同叶子结点的候选基元看作拥有类似的语境特征与声学特征。决策树算法是基于数据驱动与基于知识这两种方法的融合。最后,利用波形拼接合成法初步合成语音。它可以合成出高自然度和高清晰度的语音。波形拼接合成通常采用的是一个大型的语料库,里面包括的拼接基元全部取自于自然语音。在进行拼接合成时,要按照文本和韵律分析的结果,从构建的语音库中选择恰当的候选基元,使用一定的算法实行合适的调整(或不进行调整),采用波形拼接的方法得到合成语音。所述步骤D包括如下步骤:首先,利用STRAIGHT算法对初步生成语音提取音节基频,音节时长,音节频谱和周期索引等相关声学参数。然后,在建立的韵律模型的指导下对提取的这些声学进行修改,从而进行韵律控制,输出自然度较高的汉语普通话语音。具体的,韵律控制:韵律控制利用STRAIGHT算法来实现。STRAIGHT算法即基于自适应加权谱内插的语音转换和重构算法,在二十世纪九十年代初由日本研究者河原英纪提出的,是一种比较准确的语音分析和语音合成的方法。其核心思想来自于声码器,对语音信号的短时谱采用时频域的自适应内插平滑法获得准确的谱包络,把语音信号进行分解,得到互相分离的频谱参数与基频参数,并且可以很方便的修改语音信号的基频、非周期索引和平滑时频谱等相关参数,修改语音参数后使得合成语音的音质有所提高,具有很高的重建语音音质的优点。如图7所示,为韵律控制的流程图:1>对输入的普通话语音,利用STRAIGHT算法计算出基频包络(Fo)、非周期索引(APB和平滑时频谱(SPEC)。其中Fo是一维数组,保存每一帧语音信号的基频值,0表示清音帧。AP和SPEC为二维数组。AP保存每一帧语音不同频率分量的周期成分和非周期成分的比值,SPEC保存每一帧语音的频谱。在修改基频时,利用每个音节的边界信息,在Fo数组中找到当前音节的基频起点和基频终点,并确定基频包络的长度。然后根据韵律边界信息判断当前音节是单字词、双字词前字还是双字词后字,调用相应的普通话基频模型,产生相应长度的的基频包络,并利用基频补偿模型调整后,代替Fo中该音节的原始基频包络。a、基频的提取在STRAIGHT算法模型里,先进行基频的提取,通过得到的基音频率计算基音周期。Gabor滤波器在频率方面具有很好的分辨率,因此采用Gabor滤波器进行语音波形的分析,滤波器将输入的语音信号进行分解,得到复杂的信号D(t,τ0)。D(t,τ0)=|τ0|-1/2∫-∞∞s(t)gAG(t-uτ0)‾du]]>gAG(t)=g(t-14)-g(t+14)]]>g(t)=e-π(tη)2e-j2πt]]>在每个τ0附近计算得到输出M(t,τ0),下面是对“基本性”M的定义:M=-lg[∫Ω(d|D|du)2du]+lg[∫Ω|D|2du]-lg[∫Ω(darg(D)du)2du]+2lgτ0+lgΩ(τ0)]]>式中:D表示时域信号经Gabor变换后得到的特征集;表示AM调幅程度;lg[∫Ω|D|2du]表示信号总能量;表示FM调频程度;lgΩ(τ0)表示时域融合间隔因子(τ0是与D对应的信道中心频率);2lgτ0表示频率平方。在实际的语音信号中,基频轨迹会存在某些较快的变化,这些变化会带有韵律信息,而且会对指数M产生一定的影响。为此修改上式为:M=-lg[∫Ω(d|D|du-μAM)2du]+lg[∫Ω|D|2du]-lg[∫Ω(darg(D)du-μFM)2du]+2lgτ0+lgΩ(τ0)]]>μAM=1Ω∫Ω(d|D|du)]]>μFM=1Ω∫Ω(d2arg(D)du2)]]>则瞬时频率f0=ω0(t)/2π上式中,ω0(t)=2fsarcsin|yd(t)|2]]>yd(t)=D(t+Δt/2,τ0)|D(t+Δt/2,τ0)|-D(t-Δt/2,τ0)|D(t-Δt/2,τ0)|]]>fs是模拟信号进行数字化时的抽样频率。b、光滑声道谱的提取首先,把语音信号s(t)进行短时傅里叶变换F(n,ω)=FFT[s(t)ω(t)]=S(ω)*W(ω)式中,然后,光滑声道谱S(n,ω)=g-1(∫∫Dht(λ,τ)g(|F(ω-λ,t-λ)|)2dλdτ)]]>上式中,函数g(.)是在进行插值操作时需要保留的性质。c、语音的重构STRAIGHT算法进行语音合成时,采用的是最小相位冲击响应与基频同步叠加的方法[57]。(1)语音信号的基频(F0)。(2)语音信号的二维谱包络(s(n,ω))。合成语音信号y(t)的基本公式为:y(t)=Σti∈Q1G(f0(ti))vti(t-T(ti))]]>vti(t)=12π∫-∞∞V(ω,ti)Φ(ω)ejω(t)dω]]>T(ti)=Σtk∈Q,k<i1G(f0(tk))]]>上式是基音同步叠加的过程:其中Q是基音同步点的集合;T(ti)是基音同步位置的实现过程。函数G(f0(ti))是对基频的修正,可以为任意方式的映射关系。上式是计算每帧语音信号冲击响应。全通滤波器Φ(ω)可以用来附加对相位的控制,对听觉具有一定的改善效果。V(ω,ti)是最小冲击响应的傅里叶变换,它能够由上面平滑谱运算得到,这样就可以使用基于倒谱变化的方法进行转换,把一般的相位谱转换成最小相位谱。计算公式如下:V(ω,i)=exp(12π∫0∞ht(q)ejwqdq)]]>ht(q)=0(q<0)ct(0)(q=0)2ct(q)(q>0)]]>ct(q)=12π∫-∞∞e-jwqlogAdω]]>A=A(S(u(ω),r(t)),u(w),r(t))上式中q是倒谱,A(),u()和r()分别是对S(u(ω),r(t))在幅度、频率与时间轴上的修改。全通滤波器Φ(ω)通过对最小相位冲击响应的傅里叶变换V(ω,t)附加一定的相位信息完成对听觉的改善,主要是在高频分量增加随机相位完成的。全通滤波器Φ(ω)是采用随机数与群延时计算取得的,由于经过群延时修改时域结构要比直接采用相位特征修改时域结构更加清晰。假设n(t)是高斯白噪声,Ws(t)是频率域空间里的加权函数。目标延迟函数d4(ω)可以通过下面的计算公式得出:d4(ω)=dgx(ω)12π∫-ππ|x(ω)|2dω]]>x(ω)=ρ(ω)F-1(Ws(τ)N(τ))Ws(τ)=|τ|exp(-π(τ/τbω)2)其中N(τ)是运用n(ω)计算得出的初始随机群延时函数,该函数是偶函数,F-1()是傅里叶逆变换。通过d4(ω)积分就能计算全通滤波器Φ(ω)。2>时长和停顿时长的修改方法,通过对普通话语音的时间轴(原时间轴)和转换语音的时间轴(目标时间轴)进行插值,获得时间映射表。首先根据音节边界信息获得普通话语音各个音节的边界位置,作为原时间轴的关键点;然后利用时长转换模型和停顿时长转换模型计算转换后语音的各个音节的时长和边界位置,作为目标时间轴的关键点;最后,根据原时间轴和目标时间轴关键点对目标时间轴进行插值,获得时间映射表。在STRAIGHT合成时,根据时间映射表,通过重复或者删除相应的帧来修改时长。本发明还公开了一种藏汉双语跨语言语音转换系统,应用如上所述的藏双语跨语言语音转换的方法。所述藏汉双语跨语言语音转换系统包括:韵律模型训练单元,用于建立语音数据的韵律模型;韵律控制单元,用于修改初步合成语音的声学参数。所述律模型训练单元包括:语音分析子单元,用于提取语音库中语音数据的声学参数,主要提取基频、频谱和时长参数;目标韵律模型子单元,用于确定基频、频谱和时长参数;所述韵律控制单元包括依次相连的韵律模型子单元和语音合成子单元,根据确定的韵律模型来修改初步合成语音中的声学参数从而完成韵律控制。综上所述,本发明的操作流程为:如图8所示,首先说话人对着麦克风发出藏语语音,同时在PC机上输入藏语文本,然后PC机上的该发明系统对文本进行分析操作,最终输出该类似该说话人发出的汉语语音。首先是把待转换的藏语文本翻译得到对应的汉语文本,将汉语文本进行文本分析获得所有的音节,再查找已建立好目录索引的藏语拉萨话音节库;其中选取合适的藏语基元是通过决策树来进行的,决策树的建立依赖于基元的频谱距离和语境相关的问题集。对于待转换成的目标汉语语句,利用决策树算法选择最符合语境信息的音节,选取发该音节位置和音质最合适的音节,然后利用波形拼接合成法初步合成汉语普通话语句。值得注意的是这时的汉语普通话是以藏语拉萨话语料库中的音节为基元通过波形拼接合成的,其实质上还是藏语拉萨话。然后利用文本分析得到初步合成的汉语普通话语句的各个音节的调值信息和韵律边界信息,通过STRAIGHT算法,提取出该语句的音节基频、音节时长、音节频谱和非周期索引等声学参数,利用在韵律模型训练阶段所确定的基频模型修改初步合成语句的音节基频曲线,同时利用时长转换模型和停顿时长转换模型来完成修改初音节时长和停顿时长的修改。最后,再利用STRAIGHT算法修改后的基频信息、时长信息和停顿时长信息,最终实现藏语拉萨话到汉语普通话中的韵律控制。上述所述的方法过程可通过程序指令相关的硬件完成,所述的程序可以存储在可读取的存储介质中,该程序在执行时执行上述方法中的相应步骤。为了说明本发明采用的方法与其他方法的优越性,评估基于韵律控制的汉藏双语跨语言语音转换后的语音质量,将其与直接利用波形拼接进行的汉藏双语跨语言语音转换的语音进行比较。采用MOS评测和DMOS评测来判断好坏。MOS评测主要测试韵律控制后汉语语音的自然度和音质效果,DMOS评测主要测试转换后汉语语音的相似度。a、MOS评测表2MOS得分的评测标准一次MOS得分结果可以采用下面的加权平均公式进行计算:MOS=1MΣi=15miscorei]]>其中M和mi分别为总票数和等级分的票数scorei为等级分,scorei=1,2,3,4,5。此外,能够更好的反映MOS评测得分的偏离程度,还可以计算评测得分的标准偏差,计算公式表示如下:σ=1MΣi=15mi(scorei-MOS)2]]>对输出的未进行韵律控制的汉藏双语跨语言语音转换语音和基于韵律控制的汉藏双语跨语言语音转换输出的语音各取20句,这20句语音汉语意思是近似相等的的,经过MOS评测得到的结果得到,输出的基于韵律控制的汉藏双语跨语言语音转换的MOS评分要前者。说明了对藏语拉萨话到汉语普通话跨语言语音转换中进行韵律控制后,能够有效的提高转换语音的自然度和音质。b、DMOS评测,即评价转换后的汉语普通话与原始的汉语普通话是否相似。参加DMOS评测的人及评测的标准和MOS评测是类似的,也是采用的5级判分标准,得分为5表示转换的语音和原始汉语普通话非常相似;得分为1表示转换的语音和原始汉语差别非常大,DMOS评测主要关注语音的相似度。两组语音的DMOS评测的结果为4.1和3.6,所以对汉藏双语跨语言语音转换中进行韵律控制的可以使得语音要更加接近目标说话人的汉语普通话。评测结果显示,基于韵律控制的汉藏双语跨语言语音转换方法及装置,达到了提高语音的自然度和音质的目的。以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属
技术领域
的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1