母音间转音的平滑处理方法

文档序号:2821164研发日期:2003年阅读:362来源:国知局
技术简介:
本发明针对电子辞典语音合成中因内存限制导致连续母音转音不自然的问题,提出通过LSF格式转换与线性内插技术实现平滑过渡的解决方案。方法包括串接前后母音语音数据、转换频谱参数为LSF格式,并对重叠区域的频谱、音调及振幅参数进行线性插值,消除发音断层,提升语音连续性。
关键词:母音转音平滑处理,LSF格式,线性内插
专利名称:母音间转音的平滑处理方法
技术领域
本发明涉及一种母音间转音的平滑处理方法,可应用于电子辞典的语音合成方法,以使得处理后的两母音音素在转音时具有平滑的连续效果。
背景技术
电子辞典在合成语音数据时,因为考虑到内存大小,所以往往只储存单音的音素,因此若不对连续母音发音的语音数据作转音平滑处理,则发音时便有不自然的情形发生。
在对两个音素作发音时,若采用一个接着一个发音的方式,会因为在两者间有所停顿,而会有不自然的情形发生,因此如何将第一个音素与第二个音素之间作渐进式的转音平滑处理,以在发音时产生连续性的效果,是一项相当重要的技术。
目前市场上所售的电子辞典不是未做转音的平滑处理,就是处理的不够好,因此在合成两个母音音素时,便会发生发音不自然的情形。

发明内容
本发明是为解决上述问题而提供一种母音间转音的平滑处理方法,以达到合并后的母音间音素在转音时具有平滑的连续效果,而达到自然发音的目的。
为实现上述目的,本发明提供了一种母音间转音的平滑处理方法,其包括有依一合并顺序串接对应于前、后母音音素的两语音数据,且忽略所述两语音数据间的静音,其中各母音音素的该语音数据是以每个音框为单位,且编码为一语音参数,该语音参数包括有一语音频谱参数;将串接后的该语音数据中,该语音参数的该语音频谱参数的格式转为LSF格式;取前母音音素的该语音数据末端,约三分之一音框总数处的一音框作为一开始平滑处理的音框,并取后母音音素的该语音数据始端,约三分之一音框总数处的一音框作为一结束平滑处理的音框;将该开始平滑处理的音框与该结束平滑处理的音框间的该语音参数,以线性内插法重新计算,而得经平滑处理后的一新语音数据;及合并该新语音数据、该开始平滑处理的音框前的该语音数据及该结束平滑处理的音框后的该语音数据,以成一转音数据。
在该依一合并顺序串接对应于前、后母音音素的两语音数据,且忽略两该语音数据间的静音的步骤之前,还包括有下列步骤接收连续发音的两母音音素符号及该合并顺序;及取得分别对应于该母音音素符号的所述两语音数据。
在该合并该新语音数据、该开始平滑处理的音框前的该语音数据及该结束平滑处理的音框后的该语音数据,以成一转音数据的步骤之后还包括储存该转音语音数据的步骤。
在该合并该新语音数据、该开始平滑处理的音框前的该语音数据及该结束平滑处理的音框后的该语音数据,以成一转音数据的步骤之后还包括以该转音数据发音的步骤。
该语音参数还包括有音调参数及振幅参数。
也就是说,本发明所使用的每个单音母音音素语音数据是事先以每个音框(Frame;约20~25ms)为单位,且编码为频谱参数、音调参数及振幅参数等语音参数,并储存于内存中。而根据本发明所揭示的母音间转音的平滑处理方法,是包括有下列步骤首先,接收连续发音的两母音音素符号及其合并顺序,并取得分别对应于母音音素符号的两语音数据,再依母音音素符号的合并顺序,将两语音数据串接,且忽略两语音数据间的静音,然后,将串接后的语音数据中,语音参数的语音频谱参数的格式转为LSF(Line Spectrum Freqency)格式,之后,取前母音音素的语音数据末端,约三分之一音框总数处的音框作为开始平滑处理的音框,并取后母音音素的语音数据始端,约三分之一音框总数处的音框作为结束平滑处理的音框,将开始平滑处理的音框与结束平滑处理的音框间所有语音参数(包括频谱参数、音调参数及振幅参数等),以线性内插法重新计算,而得到开始平滑处理的音框与结束平滑处理的音框间,经平滑处理后的新语音数据,合并新语音数据、开始平滑处理的音框前的语音数据及结束平滑处理的音框后的语音数据,以成转音数据,供后续的储存或是发音。
因此,本发明便可通过线性内插的方式,让两母音音素以渐进式的方式,渐渐转为连续的两母音音素,并藉由LSF语音频谱参数做线性内插法。此外,本发明主要是藉由LSF语音频谱参数,将语音数据的共振频率(Formant)做连续且渐进式的共振频率位置平移转换,而不是一般的频谱能量或振幅的消长转换(LPCLinear Predictive Coding,spectrum or RCReflection Coefficients)。
为使对本发明的目的、构造特征及其功能有进一步的了解,兹配合附图详细说明如下。


图1为本发明的流程图;及图2A和图2B为语音数据及转音数据的示意图。
其中,附图标记说明如下步骤101—接收母音音素符号及合并顺序;步骤102—取得语音数据;步骤103—串接语音数据;步骤104—转换语音频谱参数的格式为LSF格式;步骤105—取开始平滑处理的音框及结束平滑处理的音框;步骤106—将开始平滑处理的音框与结束平滑处理的音框间所有语音参数(包括频谱参数、音调参数及振幅参数等),以线性内插法重新计算;步骤107—合并成转音数据;步骤108—储存转音数据或以转音数据发音。
具体实施例方式
如图1所示,本发明为一种母音间转音的平滑处理方法,用以将两个以上的母音音素合并,并且使合并后的母音间音素在转音时具有平滑的连续效果。
本发明中所使用的每个单音母音音素的语音数据是事先以每个音框(Frame;约20~25ms)为单位,且编码为频谱参数、音调参数及振幅参数等语音参数,并储存于内存中。本发明包括有下列步骤首先,接收母音音素符号及合并顺序,此为步骤101,也就是接收连续发音的两母音音素符号及其合并顺序。
并取得语音数据,此为步骤102,也就是取得分别对应于母音音素符号的两语音数据。
再串接语音数据,此为步骤103,也就是依母音音素符号的合并顺序,将两语音数据串接,且忽略两语音数据间的静音,请参见图2A,位于前方的语音数据为[fa],位于后方的语音数据为[o]。
转换语音频谱参数的格式为LSF(Line Spectrum Freqency)格式,此为步骤104,也就是将串接后的语音数据中,语音参数的语音频谱参数的格式转为LSF格式。
之后,取开始平滑处理的音框及结束平滑处理的音框,此为步骤105,也就是取前母音音素的语音数据末端,约三分之一音框总数处的音框作为开始平滑处理的音框,并取后母音音素的语音数据始端,约三分之一音框总数处的音框作为结束平滑处理的音框。
将开始平滑处理的音框与结束平滑处理的音框间所有语音参数(包括频谱参数、音调参数及振幅参数等),以线性内插法重新计算,此为步骤106,也就是将开始平滑处理的音框与结束平滑处理的音框间所有语音参数(包括频谱参数、音调参数及振幅参数等),以线性内插法重新计算,而得到开始平滑处理的音框与结束平滑处理的音框间,经平滑处理后的新语音数据,此步骤为依线性内插法,计算开始平滑处理的音框与结束平滑处理的音框间,各音框的语音参数值,而得到开始平滑处理的音框与结束平滑处理的音框间的新语音数据。
合并成转音数据,此为步骤107,也就是合并新语音数据、开始平滑处理的音框前的语音数据及结束平滑处理的音框后的语音数据,以成转音数据,请参见图2B所示为语音数据[fa]及[o]所合成的[fao]的转音数据。
最后,储存转音数据或以转音数据发音,此为步骤108。
以上所述仅为本发明其中的较佳实施例而已,并非用来限定本发明的实施范围;即凡依本发明申请专利范围所作的均等变化与修饰,皆为本发明专利范围所涵盖。
权利要求
1.一种母音间转音的平滑处理方法,其特征是包括有依一合并顺序串接对应于前、后母音音素的两语音数据,且忽略所述两语音数据间的静音,其中各母音音素的该语音数据是以每个音框为单位,且编码为一语音参数,该语音参数包括有一语音频谱参数;将串接后的该语音数据中,该语音参数的该语音频谱参数的格式转为LSF格式;取前母音音素的该语音数据末端,约三分之一音框总数处的一音框作为一开始平滑处理的音框,并取后母音音素的该语音数据始端,约三分之一音框总数处的一音框作为一结束平滑处理的音框;将该开始平滑处理的音框与该结束平滑处理的音框间的该语音参数,以线性内插法重新计算,而得经平滑处理后的一新语音数据;及合并该新语音数据、该开始平滑处理的音框前的该语音数据及该结束平滑处理的音框后的该语音数据,以成一转音数据。
2.如权利要求1所述的母音间转音的平滑处理方法,其特征是该依一合并顺序串接对应于前、后母音音素的两语音数据,且忽略两该语音数据间的静音的步骤之前,还包括有下列步骤接收连续发音的两母音音素符号及该合并顺序;及取得分别对应于该母音音素符号的所述两语音数据。
3.如权利要求1所述的母音间转音的平滑处理方法,其特征是该合并该新语音数据、该开始平滑处理的音框前的该语音数据及该结束平滑处理的音框后的该语音数据,以成一转音数据的步骤之后还包括储存该转音语音数据的步骤。
4.如权利要求1所述的母音间转音的平滑处理方法,其特征是该合并该新语音数据、该开始平滑处理的音框前的该语音数据及该结束平滑处理的音框后的该语音数据,以成一转音数据的步骤之后还包括以该转音数据发音的步骤。
5.如权利要求1所述的母音间转音的平滑处理方法,其特征是该语音参数还包括有音调参数及振幅参数。
全文摘要
本发明为一种母音间转音的平滑处理方法,先依母音音素符号的合并顺序,将两语音数据串接且忽略两语音数据间的静音,再将串接后的语音数据中语音参数的语音频谱参数的格式转为LSF格式,之后取前母音音素的语音数据末端约1/3音框总数处的音框作为开始平滑处理的音框,并取后母音音素的语音数据始端约1/3音框总数处的音框作为结束平滑处理的音框,将开始平滑处理的音框与结束平滑处理的音框间所有语音参数,以线性内插法重新计算而得到开始平滑处理的音框与结束平滑处理的音框间经平滑处理后的新语音数据,合并新语音数据、开始平滑处理的音框前的语音数据及结束平滑处理的音框后的语音数据以成转音数据,在转音时具有平滑的连续效果。
文档编号G10L13/00GK1609949SQ20031010260
公开日2005年4月27日 申请日期2003年10月24日 优先权日2003年10月24日
发明者杨凰琳 申请人:无敌科技股份有限公司
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!