汉字发音资料库生成系统及其方法

文档序号:2830839阅读:279来源:国知局
专利名称:汉字发音资料库生成系统及其方法
技术领域
本发明涉及一种资料库生成系统及其方法,尤其涉及一种汉字发音的资 料库生成系统及其方法。
背景技术
对于现有的语音技术而言,分为真人语音以及语音合成(Text To Speech, TTS )两种不同的语音技术。
真人语音技术是对于需要发音的单字、字词以及单句,通过人的发音, 将需要发音的单字、字词以及单句进行朗读,并且录制人的发音,这种真人 语音技术优点在于由于采用录制人的发音,因此对于发音具有高度的正确性。
但是,真人语音技术缺点在于由于采用录制人的发音,因此,对于不 同的单字、字词以及单句需要录制不同的语音档案,会占据不小的储存空间, 又因为真人语音技术仅能对已录制过的单字、字词以及单句进行发音,因此 将无法任意的朗读单字、字词以及单句。
而语音合成技术为人工产生的发音,将单字、字词、单句以及文章的内 容,通过语音合成器,产生出与单字、字词、单句以及文章的内容相对应的 人工发音,这种语音合成技术的优点在于由于语音合成技术是通过语音合 成器来产生对应的人工发音,因此可以对不同单字、字词、单句以及文章的 内容进行人工发音,并且所占用的储存空间减少很多。
但是,语音合成技术的缺点在于由于语音合成技术是通过语音合成器 来产生对应的人工发音,在使用上来说,会有发音不标准、音调错乱、发音 错误以及听起来模糊不清的问题。
通过比较真人语音技术以及语音合成技术,可以明显地看出来,真人语音技术的优点却是语音合成技术的缺点,真人语音技术的缺点却是语音合成
技术的优点;是否能有效地将真人语音技术以及语音合成技术的优点整合, 即可以相互解决真人语音技术以及语音合成技术的缺点,这方面是值得研究 的部份。
综上所述,可知先前技术中长期以来一直存在真人语音技术占用存储空 间过大且无法对任意文章进行发音的问题,以及语音合成技术发音不准、音 调不准等问题,因此有必要提出改进的技术手段,来解决此一问题。

发明内容
有鉴于先前技术存在真人语音技术占用存储空间过大且无法对任意文 章进行发音的问题,以及语音合成技术发音不准、音调不准等问题,本发明 遂揭露一种汉字发音资料库生成系统及其方法,其中
本发明所揭露的汉字发音资料库生成系统,汉字发音规则为声母音节、 韵母音节以及音调的组合,包含录制模块、储存模块、语音资料库、生成
模块以及汉字发音资料库。
其中,录制模块,分别将声母音节和音调的组合、以及韵母音节和音调 的组合,录制为数个音节;储存模块,用以将音节储存为语音资料库;生成 模块,依据每一汉字配置至少一音节组合,并将音节组合对应至语音资料库 的音节,以生成汉字发音资料库。
本发明所揭露的汉字发音资料库生成方法,汉字发音规则为声母音节、 韵母音节以及音调的组合,包含下列步骤
首先,分别录制声母音节和音调的组合、以及韵母音节和音调的组合为 数个音节;接着,储存音节至语音资料库;最后,依据每一汉字配置至少一 音节组合,并将音节组合对应至语音资料库的音节,以生成汉字发音资料库。
本发明所揭露的汉字发音资料库生成系统与方法如上,与先前技术之间 的差异在于本发明分别将声母音节与音调的组合、韵母音节与音调的组合, 录制为数个音节,并储存至语音资料库,接着对每一个汉字配置至少一音节 组合,用以生成汉字发音资料库;通过汉字发音资料库与语音资料库的对应关系,可以针对每一个汉字进行个别的发音,因此,只需要储存基本的音节, 以及汉字对应的音节组合,语音资料所占据的储存空间将缩小许多,并且可 以对不同的单字、字词、单句以及文章的内容进行发音,可以解决先前技术
存在真人语音技术占用存储空间过大且无法对任意文章进行发音的问题,以
及语音合成技术发音不准、音调不准等问题。
通过上述的技术手段,本发明可以达成减少语音资料储存空间以及对任 意文章进行发音的技术功效。


图1为本发明汉字发音资料库生成系统方框图。
图2为本发明汉字发音资料库生成方法流程图。
图3为本发明语音资料库内容示意图。
图4为本发明汉字发音资料库内容示意图。
图5为本发明语音资料库及汉字发音资料库关联示意图。
具体实施例方式
以下将配合附图及实施例来详细说明本发明的实施方式,藉此对本发明 如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解 并据以实施。
以下将说明本发明中汉字发音资料库生成系统,并请同时参考图1所 示,图1为本发明汉字发音资料库生成系统方框图。本发明所揭露的汉字发 音资料库生成系统,汉字发音规则为声母音节、韵母音节以及音调的组合, 包含录制模块10、储存模块20、语音资料库30、生成模块40以及汉字 发音资料库50。
首先,使用者可以通过录制模块IO分别将声母音节和音调的组合、以 及韵母音节和音调的组合录制为数个音节, 一个音节可以只有声母音节、声
母音节和音调的组合、只有韵母音节或者韵母音节和音调的组合。
分别以注音符号以及拼音符号举例来说,注音符号只有声母音节的音节有r勺j、 「jm、 「pm…等,拼音符号只有声母音节的音节有rb」、
「p」、「m」…等;注音符号为声母音节和音调的组合的音节有「尸 J 、
r卩'」…等,拼音符号为声母音节和音调的组合的音节有「sh」、「zJ…
等;注音符号只有韵母音节的音节有「 丫」、r C」、「亡」…等,拼音符 号只有韵母音节的音节有「a」、「o」、rej…等;注音符号为韵母音节
和音调的组合的音节有「 X v」、「 I 、 J…等,拼音符号为韵母音节和音 调的组合的音节有「u」、n」…等。
将所有的只有声母音节的音节、声母音节和音调的组合的音节、只有韵 母音节的音节、以及韵母音节和音调的组合的音节通过录制^t块io录制完
成后,接着,会通过储存模块20将所有录制的音节储存至语音资料库30中, 这个语音资料库30即为发音的基本资料库。
当建立完成语音资料库30后,接着,生成模块40会依据汉字发音规则 为每一汉字配置至少一音节组合,并将音节组合对应至语音资料库30的音
节,以生成汉字发音资料库50。
所谓的汉字发音规则,即一个汉字的发音为一个声母音节配合一个韵母 音节以及音调以形成一个汉字的发音;音节组合即为一个声母音节配合一个 韵母音节以及音调,等同于一个汉字的发音,因此,所生成的汉字发音资料 库50包含汉字、词语以及分别对应汉字和词语的音节组合,汉字发音资料 库50中音节组合以「声母音节+韵母音节音调J的形式储存,例如汉字
r你j的音节组合,其注音符号以及拼音符号分别为「3+1 3」以及rn
+ i3 J 。
在汉字的音节组合中,会有缺少声母音节或韵母音节以及声母音节或韵 母音节不发音的情形,此时将以符号字符取代该音节组合中声母音节或韵母 音节。
分别以注音符号以及拼音符号举例来说,缺少声母音节的汉字r额J , 注音符号以及拼音符号分别为r亡'」以及re」,此时为缺少声母音节的 情形,因此本实施例中以符号字符「 $」取代声母音节,所以在汉字发音资 料库50中r额」的音节组合,注音符号以及拼音符号分别为r $ +亡2」 以及r $ + e2 J 。在拼音符号中,还有一种规则,具有声母音节但是却不发音,以汉字「衣J
为例,拼音符号为「yi』,此时的声母音节「y」是不发音的,因此,本实 施例中以符号字符「 $」取代声母音节,所以在汉字发音资料库50中「衣J 的音节组合,注音符号以及拼音符号分别为「 $ + —」以及「 $ + il J 。
对于注音符号缺少韵母音节的汉字,以汉字「只」为例,注音符号为 rikv」,此时为缺少韵母音节的情形,因此本实施例中以符号字符r $ j 取代韵母音节,所以在汉字发音资料库50中「只」的音节组合为「 ik 3 + $ J 。
对照于拼音符号而言,注音符号缺少韵母音节在拼音符号中为韵母不发 音的规则,同样以汉字「只」为例,拼音符号为「zhU ,此时为韵母不发 音的规则,因此本实施例中以符号字符「 $」取代韵母音节,所以在汉字发 音资料库50中「只」的音节组合为「 zh3 + $ J 。
当一个汉字中配置超过一个音节组合时,这种汉字即称为多音字,可以 依照姓氏、动词、形容词以及发音频率等规则,优先排列多个音节组合的配 置顺序,以所设定的规则为优先,将符合设定规则的音节组合优先配置顺序。
除此之外,本系统还可以包含字词模块61,用以将具有多音字字词及 对应多音字字词的音节组合储存至汉字发音资料库50,当所需要发音的词 语中与汉字发音资料库50储存的与其对应的多音字字词中相同汉字越多 时,就会优先进行发音。
例如r为人」以及r为人民」这两个词语,r为人」的注音符号以及 拼音符号分别为「 乂 1 '日h '」以及「 wei ren」,「为人民J的注音符 号以及4并音符号分别为「乂\、日、'nl一'」以及r weirenmin」, 通过字词模块61分别在汉字发音资料库50储存的音节组合,「为人」即为 「乂 + "V2日+~2」以及「 w + ei2r + en2」,r为人民J即为r 乂 + \ 4 日+h2门+ |、2」以及r w + ei4 r + en2 m + in2 J 。
因此,当遇到r他的为人」以及「他为人民服务」,r他的为人」所比 对到的多音字字词为「为人」,而r他为人民服务」所比对到的多音字字词 为r为人」以及i"为人民」两个多音字字词,选择多音字字词中相同汉字较 多的字词作为发音标准,因此,「他为人民服务」选择「为人民」作为发音标准,经过上述的选择后,「他的为人」以及r他为人民服务」都可以正确 地进行发音。
在录制音节时,由于所储存的音节占据的容量有限,因此可以釆用波形 音频格式(wav)进行储存,并且可以通过音节控制模块62对预先录制的 音节进行处理,可以控制每一个音节的播放时间以控制发音速度,使得发音 会更接近真人发音。
接着,以一个具体的实施例来解说本发明的运作方式及流程,并请参照 图2、图3、图4以及图5所示。图2为本发明汉字发音资料库生成方法流 程图;图3为本发明语音资料库内容示意图;图4为本发明汉字发音资料库 内容示意图;图5为本发明语音资料库及汉字发音资料库关联示意图。
如图3所示,使用者可以通过录制模块10分别将声母音节和音调的组 合、以及韵母音节和音调的组合录制为数个音节(步骤100),以实施例而 言,注音符号71 「 T J以及拼音符号72 「x」相互对应,通过录制模块10 所录制的音节73为「 x.wav」;注音符号71 r —厶2」以及4并音符号72「 ing2 J 相互对应,通过录制模块10所录制的音节73为「 ing2.wav」;注音符号71 r卩J以及拼音符号72 r z J相互对应,通过录制模块10所录制的音节73 为r z.wav」;注音符号71 r 3 3」以及4并音符号72 「 ou3」相互对应,通过 录制模块10所录制的音节73为r ou3.wav J 。
在录制音节时,由于所储存的音节占据的容量有限,因此可以采用波形 音频格式(wav)进行储存,并且可以通过音节控制模块62对预先录制的 音节进行处理,可以控制每一个音节的播放时间以控制发音速度(步骤420), 使得发音会更接近真人发音。
接着,会通过储存模块20将所有录制的音节73储存至语音资料库30 (步骤200)中,这个语音资料库30即为发音的基本资料库,并请参照图3 所示。
如图4所示,当建立完成语音资料库30后,接着,生成模块40会依据 汉字发音规则为每一汉语字词74配置至少一注音音节组合75以及至少一4并 音音节组合76,并将注音音节组合75以及^f音音节组合76对应至语音资 料库30的音节73,以生成汉字发音资料库50 (步骤300),汉字发音资料库50与语音资料库30之间的对应关系请参考图5所示。
在汉语字词74的注音音节组合75以及拼音音节组合76中,会有缺少 声母音节或韵母音节以及声母音节或韵母音节不发音的情形,此时将以符号 字符取代注音音节组合75以及拼音音节组合76中的声母音节或是韵母音

以实施例来说,汉语字词74 「额」,注音符号71以及拼音符号72分 别为「亡'」以及「e」,此时为缺少声母音节的情形,因此本实施例中以 符号字符「 $」取代声母音节,所以在汉字发音资料库50中汉语字词74「额J 的注音音节组合75以.及拼音音节组合76分别为「 $ +亡2 J以及r $ + e2 J。
在拼音符号中,还有一种规则,具有声母音节但是却不发音,实施例中 的汉语字词74 「衣」,拼音符号72为「 yi」,此时的声母音节「 y」是不发 音的,因此,本实施例中以符号字符「 $」取代声母音节,所以在汉字发音 资料库50中汉语字词74 「衣」的注音音节组合75以及拼音音节组合76分 别为「 $ + —」以及r $ + il J 。
实施例中的汉语字词74 「只」为注音符号中缺少韵母音节的汉字,其 注音符号71为「虫v」,此时为缺少韵母音节的情形,因此本实施例中以 符号字符「 $」取代韵母音节,所以在汉字发音资料库50汉语字词74中「只J 的注音音节组合75为「虫3 + $ J 。
对照于拼音符号而言,注音符号缺少韵母音节在拼音符号中为韵母不发 音的规则,同样以汉语字词74 「只J为例,其4并音符号72为「zhi」,此时 为韵母不发音的规则,因此本实施例中以符号字符「 $ j取代韵母音节,所 以在汉字发音资料库50汉语字词74中r只」的拼音音节组合76为「 zh3 + $ J 。
实施例中的汉语字词74「啊」,为标准多音字的实施例,同时具有五 种音调,其注音符号71以及拼音符号72分别为r 丫」、「 丫 '」、「 丫 v J 、
r 丫 、 j及r 丫 j以及r al j 、 r a2 j 、 r a3 j 、 r a4 j及r a5 j ,在汉 字发音资料库50汉语字词74中「啊」的注音音节组合75以及拼音音节组 合76分别为「$+丫1」、「$+丫2」、「$+丫3」、「$+丫4」及
r $ + 丫 5 J以及r $ + al J 、 r $ + a2 j 、 r $ + a3 j 、 r $ + a4 j及r $+ a5 J 。
除此之外,也可以通过字词模块61将具有多音字字词及对应多音字字词的注音音节组合75以及拼音音节组合76储存至汉字发音资料库50 (步骤410),当所需要发音的汉语字词74中与汉字发音资料库50存储的多音字字词中相同汉字越多时,会优先进行发音。
以实施例而言,r 4亍走J以及r行业J这两个汉i吾字词74, r行走J的注音符号71以及拼音符号72分别为「 丁 1厶'卩3 v」以及「xingzou J,r行业」的注音符号71以及拼音符号72分别为r厂尤,I廿、J以及r hangye」,通过字词模块61分别在汉字发音资料库50储存的注音音节组合75以及拼音音节组合76中,r行走J即为「丁+|厶2卩+ 33」以及「 x+ ing2 z + ou3」,r 4亍业J即为「厂+尤2 $+|廿4」以及「 h + ang2 $+ ye4 J 。
最后,如图5所示,汉字发音资料库50的注音音节组合75以及拼音音节组合76对应至语音资料库30的音节73,如图所示,r行走」的注音音节组合75以及拼音音节组合76为「丁+ 1/_2卩+ 73」以及「乂 + ing2 z+ ou3」,其中,「 T」以及「 x」与语音资料库30的音节73 r x.wav」对应;r I厶2」以及「 ing2」与语音资料库30的音节73 r ing2.wav」对应;r卩J以及r z」与语音资料库30的音节73 「 z.wav」对应;「33」以及「 ou3 J与语音资料库30的音节73 「 ou3.wav」对应。
因此,当需要进行「行走J的发音时,即可以读取对应的音节73档案,并且播放,即可以达到发音的功能。
综上所述,可知本发明与先前技术之间的差异在于本发明分别将声母音节与音调的组合、韵母音节与音调的组合,录制为数个音节,并储存至语音资料库,接着对每一个汉字配置至少一音节组合,用以生成汉字发音资料库;通过汉字发音资料库与语音资料库的对应关系,可以针对每一个汉字进行个别的发音,因此,只需要储存基本的音节,以及汉字对应的音节组合,语音资料所占据的储存空间将缩小许多,并且可以对不同的单字、字词、单句以及文章的内容进行发音,藉由此一技术手段可以解决先前技术存在真人语音技术占用存储空间过大且无法对任意文章进行发音的问题,以及语音合成技术发音不准、音调不准等问题,进而达成减少语音资料储存空间以及对任意文章进行发音的技术功效。
虽然本发明所揭露的实施方式如上,但所述的内容并非用以直接限定本发明的专利保护范围。任何本发明所属技术领域中具有通常知识者,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作些许更动。本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
权利要求
1、一种汉字发音资料库生成系统,汉字发音规则为一声母音节、一韵母音节以及一音调的组合,其特征在于,包含一录制模块,分别将所述声母音节及所述音调的组合、以及所述韵母音节及所述音调的组合,录制为数个音节;一储存模块,用以将所述音节储存为一语音资料库;及一生成模块,依据每一汉字配置至少一音节组合,并将所述音节组合对应至所述语音资料库的所述音节,以生成一汉字发音资料库。
2、 如权利要求1所述的汉字发音资料库生成系统,其特征在于,所述 音节组合中,缺少所述声母音节或所述韵母音节、或者所述声母音节或所述 韵母音节不发音时,以一符号字符取代该音节组合中的该声母音节或该韵母音节。
3、 如权利要求1所述的汉字发音资料库生成系统,其特征在于,所述 音节组合包含通过姓氏、动词、形容词以及发音频率,优先排列所述音节组 合的配置顺序。
4、 如权利要求1所述的汉字发音资料库生成系统,其特征在于,还包 含一字词模块,用以将具有多音字字词的所述音节组合储存至所述汉字发音 资料库。
5、 如权利要求1所述的汉字发音资料库生成系统,其特征在于,还包 含一音节控制模块,用以控制所述音节的播放时间以控制发音速度。
6、 一种汉字发音资料库生成方法,汉字发音规则为一声母音节、 一韵 母音节以及一音调的组合,其特征在于,包含下列步骤分别录制所述声母音节及所述音调的组合、以及所述韵母音节及所述音 调的组合为数个音节;储存所述音节至一语音资料库;及依据每一汉字配置至少一音节组合,并将所述音节组合对应至所述语音 资料库的所述音节,以生成一汉字发音资料库。
7、 如权利要求6所述的汉字发音资料库生成方法,其特征在于,所述 音节组合中,缺少所述声母音节或所述韵母音节、或者所述声母音节或所述 韵母音节不发音时,以一符号字符取代该声母音节或该韵母音节。
8、 如权利要求6所述的汉字发音资料库生成方法,其特征在于,所述 音节组合包含通过姓氏、动词、形容词以及发音频率,优先排列所述音节组 合的配置顺序。
9、 如权利要求6所述的汉字发音资料库生成方法,其特征在于,还包 含储存具有多音字字词的所述音节组合至所述汉字发音资料库的步骤。
10、 如权利要求6所述的汉字发音资料库生成方法,其特征在于,还包 含控制所述音节的播放时间以控制发音速度的步骤。
全文摘要
一种汉字发音资料库生成系统及其方法,其通过分别将声母音节和音调的组合以及韵母音节和音调的组合,录制为数个音节储存为语音资料库,给汉字配置音节组合生成汉字发音资料库;通过汉字发音资料库以及语音资料库对应的技术手段,可以解决先前技术中所存在的真人语音技术占用存储空间过大且无法对任意文章进行发音的问题,以及语音合成技术发音不准、音调不准等问题,藉此可以达成减少语音资料储存空间以及对任意文章进行发音的技术功效。
文档编号G10L13/08GK101556796SQ20081008976
公开日2009年10月14日 申请日期2008年4月10日 优先权日2008年4月10日
发明者程新军, 邱全成 申请人:英业达股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1