一种嵌入式设备英文单词分割成语音数据的系统及方法

文档序号:6443360阅读:365来源:国知局
专利名称:一种嵌入式设备英文单词分割成语音数据的系统及方法
技术领域
本发明涉及一种嵌入式设备英文单词分割成语音数据的系统及方法,尤其是关于嵌入式设备通过基本音素合成英文单词的系统及方法。
背景技术
真人发音的功能,已成为嵌入式设备主要诉求的特色,因此为了提升嵌入式设备在市场的竞争力,各家厂商无不在兼顾生产成本低廉的要求下,专注于发音功能的改进,就英文而言,真人录制各英文单词的声波,将耗用掉嵌入式设备的语音数据存储器相当多的储存空间,此方式受限于输出设备,所以无法降低成本。后续发展出的发音合成方式,达到接近真人发音功能,以节省语音数据存储器的空间,并提高声音品质,其合成发音的方式为征服辞典英文单词中的音标决定音节,因而在合成一个英文单词的语音数据前必需先将此英文单词分割为音节音素,再从原始录音数据中摘取对应的音节音素的声波,并加以结合。 但这种方式在无法从原始录音数据中获取到音素时,将导致此英文单词无法发音。另有合成发音的方式为录制所有各种声母、韵母及音调组合的各个音节音素的声波,并储存于语音数据存储器中,在合成一个英文单词的语音数据前,先将此英文单词分割为音节音素,再从录制的各音节找出相对应的声波,加以结合,如此一来,各个音节音素的声波的储存量将耗用掉语音数据存储器相当的储存空间。加上音素与音素表,其将占用很大储存空间。

发明内容
本发明为解决背景技术中存在的上述技术问题,而提出一种嵌入式设备英文单词分割成语音数据的系统及方法。本发明的技术解决方案是本发明为一种嵌入式设备英文单词分割成语音数据的系统,其特殊之处在于该系统包括语音数据存储器,储存有相互对应的基本音素声波组合,其中基本音素组合包括有数个声母音素声波及数个韵母音素,基本音素组合包括有数个声母音素;处理模块,与语音数据存储器连接,根据基本音素组合,对英文单词作分割,得到组成英文单词的一个以上的声母音素及一个以上的母音素,且处理模块根据英文单词分割成的声母音素及声母音素,在语音数据存储器中取得对应的声母声波及韵母声波,并使处理模块将其结合成英文单词的语音数据。上述装置包括有发音器,在处理模块将英文单词的语音数据传输给发音器后,由发音器发音。一种嵌入式设备英文单词分割成语音数据的方法,其特殊之处在于该方法包含下列步骤I)以数个声母音素及多个韵母音素所构成的基本音系组合对读英文单词作分割, 而得到组成英文单词的一个以上的声母音素及一个以上的韵母音素;2)从基本音素组合中,取得对应于英文单词分割所得的声母音素及声母音素声波及母音素声波;
3)结合声母音素声波与母音素声波,而得到英文中字的语音数据。上述步骤3)包括步骤包括对英文单词的语音数据发音。


图I为本发明方法步骤流程图;图2为本发明方法进行分词匹配实施例的步骤流程图。
具体实施例方式参见图1,一种嵌入式设备英文单词分割成语音数据的方法,该方法包含下列步骤I)以数个声母音素及多个韵母音素所构成的基本音系组合对读英文单词作分割, 而得到组成英文单词的一个以上的声母音素及一个以上的韵母音素;2)从基本音素组合中,取得对应于英文单词分割所得的声母音素及声母音素声波及母音素声波;3)结合声母音素声波与母音素声波,而得到英文中字的语音数据。步骤3)包括步骤包括对英文单词的语音数据发音。一种嵌入式设备英文单词分割成语音数据的系统,该系统包括语音数据存储器, 储存有相互对应的基本音素声波组合,其中基本音素组合包括有数个声母音素声波及数个韵母音素,基本音素组合包括有数个声母音素;处理模块,与语音数据存储器连接,根据基本音素组合,对英文单词作分割,得到组成英文单词的一个以上的声母音素及一个以上的母音素,且处理模块根据英文单词分割成的声母音素及声母音素,在语音数据存储器中取得对应的声母声波及韵母声波,并使处理模块将其结合成英文单词的语音数据。英文单字词句发音合成方法从开始展开,包含下列步骤以数个声母音素及多个韵母音素所构成的基本音系组合对读英文单词作分割,而得到组成英文单词的一个以上的声母音素及一个以上的韵母音素。提供具有多个分词的分词词库、虚词黏词规则表及具有多个单字发音波形数据的发音数据库。其中,分词指有意义的词汇,人们在发音此类词汇时会习惯缩短尾音, 或是说完此分词后会略作停顿。除了上述分词之外,人们在发音虚词时会与前后词相黏发音,虚词黏词规则表便是记录会与前后词相黏发音的虚词以及此虚词的黏词规则。虚词包含副词或量词,例如副词“很”或“最”与后面的词相黏发音,而量词则是与前面的词相黏发音,也会与后面的词相黏发音。从基本音素组合中,取得对应于英文单词分割所得的声母音素及声母音素声波及母音素声波。扫描英文单字词句取得字词,并根据分词词库对字词进行分词匹配。以正向扫描此英文单字词句,而正向为此英文单字词句念读方向,由左至右或由上至下。结合声母音素声波与母音素声波,而得到英文中字的语音数据。根据虚词黏词规则表对字词进行虚词组词处理。实施上,搜寻汉词句中的虚词,若汉词句中有虚词,则根据虚词黏词规则表判断出与虚词相黏的字词。以英文单字词句为例,在分词库中可能无法匹配成功,但在虚词黏词规则表中记录“很”是虚词,则可把“很”与之后的字“好”组成分词。此外,除了分词匹配与虚词组词处理外,视需要可进行歧义词处理,用来搜寻汉词句中是否具有歧义词,来确认英文单字词句停顿点的正确性,歧义词指前后可能有多种组合的词,例如字尾是“子”的词。若汉词句中有歧义词,则从歧义词的最后一个字逆向逐字加字匹配,找到最长词的结束点。逆向为与英文单字词句念读方向相反的方向。以英文单字词句“分解成分子”为例,若无进行歧义词处理,则英文单字词句可能会被分隔成“分解” “成分” “子”,但是此分隔结果与原义不符。由于汉词句具有“子”,而字尾为“子”的分词为歧义词,因此逆向逐字加字匹配后,可匹配出最长词“分子”,因此英文单字词句会分隔成“分解” “成” “分子”,符合英文单字词句的原意。从发音数据库中取得对应汉词句所包含的单字的单字发音波形数据,并根据停顿点合成单字发音波形数据。例如,进行合成时,可缩短分隔词单字的尾音。此外,进行合成时,可在停顿点插入停顿信号。合成发音后,结束此流程。参见图2,实施例包含下列步骤步骤21依序从英文单字词句中读取汉字,并将读取的汉字储存在缓冲区中。步骤22判断缓冲区内汉字的数目是否大于1,若否,则进行步骤 21。若缓冲区内汉字的数目大于1,则步骤23根据分词词库进行分词匹配,并在步骤 24判断匹配是否成功。若匹配成功,则进行步骤21。因为有意义的分词的字数并不固定, 且部分分词包含其它有意义的分词,所以需要再利用下一个汉字作进一步确认。若匹配不成功,则步骤25在缓冲区内最后一个汉字及倒数第2个汉字之间设定停顿点,将缓冲区中的第一个汉字到倒数第2个汉字从缓冲区移除,留下最后一个汉字继续进行分词匹配。在步骤26判断汉词句中是否有尚未读取的汉字,若是,则进行步骤21,若否,则结束此流程。完成分词匹配后,可进行虚词组词处理,先搜寻汉词句中是否有虚词,若有,则根据虚词黏词规则表判断出与此虚词相黏的字词。因此,搜寻“很”这个虚词后,根据虚词黏词规则表,将“很”与其后的“好”组成分词,由此可提高英文单字词句合成发音的自然度。下列表一列出英文单字词句进行分词匹配及虚词组词处理的过程。进行完分词匹配及虚词组词处理后,视需要可再进行歧义词处理,搜寻英文单字词句中是否具有歧义词,用来确认英文单字词句的停顿点的正确性。在上述说明中,将分词匹配、虚词组词处理及歧义词处理分开说明,但并不限制分词匹配、虚词组词处理及歧义词处理必须分开进行,将分词匹配、虚词组词处理或歧义词处理混合进行也在本发明保护范围内。而分词匹配的方式不限于上述实施例,凡可将英文单字字句中有意义的词汇以匹配方式进行判断,皆在本发明保护范围内。
权利要求
1.一种嵌入式设备英文单词分割成语音数据的系统,其特征在于该系统包括语音数据存储器,储存有相互对应的基本音素声波组合,其中基本音素组合包括有数个声母音素声波及数个韵母音素,基本音素组合包括有数个声母音素;处理模块,与语音数据存储器连接,根据基本音素组合,对英文单词作分割,得到组成英文单词的一个以上的声母音素及一个以上的母音素,且处理模块根据英文单词分割成的声母音素及声母音素,在语音数据存储器中取得对应的声母声波及韵母声波,并使处理模块将其结合成英文单词的语音数据。
2.根据权利要求I所述的一种嵌入式设备英文单词分割成语音数据的系统,其特征在于所述装置包括有发音器,在处理模块将英文单词的语音数据传输给发音器后,由发音器及曰。
3.一种嵌入式设备英文单词分割成语音数据的方法,其特征在于该方法包含下列步骤1)以数个声母音素及多个韵母音素所构成的基本音系组合对读英文单词作分割,而得到组成英文单词的一个以上的声母音素及一个以上的韵母音素;2)从基本音素组合中,取得对应于英文单词分割所得的声母音素及声母音素声波及母音素声波;3)结合声母音素声波与母音素声波,而得到英文中字的语音数据。
4.根据权利要求3所述的一种嵌入式设备英文单词分割成语音数据的方法,其特征在于所述步骤3)包括步骤包括对英文单词的语音数据发音。
全文摘要
本发明为一种嵌入式设备英文单词分割成语音数据的系统,包括语音数据存储器,储存有相互对应的基本音素声波组合,其中基本音素组合包括有数个声母音素声波及数个韵母音素,基本音素组合包括有数个声母音素;处理模块,与语音数据存储器连接,根据基本音素组合,对英文单词作分割,得到组成英文单词的一个以上的声母音素及一个以上的母音素,且处理模块根据英文单词分割成的声母音素及声母音素,在语音数据存储器中取得对应的声母声波及韵母声波,并使处理模块将其结合成英文单词的语音数据。本发明为解决背景技术中存在的上述技术问题,而提出一种嵌入式设备英文单词分割成语音数据的系统及方法。
文档编号G06F17/22GK102591938SQ20111044318
公开日2012年7月18日 申请日期2011年12月17日 优先权日2011年12月17日
发明者陈淮琰 申请人:无敌科技(西安)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1