一种可交互中文文本语音合成系统及方法与流程

文档序号:11954759阅读:603来源:国知局
一种可交互中文文本语音合成系统及方法与流程

本发明涉及智能语音合成技术领域,特别涉及一种可交互中文文本语音合成系统及方法。



背景技术:

一个成功的语音合成系统包括文本分析、合成语音以及韵律控制模块,最终输出音质清晰、自然流畅的语音。现有的中文文本语音合成系统有很多,通过直接调用TTS(text to speech)合成语音,或者丰富语音库数据,改进语音引擎算法来提高合成语音的流畅度和朗读韵律。这类语音合成系统能够对文本中普通的单字和词组正确识别,但是,对于多音字以及一些特殊的文字组合,这个语音合成系统不能进行准确的识别,造成断句错误,韵律不和谐,导致听众对文本语义的误解,以及听力上的不适。

通常在设计中文文本语音合成系统时,最基本的设计方案是将输入的文字拆解成单字或者常用的词组,在语音库中查找相对应的语音,并合成输出。这种方案实现简单,缺点也显而易见,就是读音过于机械,不带任何语调的起伏,听觉体验过差。或者使用TTS(Text-To-Speech)文字朗读引擎,它是基于COM/DCOM技术的一种将文本内容转化为语音的工具。这种技术是建立在阅读规则上的语音合成,因此在语气的转折和单词的连接上比较自然,问句和祈使句的升降调也能够表现出来。此外,它还可以由使用者自己设定男女发音、调节音量和朗读速度。但是由于中文中有很多的多音字,而多音字的使用场景和词组(如人名、地名等)并不能完全固定,在根据规则进行朗读时就会造成读音错误的问题,比如,人名“任我行(xing)”,TTS引擎并不能正确识别,只能随机选择一个读音,如hang,实际上是错误的。

针对电子设备中的中文文本语音合成系统中多音字读音不准、不能根据用户需求进行改动和纠错的问题,本发明提出了一种可交互中文文本语音合成系统及方法。旨在为语音合成系统预留接口,按照用户的偏好进行朗读,避免原始语音规则设计的缺陷,实现文本内容的在语气的转折和单词的连接上的自然和表现问句和祈使句的升降调,保证语音合成后的自然和流畅。



技术实现要素:

本发明为了弥补现有技术的缺陷,提供了一种简单高效的可交互中文文本语音合成系统及方法。

本发明是通过如下技术方案实现的:

一种可交互中文文本语音合成系统,其特征在于:包括文本输入模块,规则输入模块,中文朗读模块和退出系统模块,所述中文朗读模块包括发音子模块,调节语速子模块,暂停子模块和停止子模块;通过所述文本输入模块输入待朗读的文字,通过所述规则输入模块输入用户设定的朗读规则,通过所述中文朗读模块对输入的待朗读文字进行朗读,停止朗读和暂停朗读操作,并可通过调节语速子模块对语速进行适当调整。

本发明可交互中文文本语音合成方法,其特征在于包括以下步骤:

(1)由用户输入待朗读的文档和用户设定的规则和关键词,设定词组对应的拼音,同时在系统中生成文档和用户语音规则库;

(2)在系统中调入汉语拼音库和语音库,所述语音库总体包括语音索引子库和语音数据子库两部分;其中,语音数据子库是声音的真正数据部分,语音索引子库是拼音与声音建立的索引关系,用于将拼音文字信息快速转化成真正的声音;

(3)在合成语音过程中,系统首先定位用户输入的关键词,将关键词的拼音转化为用户指定规则的拼音,和其他非关键词一起进行语音索引,查找合适的语音,最后合成并播放。

用户通过向所述用户语音规则库中输入自行设定的多音字读音偏好,对系统进行改善,同时系统通过用户语音规则库记录用户的朗读习惯,对系统中原有的错误的多音字发音规则进行修改,智能学习,进而改善朗读效果。

本发明的有益效果是:该可交互中文文本语音合成系统及方法,为语音合成系统预留接口,用户能够自主设定规则,按照用户的偏好进行朗读,同时系统不断的修正原始语音合成规则,完善系统自身,能够避免原始语音规则设计的缺陷,实现文本内容的在语气的转折和单词的连接上的自然和表现问句和祈使句的升降调,保证语音合成后的自然和流畅。

附图说明

附图1为本发明可交互中文文本语音合成系统示意图。

附图2为本发明可交互中文文本语音合成方法示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

该可交互中文文本语音合成系统及方法,包括文本输入模块,规则输入模块,中文朗读模块和退出系统模块,所述中文朗读模块包括发音子模块,调节语速子模块,暂停子模块和停止子模块;通过所述文本输入模块输入待朗读的文字,通过所述规则输入模块输入用户设定的朗读规则,通过所述中文朗读模块对输入的待朗读文字进行朗读,停止朗读和暂停朗读操作,并可通过调节语速子模块对语速进行适当调整。

本发明可交互中文文本语音合成方法,其特征在于包括以下步骤:

(1)由用户输入待朗读的文档和用户设定的规则和关键词,设定词组对应的拼音,同时在系统中生成文档和用户语音规则库;

(2)在系统中调入汉语拼音库和语音库,所述语音库总体包括语音索引子库和语音数据子库两部分;其中,语音数据子库是声音的真正数据部分,语音索引子库是拼音与声音建立的索引关系,用于将拼音文字信息快速转化成真正的声音;

(3)在合成语音过程中,系统首先定位用户输入的关键词,将关键词的拼音转化为用户指定规则的拼音,和其他非关键词一起进行语音索引,查找合适的语音,最后合成并播放。

用户通过向所述用户语音规则库中输入自行设定的多音字读音偏好,对系统进行改善,同时系统通过用户语音规则库记录用户的朗读习惯,对系统中原有的错误的多音字发音规则进行修改,智能学习,进而改善朗读效果。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1