在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法

文档序号:2833740阅读:357来源:国知局
专利名称:在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法
技术领域
本发明涉及语音合成及个性化语音合成技术领域,公开了一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法和系统。
背景技术
现有“由文本生成个性化语音的方法”的解决方案跟本发明要解决的问题有些相似,它主要包括对输入的文本进行分析,通过标准TTS数据库得出可以表征将要合成的语音的特征的标准语音参数;使用通过训练获得的参数个性化模型将所述标准语音参数变换为个性化的语音参数;以及基于所述个性化语音参数合成对应于所述输入文本的语音。传统HMM-based合成系统中,针对上下文信息构建基于maximum likelihood准则的自上而下的决策分类树,而无监督构建的音库中存在读音错误、发音缺陷、标注错误等问题,很难将问题单元正确分类,而且这些错误将影响聚类过程中分裂问题的选择,形成并非最优的决策树结构,因此我们采用了远离类中心单元的聚类方法。本发明方法包括接收用户在手机上或网页上输入的文字;将文字合成为具有蜡笔小新、马三立等音色特征的个性化声音;用户将个性化的声音设置为彩铃。利用本发明,可以实现用户制作个性化彩铃或个性化手机铃音的需求。采用C/S结构,轻量便捷,降低了用户使用门槛,提升了用户交互体验。

发明内容
本发明提案要解决的技术问题为现有技术合成的普通话、方言等音色,特征不够丰富,不能满足用户合成制作个性化音色特征的需求。本发明采用的技术方案为一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法,包括步骤I)、音库准备从网络上下载马三立、蜡笔小新、康辉、李瑞英和林志玲的音视频数据,然后从视频中提取出音频数据;步骤2)、音段切分需要语音分析下的自动分句结果和语音/非语音判断;步骤3)、声纹识别需要做目标发音人判断;步骤4)、语音识别使用普适行的语音识别模型,不做声学模型和语音模型的自适应,并利用识别结果输出切分信息、音素置信度和韵律词文本;步骤5)、文本分析直接对识别文本做前端自动文本分析,分析文本得到拼音串和分词、L3/L4预测;步骤6)、系统搭建结合音素置信度在统计建模和单元挑选阶段改进效果;步骤7)、人工调整在人工调整的情况下改善合成句效果,保证重要的用例句子的效果,并判定音库的完备性,即在最理想情况下能达到的合成效果上限,预留系统进化能力;
步骤8)、个性化声音转化利用步骤I)至7)形成个性化声音合成系统,将文字合成为具有特殊音色特征的个性化声音;在个性化合成系统搭建过程中采用了远离类中心单元的聚类方法,没有采用传统HMM-based合成系统中针对上下文信息构建基于maximumlikelihood准则的自上而下的决策分类树方法;本发明与现有技术相比技术优点为1、本发明在普通话、方言等语音合成的基础上,增加了蜡笔小新、马三立等音色特征的个性化语音合成。2、本发明用户可以通过在手机上输入文本便捷地制作个性化的彩铃或个性化的
手机铃首。


图1为针对海量个性化发音人数据系统构建流程框图示意图;图2为声纹识别正确率分布;图3为声纹识别错误率分布。
具体实施例方式下面结合附图以及具体实施方法进一步说明本发明。1、针对海量个性化发音人数据的合成系统搭建方法(如图1所示)I)、音库准备从网络上下载马三立、蜡笔小新、康辉、李瑞英和林志玲的音视频数据,然后从视频中提取出音频数据。2)、音段切分需要语音分析下的自动分句结果和语音/非语音判断。3)、声纹识别需要做目标发音人判断。4)、语音识别使用普适行的语音识别模型,不做声学模型和语音模型的自适应,并利用识别结果输出切分信息、音素置信度和韵律词文本。5)、文本分析直接对识别文本做前端自动文本分析,分析文本得到拼音串和分词、L3/L4预测。6)、系统搭建结合音素置信度在统计建模和单元挑选阶段改进效果。7)、人工调整在人工调整的情况下改善合成句效果,保证重要的用例句子的效果,并判定音库的完备性,即在最理想情况下能达到的合成效果上限,预留系统进化能力。8)、个性化声音转化利用步骤I)至7)形成个性化声音合成系统,将文字合成为具有特殊音色特征的个性化声音;在个性化合成系统搭建过程中采用了远离类中心单元的聚类方法,没有采用传统HMM-based合成系统中针对上下文信息构建基于maximum likelihood准则的自上而下的决策分类树方法。 传统HMM-based合成系统中,针对上下文信息构建基于maximum likelihood准则的自上而下的决策分类树,而无监督构建的音库中存在读音错误、发音缺陷、标注错误等问题,很难将问题单元正确分类,而且这些错误将影响聚类过程中分裂问题的选择,形成并非最优的决策树结构,因此我们采用了远离类中心单元的聚类方法。原先模型的聚类方法是初始时把所有样本当做一类作为根节点,然后遍历问题集中的问题,从中选择一个最优的问题对原有节点进行分裂,通过计算分裂前后似然值增长的大小来判定问题是否最优,最终挑选似然值增长最大的问题用来对节点进行分裂,当所有节点的似然值增长都不满足似然值增长的最低门限时,停止分裂。具体的似然值计算和似然值门限确定方法在这里我们不做详细讨论。由于样本中存在部分标注错误数据,在进行似然值增长计算时这些数据可能会产生不好的影响,因此在进行似然值计算之前我们对参与似然值计算的数据再进行一次聚类,挑选出其中离类中心近的单元参与似然值增长计算,我们认为离类中心远的数据就是标注错误数据。具体的挑选多少单元用于似然值计算要结合识别正确率确定。具体的算法流程如下首先根据公式1.1和1. 2计算出类中心和方差。
权利要求
1. 一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法,其特征在于 步骤I)、音库准备从网络上下载马三立、蜡笔小新、康辉、李瑞英和林志玲的音视频数据,然后从视频中提取出音频数据; 步骤2)、音段切分需要语音分析下的自动分句结果和语音/非语音判断; 步骤3)、声纹识别需要做目标发音人判断; 步骤4)、语音识别使用普适行的语音识别模型,不做声学模型和语音模型的自适应,并利用识别结果输出切分信息、音素置信度和韵律词文本; 步骤5)、文本分析直接对识别文本做前端自动文本分析,分析文本得到拼音串和分词、L3/L4预测; 步骤6)、系统搭建结合音素置信度在统计建模和单元挑选阶段改进效果; 步骤7)、人工调整在人工调整的情况下改善合成句效果,保证重要的用例句子的效果,并判定音库的完备性,即在最理想情况下能达到的合成效果上限,预留系统进化能力;步骤8)、个性化声音转化利用步骤I)至7)形成个性化声音合成系统,将文字合成为具有特殊音色特征的个性化声音; 在个性化合成系统搭建过程中采用了远离类中心单元的聚类方法,没有采用传统HMM-based合成系统中针对上下文信息构建基于maximum likelihood准则的自上而下的决策分类树方法。
全文摘要
本发明公开了一种在手机上或网页上接收用户输入的文字并实时合成为个性化声音的方法,涉及语音合成及个性化语音合成技术领域,该方法包括在手机或网页上输入文字;将文字合成为具有特殊音色特征的个性化声音;用户将个性化的声音设为彩铃或手机铃音,其中在个性化合成系统中采用的远离类中心单元的聚类方法这一新算法。利用本发明,可以实现用户制作个性化彩铃或个性化手机铃音的需求。
文档编号G10L17/00GK103065620SQ20121057866
公开日2013年4月24日 申请日期2012年12月27日 优先权日2012年12月27日
发明者徐鹤林, 江源, 张磊, 江涛, 聂小林, 胡国平, 胡郁 申请人:安徽科大讯飞信息科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1