专利名称:一种特定人语音合成技术在手机漫画配音中的应用方法
技术领域:
本发明涉及语音变声技术领域,公开了一种特定人语音合成技术在手机漫画配音中的应用方法,该方法在手机上接收用户输入的文字,通过特定人语音合成技术,生成模拟多种不同发音人音调和音色的音频数据,对图片或漫画进行配音的方法和系统,该方法包括:I)通过收集目标发音人的少量语音数据(50-100句),实现具有其发音特点的语音合成系统的快速构建;2)接收用户在手机上输入的文字,将文字通过个性化合成技术,并设置合成模版参数,实现各种模拟男女对话、老少对话等的合成音频,实现手机图片、漫画的配音。利用本发明,可以将用户输入的文字,转化为指定人的声音甚至是自己亲属的声音实现对手机图片、漫画的配音,增加了趣味性,提升了用户交互体验。
背景技术:
现有一些应用“对图片配音”的解决方案主要是采用人工录音的方式对图片进行配音,配音效果单一,不能实现将声音转变成不同目标人、甚至是自己亲属声音的等有趣效果O现有技术的缺点为:现有图片漫画配音大多采用人工录音的方案,配音效果单一,很难满足用户对有趣好玩等的应用需求。
发明内容
本发明要解决以下几个问题:1、从声音模拟目标人角度来看,需要解决只采集目标人少量语音数据的情况下模拟合成的发音人声音的相似度问题。2、从业务的角度来看,模拟发音人声音需要采集发音人一定量的语料,如果让用户在采集语料时不感到厌烦,同时不需要花费大量的时间成本。本发明采用的技术方案为:一种特定人语音合成技术在手机漫画配音中的应用方法,该方法包括如下步骤:步骤I)、模型训练步骤:a)、特定语料库准备需要根据用户日常用语、生日祝福、励志语录、网络流行语的分类构建语料库,每个分类至少收集百句以上的典型语料;b)、用户个人虚拟形象设定用户可以通过手机端程序可以新建自己的虚拟形象,也可以创建给自己的亲属各创建一个虚拟形象;C)、虚拟形象驯养程序模拟养鹦鹉的场景,需要每天不定时对鹦鹉的虚拟形象说话,鹦鹉重复一句,用户说话的内容由程序随机从第a)步系统准备的语料库里面随机选取,采用这种方式利用用户的零碎时间采集用户的声音数据,并上传到后台系统;d)、声学模型训练
后台系统将根据第c)步骤收集过来的用户声音数据,进行声学模型训练,生成用户个人虚拟形象音库资源,给出用户的虚拟形象模拟用户声音的当前相似度,在客户端虚拟形象上可以采用鹦鹉从幼鸟生长为成鸟或者鹦鹉的人气值不断升高等设计来模拟虚拟形象的成长过程;e )、系统预置个性化音库资源后台系统在用户的个人虚拟形象未训练完成或者希望更多个性化声音效果时,可以选用系统预置的一些特色的方言、明星音库;步骤2)、文字配音流程:用户在手机客户端程序上,选择有趣的漫画或图片,输入适合漫画的文字,输入完成后用户可以选择自己驯养的虚拟形象,也可以以道具的方式购买选用系统预置的虚拟形象,客户端程序将使用用户选择的虚拟形象对应的后台音库资源合成出音频文件,在客户端合成为MV等视频文件,生成有声漫画,供用户进行娱乐和分享给好友欣赏;在选择虚拟形象的过程中,用户可以根据漫画上下文需要,给不同的文字选择不同的虚拟形象如男女,或者自己的亲属虚拟形象,系统将合成出生动的对话效果,增强漫画的趣味性。本发明与现有技术相比的技术优点为:1、采用特定语音合成技术的技术方案,替换人工录音,解决了配音单调问题,增强了趣味性。2、用户可以通过在手机上输入文本便捷地制作个性化手机有声图片或漫画。3、采用特定人语音合成技术,只需采集少量目标的人声音数据,即可达到基本相像的效果。
图1为用户训练个性化音库配音系统构建流程框图;图2为声学模型训练框图的示意图。
具体实施例方式下面结合附图及具体实施例进一步说明本发明。1、技术及业务流程,如图1所示。I)、模型训练流程a)、特定语料库准备需要根据用户日常用语、生日祝福、励志语录、网络流行语等分类构建语料库,每个分类至少收集百句以上的典型语料。b)、用户个人虚拟形象设定用户可以通过手机端程序可以新建自己的虚拟形象,也可以创建给自己的亲属各创建一个虚拟形象。C)、虚拟形象驯养程序模拟养鹦鹉的场景,需要每天不定时对鹦鹉(虚拟形象)说话,鹦鹉重复一句,用户说话的内容由程序随机从第a)步系统准备的语料库里面随机选取,采用这种方式利用用户的零碎时间通过移动手机网络远程采集用户的声音数据,同时不让用户感到厌烦,并上传到后台系统。d)、声学模型训练后台系统将根据第c)步骤收集过来的用户声音数据,进行声学模型训练,生成用户个人虚拟形象音库资源,给出用户的虚拟形象模拟用户声音的当前相似度。在客户端虚拟形象上可以采用鹦鹉从幼鸟生长为成鸟或者鹦鹉的人气值不断升高等设计来模拟虚拟形象的成长过程。具体技术实现算法参考下面介绍的声学模型训练方法。e )、系统预置个性化音库资源后台系统在用户的个人虚拟形象未训练完成或者希望更多个性化声音效果时,可以选用系统预置的一些特色的方言、明星音库等。2)、文字配音流程用户在手机客户端程序上,选择有趣的漫画(图片),输入适合漫画的文字。输入完成后用户可以选择自己驯养的虚拟形象,也可以以道具的方式购买选用系统预置的虚拟形象。客户端程序将使用用户选择的虚拟形象对应的后台音库资源合成出音频文件,在客户端合成为MV等视频文件,生成有声漫画,供用户进行娱乐和分享给好友欣赏。在选择虚拟形象的过程中,用户可以根据漫画上下文需要,给不同的文字选择不同的虚拟形象如男女,或者自己的亲属 虚拟形象,系统将合成出生动的对话效果,增强漫画的趣味性。2、系统关键模块的详细说明I)用户个人虚拟形象音库资源构建可以模拟成养鹦鹉场景,每天对鹦鹉说一句特定预定的语料,鹦鹉同样跟学一句,手机程序自动将用户录音上传到系统后台,进行声学模型训练。用户根据预定的语料和鹦鹉说的越多,系统收集用户的特定语料就越多,训练出来的声学模型对用户声音的模拟就越相似。目前实验结果表明,只要100句以上就能达到基本相像的效果。2)声学模型训练算法根据用户输入的少量录音进行声学模型训练。具体实现技术除利用科大讯飞专利《一种结合高层描述信息和模型自适应的说话人转换方法》(专利号200610039680.3)外,还增加了模型自适应算法处理。具体如图2所示框图的加粗虚线框图部分。该算法为最小生成误差线性回归模型自适应方法:①、利用自适应数据,由最大似然线性回归模型自适应算法,计算源说话人到目标说话人的转换矩阵M ;②、根据源说话人的声学模型λ和源说话人模型到目标说话人模型的转换矩阵Μ,得到目标说话人模型,通过传统的基于最大似然的参数生成方法,估计与自适应数据的声学参数C各帧相对应的生成声学参数Μ),其中:C = [C1, C2, , cT](I)C(I5M) = Tcl5C2,...,^'
」UT为总帧数,C1, C2到Ct定义如下公式(3),这里采用的声学参数为线谱频率参数(Isf)JP:
权利要求
1.一种特定人语音合成技术在手机漫画配音中的应用方法,其特征在于:该方法包括如下步骤: 步骤I)、模型训练步骤: a)、特定语料库准备 需要根据用户日常用语、生日祝福、励志语录、网络流行语的分类构建语料库,每个分类至少收集百句以上的典型语料; b)、用户个人虚拟形象设定 用户可以通过手机端程序可以新建自己的虚拟形象,也可以给自己的亲属各创建一个鹦鹉虚拟形象; C)、虚拟形象驯养 程序模拟驯养鹦鹉的场景,需要每天不定时对鹦鹉的虚拟形象说话,鹦鹉重复一遍,用户说话的内容由程序随机从第a)步系统准备的语料库里面随机选取,采用这种方式利用用户的零碎时间采集用户的声音数据,并上传到后台系统; d)、声学模型训练 后台系统将根据第c)步骤收集过来的用户声音数据,进行声学模型训练,生成用户个人虚拟形象音库资源,给出用户的虚拟形象模拟用户声音的当前相似度,在客户端虚拟形象上可以采用鹦鹉从幼鸟生长为成鸟或者鹦鹉的人气值不断升高等设计来模拟虚拟形象的成长过程; e)、系统预置个性化音库资源 后台系统在用户的个人虚拟形象未训练完成或者希望更多个性化声音效果时,可以选用系统预置的一些特色的方言、明星音库; 步骤2)、文字配音流程: 用户在手机客户端程序上,选择有趣的漫画或图片,输入适合漫画的文字,输入完成后用户选择自己驯养的虚拟形象,或者以道具的方式购买选用系统预置的虚拟形象,客户端程序将使用用户选择的虚拟形象对应的后台音库资源合成出音频文件,在客户端合成为MV等视频文件,生成有声漫画,供用户进行娱乐和分享给好友欣赏;还可以将合成出的音频文件设置成用户彩铃和来电铃声; 在选择虚拟形象的过程中,用户可以根据漫画上下文需要,给不同的文字选择不同的虚拟形象如男女,或者自己的亲属虚拟形象,系统将合成出生动的对话效果,增强漫画的趣味性。
全文摘要
本发明公开了一种特定人语音合成技术在手机漫画配音中的应用方法,该方法在手机上接收用户输入的文字,通过特定人语音合成技术,生成模拟多种不同发音人音调和音色的音频数据,对图片或漫画进行配音;接收用户在手机上输入的文字,将文字通过特定人语音合成技术,并设置合成模版参数,实现各种模拟男女对话、老少对话等的合成音频,实现手机图片、漫画的配音。本发明将用户输入的文字,转化为指定人的声音甚至是自己亲属的声音,实现对手机图片、漫画的配音,增加了趣味性,提升了用户交互体验。
文档编号G10L13/033GK103117057SQ20121057931
公开日2013年5月22日 申请日期2012年12月27日 优先权日2012年12月27日
发明者唐义平, 江源, 孙见青, 江涛, 聂小林, 徐佳佳 申请人:安徽科大讯飞信息科技股份有限公司