基于汉语文本驱动的人脸语音同步动画的处理方法

文档序号:6364971阅读:365来源:国知局
专利名称:基于汉语文本驱动的人脸语音同步动画的处理方法
技术领域
本发明涉及人脸语音同步动画技术领域,具体是涉及一种基于汉语文本驱动的人脸语音同步动画的处理方法。
背景技术
文字信息、声音信息和视觉信息是当今人类信息和知识的主要表现形式,同时它们也是人类进行学习和交流的重要工具。时至今日,多种信息之间的交互作用越来越受到人们的关注,把文字、声音和图像集成在一起,形成直接由文本到可视语音的转换,即语音同步的人脸动画系统,让人们在听计算机发出声音的同时能看到一个同步说话的人脸,使人机交互界面更为友好、和谐。人脸语音同步动画技术在近几十年中,从最初的存储静态图片顺序播放到如今的三维人脸实时合成动画的实现,技术的创新和产品的推出可谓是一日千里。中国科学技术大学的研究团队实现了一个与MPEG-4标准相兼容的语音同步动画系统,该系统利用一个中性的三维人头模型和正面侧面两张真人照片实现了一个三维的“说话头”(talking head),但其所实现的动画效果较为卡通化,与真实人物说话还有比较大的差距。上海交通大学的研究团队用一个中性的三维人头模型和一张正面人脸照片实现了一个人脸动画系统,但其过渡帧的插入和动画流与语音流在时间轴上的同步对齐问题处理得非常简陋和粗糙,生成的动画时常有闪烁和不自然的情况发生。经过对现有技术文献的检索发现,中国专利申请号=201010263097. 7,发明专利名称基于协同过滤算法的实时语音驱动人脸唇动同步动画系统,其特点是通过实时录入语音,使得人物头部模型做出与输入语音同步的唇部动画。该系统可以利用数字录音设备,实时地接收输入的语音信号,并实时地输出与语音同步的人脸唇部动画,在生成多模态同步库时不需要手工标注,可任意输入男女语音进行语音驱动的唇部动画。可是该系统需要专门的多模态数据采集设备同步地采集录制说话人在说话中语音和人脸三维特征点运动信息,必然增加了系统实现的难度进而限制了该系统的使用范围,而且该系统基于语音驱动, 需要事先在动画生成之前录下朗读的声音信息,不能对于任意的需要朗读的文本生成相应的动画。中国专利申请号=200910263558. 8,发明专利名称语音驱动唇形动画的方法,该方法的实现需要采集若干个人的原始音频数据和视频数据每个人读声母和韵母单词,同时使用DV或者摄像机拍摄,以获取音频流和视频流数据,需要采集的内容较多,也不是完全的自动化。

发明内容
本发明的目的在于克服上述现有技术中的不足,提供一种基于汉语文本驱动的人脸语音同步动画系统的方法,该系统完全自动化,只需要一台带摄像头的计算机,输入想要朗读的文本内容,就可以得到任意人脸朗读任意汉语文本的语音同步动画效果,输出效果真实流畅。本发明是通过以下技术方案实现的
一种基于汉语文本驱动的人脸语音同步动画的处理方法,其特征在于该方法包括下列步骤①采集人脸图像由光源将光线照在欲采集的人脸上产生表示人脸特征的反射光或透射光,再由CCD探测器将光信号转换成相应的电信号;或从存储设备中读取人脸图像;②人脸检测对步骤①所得的人脸图像进行预处理,然后利用AdaBoost算法检测人脸区域;③人脸特征提取在步骤②所检测到的人脸区域内,利用ASM算法提取人脸的特征点,其中嘴部提取32个特征点,眼睛部提取20个特征点,鼻部和脸部外围轮廓提取30个特征点;④关键帧合成根据步骤③嘴部所提取的32个特征点将嘴部图像划分为49个互不重叠的三角形区块,根据对中文可视音素的分类和定义,运用自由格式变形算法控制步骤③中提取到的特征点和所述三角形区块在人脸平面内移动和格式变形,合成出相应的人脸动画关键帧;⑤过渡帧合成首先,根据步骤④每相邻两关键帧的特征点,以时间为参数对其进行线性插值计算出过渡帧的特征点,再根据该嘴部32个过渡帧的特征点将嘴部划分为49 个互不重叠的三角形区块,对这些三角形区块运用自由格式变形算法合成出相应的人脸动画过渡帧;然后,根据16组中文可视音素和中文可视音素的定义和分类,在每相邻两帧关键帧之间插入不同数目的过渡帧;⑥中文文本输入输入中文文本或从存储设备中读取中文文本;⑦文本分析对步骤⑥所得到的文本内容进行分析,得到该文本对应的中文可视
音素流;⑧文本语音转换将步骤⑥所得到的文本内容转换为声音信号的语音流;⑨动画流与语音流同步将步骤④所合成的关键帧对齐到步骤⑧所转换的语音流上;⑩人脸语音与动画的同步输出,显示合成的人脸语音同步动画效果。所述的步骤①到步骤⑤与所述的步骤⑥到步骤⑧同时进行。所述的中文可视音素的定义和分类是指按汉语发音时的嘴唇动作特征,将所有的汉语拼音归类为16种中文可视音素类。所述的预处理是指对输入的人脸图像进行平滑滤波和角度校正处理。所述过渡帧的特征点计算公式如下巧M)=^fXjP(⑷+f^XjP(⑷,々=1,2,…,32伽七e[K)式中 P(k,t)为嘴部第 k
个特征点在t时刻时的坐标,ts为某个中文可视音素发音开始的时刻,te为该中文可视音素发音结束的时刻。所述在每相邻两关键帧之间需要插入的过渡帧数目的计算公式如下Nt=-^xTwxFv,i = \,2,---,n
sum式中外为某个汉字对应的第i个中文可视音素到第i+1个中文可视音素之间插入的过渡帧的数目,η为该汉字对应的所有中文可视音素的数目,η ( 3,Wi为该汉字对应的第i个中文可视音素的权值,Wsum为该汉字对应的所有中文可视音素的权值的总和,Tw为该汉字发音持续的时间,FvS动画播放速度,单位是“帧每秒”。汉字中的每个中文可视音素都对应着动画流中的一个关键帧,汉字中第i和i+Ι个中文可视音素就对应着动画流中两个相邻的关键帧。整个过程实现简单,操作方便,计算量小,生成的人脸语音同步动画效果真实流畅。


图I为本发明基于汉语文本驱动的人脸语音同步动画的处理方法流程图。图2为关键巾贞对齐不意图,图中Fa, Fb, Fe, Fd为中文可视首素关键中贞。
具体实施例方式下面结合附图和实施例对本发明的技术方案做详细描述,但不应以此限制本发明的保护范围。将汉语拼音字母表按照发音时嘴唇动作特征分为16组中文可视音素组,见表1, 并定义中文可视音素的权值,表征其发音时候的嘴唇动作大小,如表2所示。表I为中文可视音素分组,表2为中文可视音素权值表。表I
权利要求
1.一种基于汉语文本驱动的人脸语音同步动画的处理方法,其特征在于该方法包括下列步骤①采集人脸图像由光源将光线照在欲采集的人脸上产生表示人脸特征的反射光或透射光,再由CCD探测器将光信号转换成相应的电信号;或从存储设备中读取人脸图像;②人脸检测对步骤①所得的人脸图像进行预处理,然后利用AdaBoost算法检测人脸区域;③人脸特征提取在步骤②所检测到的人脸区域内,利用ASM算法提取人脸的特征点, 其中嘴部提取32个特征点,眼睛部提取20个特征点,鼻部和脸部外围轮廓提取30个特征点④关键帧合成根据步骤③嘴部所提取的32个特征点将嘴部图像划分为49个互不重叠的三角形区块,根据对中文可视音素的分类和定义,运用自由格式变形算法控制步骤③ 中提取到的特征点和所述三角形区块在人脸平面内移动和格式变形,合成出相应的人脸动画关键帧;⑤过渡帧合成首先,根据步骤④每相邻两关键帧的特征点,以时间为参数对其进行线性插值计算出过渡帧的特征点,再根据该嘴部32个过渡帧的特征点将嘴部划分为49个互不重叠的三角形区块,对这些三角形区块运用自由格式变形算法合成出相应的人脸动画过渡帧;然后,根据16组中文可视音素和中文可视音素的定义和分类,在每相邻两帧关键帧之间插入不同数目的过渡帧;⑥中文文本输入输入中文文本或从存储设备中读取中文文本;⑦文本分析对步骤⑥所得到的文本内容进行分析,得到该文本对应的中文可视音素流;⑧文本语音转换将步骤⑥所得到的文本内容转换为声音信号的语音流;⑨动画流与语音流同步将步骤④所合成的关键帧对齐到步骤⑧所转换的语音流上;⑩人脸语音与动画的同步输出。
2.根据权利要求I所述的人脸语音同步动画的处理方法,特征在于,所述的步骤①到步骤⑤与所述的步骤⑥到步骤⑧同时进行。
3.根据权利要求I或2所述的人脸语音同步动画的处理方法,特征在于,所述的中文可视音素的定义和分类是指按汉语发音时的嘴唇动作特征,将所有的汉语拼音归类为16种中文可视音素类。
4.根据权利要求I或2所述的人脸语音同步动画的处理方法,特征在于,所述的预处理是指对输入的人脸图像进行平滑滤波和角度校正处理。
5.根据权利要求I或2所述的人脸语音同步动画的处理方法,特征在于,所述过渡帧的特征点计算公式如下
6.根据权利要求I或2所述的人脸语音同步动画的处理方法,特征在于,所述在每相邻两关键帧之间需要插入的过渡帧数目的计算公式如下
全文摘要
本发明公开了一种基于汉语文本驱动的人脸语音同步动画的处理方法,首先按照汉语拼音发音时嘴唇动作的大小特征将所有中文音素归为16组中文可视音素并用输入的人脸图像合成对应的关键帧;其次分析输入文本得到其对应的中文可视音素序列和动画的关键帧序列;然后在每两个相邻关键帧之间插入过渡帧;再将关键帧序列与语音流对齐;最后同时播放语音流和动画流以实现人脸语音同步动画。本发明在输入任意的人脸头像和任意的文本内容后,可以全自动地完成人脸动画的生成和输出,操作简单、效果流畅,适用于可视化人机界面、计算机游戏、对外汉语教学等多种场合。
文档编号G06T13/00GK102609969SQ201210037528
公开日2012年7月25日 申请日期2012年2月17日 优先权日2012年2月17日
发明者唐品, 杜鹏, 樊延峰, 赵群飞, 邓杰 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1