一种基于综合加权算法的口型动画合成方法

文档序号:6636601阅读:222来源:国知局
一种基于综合加权算法的口型动画合成方法
【专利摘要】一种基于综合加权算法的口型动画合成方法,包括如下步骤:针对输入的汉语文本进行分析,将汉字拆分为不同的汉语可视化音素,并将这些因素发送到语音合成系统合成为基本的可视化音素流,基于MPEG-4标准建立具有真实感的参数人脸模型,使用可视化音素动画帧参数驱动模型的形变,添加背景图像和对噪声的分层次处理和添加,实现了生动、真实,效果好的口型动画合成。
【专利说明】一种基于综合加权算法的口型动画合成方法

【技术领域】
[0001] 本发明涉及人脸表情动画研究领域,更具体地说涉及到口型与语音匹配的口型动 画合成研究领域。

【背景技术】
[0002] 随着计算机动画技术的不断进步,人们对人机交互中口型动画的要求越来越高。 但是,汉语口型动画的发展相对比较落后。一方面由于口型动画是一个多学科交叉的研究 方向,包括了人机交互、计算机图形学、语音语言学等,而相关学科的发展不均衡,使得构建 一个逼真的、高自动化程度口型动画系统仍是一个极富挑战性的研究课题。另一方面,世界 上有四分之一的人说汉语,汉语口型动画系统具有极其广阔的应用市场,但是由于汉语本 身所具有的复杂性,使得目前针对汉语的语音口型动画系统的研究相对较少,发展也相对 滞后,尤其是国内学者的研究工作仍处于刚起步阶段,缺乏理论积累与技术积淀,导致了能 够实现汉语口型动画设计的软件很少,而比较著名的口型动画设计软件如Poser 口型大师 Mimic、3ds max插件Voice-O-Matic等,都主要针对英文语言,对汉语支持性较差。
[0003] 针对英语口型动画研究,先后出现了协同发音模型,文本驱动、语音驱动以及混合 驱动的方法,Guiard-Marigny等人提出了 一种基于语音和图像共同作用驱动合成口型动画 的方法,Bregler等人提出了 videoRewrite方法,该方法利用计算机视觉跟踪说话人嘴唇 的特征点,并利用变形技术将这些嘴唇姿态组合成最终的口型动画序列,Kang Liu与Jorn. Osterman提出英文中口型与字母音位的对应关系,并在MPEG-4动画标准的基础上建立脸 部、口型动画合成的算法。针对汉语口型动画方面的研究较少。汉语口型动画合成的真实 感效果在短时间内难以达到并超越国际先进水平。这就对汉语口型动画的研究提出了迫切 的要求。此外,现有技术中缺少对背景噪声以及背景图像的考虑,使得动画不够生动、真实, 并且不能根据实际需要来模拟场景,以及根据需要来调整噪声以提高动画的效果。
[0004] 本发明从构建语音驱动口型动画合成的研究角度出发,对三维唇区模型设计、唇 动序列设计、汉语语音同步算法及个性化口型建模进行深入研究,实现在输入汉语文本信 息的条件下,利用信息技术合成,输出视觉上具有高度真实感与唇音完美协调同步的虚拟 人口型动画,并且通过添加背景图像,使得动画可以根据需要来模拟各种场景,通过对噪声 的分层次处理和添加,从而使得动画生动、真实,提高了动画的效果。


【发明内容】

[0005] 本发明的目的在于克服现有技术的不足,提供一种基于综合加权算法的口型动画 合成方法,该方法能够输出视觉上具有高度真实感与唇音完美协调同步的虚拟人口型动 画,并且动画生动、真实、效果好,依次包括以下步骤 :
[0006] 步骤1 :输入汉语文本,针对输入的汉语文本进行分析,将汉字拆分为不同的汉语 可视化音素,并将这些因素发送到语音合成系统合成为基本的可视化音素流;
[0007] 步骤2 :基于MPEG-4标准建立具有真实感的参数人脸模型,使用可视化音素动画 帧参数驱动模型的形变,实现人脸口型动画;
[0008] 步骤3 :从输入汉语文本中获得与输入汉语文本同步的输入背景噪声,对输入背 景噪声进行分析,进行输入背景噪声平滑处理,得到初始输入背景噪声;
[0009] 步骤4 :从汉字拆分为不同的汉语可视化音素中分别提取音素拆分后的音素输入 背景噪声,对音素输入背景噪声进行分析,进行音素输入背景噪声平滑处理,得到初始音素 输入背景噪声;
[0010] 步骤5 :利用得到的初始音素输入背景噪声,对得到的初始输入背景噪声进行校 正,得到校正后的输入背景噪声;
[0011] 步骤6 :基于综合加权算法,获得声韵时间控制比例,添加声韵权重值因子,重新 计算单音素口型动画的时间,控制口型动画的合成,将合成的汉语语音与人脸口型动画同 I K 少;
[0012] 步骤7 :根据动画场景添加背景图像,与合成的汉语语音与人脸口型动画同步;
[0013] 步骤8 :基于综合加权算法,获得噪声时间控制比例,添加噪声权重值因子,计算 校正后的输入背景噪声的噪声同步时间;
[0014] 步骤9 :根据动画合成的需求,选择控制添加校正后的输入背景噪声,与合成汉语 语音、人脸口型动画和背景图像的合成动画进行同步,实现逼真的人脸口型动画。
[0015] 针对输入的汉语文本进行分析,将汉字拆分为不同的汉语可视化音素是将汉字按 照标准汉语拼音中声母和韵母的划分,完成口型拼音声部和口型拼音韵部的定义,将汉字 的标准拼音转换成口型声部和口型韵部符号组成的口型拼音。
[0016] 本发明的综合加权算法的口型动画合成方法实现了:
[0017] (1)基于有限特征点控制方法的三维口型建模,按照MPEG-4定义的人脸特征点参 数,选取或定义唇区特征点,追踪特征点的状态数据并进行综合分析,规范唇区状态数据进 行三维口型建模;
[0018] (2)基于韵母加权控制方法的唇动序列设计,对声部和韵部所占时间比例采用加 权重来控制其在动画合成中所起的作用;
[0019] (3)创新性地将汉语文本中标点符号对文本朗读中语音停顿的影响应用到语音口 型协同动画中,对各种标点符号在文本朗读中停顿时长进行统计分析,按照停顿时长对汉 语标点符号进行分类,并建立其停顿时长与文本朗读整体速度之间的关系模型,同时,对唇 动序列模型中的相邻唇形之间的时长比例参数进行分析,综合运用标点停顿及唇形参数模 型进行加权处理,实现语音口型协调同步的汉语语音口型动画系统;
[0020] (4)将汉语可视化的音素归类划分并与基本发音口型建立映射关系,根据汉语音 素发音口型的特征,重新划分汉语拼音的声部和韵部,对标准声母表的分类简化为基本的 六类,韵部可分为四类口型,采用一种余弦函数处理由"声部"关键帧变形为"韵部"关键帧 两种口型的过渡处理,让动画更加的平滑流畅
[0021] (5)可以添加背景图像,使得动画可以根据需求来选择不同的背景图像,从而将动 画呈现在不同的场景下,动画更加生动,真实。
[0022] (6)对噪声的分层次处理和添加,使得根据不同的场景需要,可以调整噪声的级 另IJ,例如在会议时,可以选择不添加噪声或者降低噪声的级别,使得会议可以在比较安静, 观众可以清晰听见语音的环境下进行;当需要呈现出背景噪声时,可以将背景噪声呈现或 者以需要的噪声级别呈现,例如需要伴随有背景环境中的水声、鸟叫声等,使得动画更加生 动,真实,效果更好;
[0023] (7)同样利用综合加权算法对噪声进行分层处理,使得动画合成和同步更灵活,合 成和同步后更贴近合成的需求,动画生动,真实,效果好。

【专利附图】

【附图说明】
[0024] 图1汉语语音同步口型处理流程图
[0025] 图2人脸动画参数单元图(FAPU)
[0026] 图3 口部区域模型
[0027] 图4发音实际时域波形和声韵加权控制的动画合成控制对比图

【具体实施方式】
[0028] 下面详细说明本发明的具体实施,有必要在此指出的是,以下实施只是用于本发 明的进一步说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本


【发明内容】
对本发明做出的一些非本质的改进和调整,仍然属于本发明的保护范围。
[0029] 汉语拼音发音口型特征的分析
[0030] 语音的基本单位从音色的角度划分为:音素、音节、声调和音位。音素是构成音节 的最小单位或最小的语音片段。一个音节,如果按音色的不同去进一步划分,就会得到一个 个最小的各有特色的单位,这就是音素。普通话语音共有32个音素,可以分成元音和辅音 两大类,元音音素有10个,辅音音素有22个。根据《汉语拼音方案》中提到的因素发音时 的特征,结合标准汉语拼音中声母和韵母的划分,将基本口型划分为三级,如表1。
[0031] 一般说来,一个汉字表示一个音节,例外的情况只出现在儿化音节里,这是普通话 语音里的一种特殊现象,也叫"儿化韵"音节,如"玩儿"写下来是两个方块字,但读起来却 是一个音节"wanr"。本发明中只考虑一般情况下的汉语拼音发音规律,对于上面涉及的儿 话音的特殊情况,将其分为两个音节处理,如"玩儿"在系统处理中将分析为"wan"和"er" 两个音节。
[0032] 表1汉语发音基本口型分类表 [0033]

【权利要求】
1. 一种基于综合加权算法的口型动画合成方法,其特征在于,依次包括以下步骤: 步骤1:输入汉语文本,针对输入的汉语文本进行分析,将汉字拆分为不同的汉语可视 化音素,并将这些因素发送到语音合成系统合成为基本的可视化音素流; 步骤2 :基于MPEG-4标准建立具有真实感的参数人脸模型,使用可视化音素动画帧参 数驱动模型的形变,实现人脸口型动画; 步骤3 :从输入汉语文本中获得与输入汉语文本同步的输入背景噪声,对输入背景噪 声进行分析,进行输入背景噪声平滑处理,得到初始输入背景噪声; 步骤4 :从汉字拆分为不同的汉语可视化音素中分别提取音素拆分后的音素输入背景 噪声,对音素输入背景噪声进行分析,进行音素输入背景噪声平滑处理,得到初始音素输入 背景噪声; 步骤5 :利用得到的初始音素输入背景噪声,对得到的初始输入背景噪声进行校正,得 到校正后的输入背景噪声; 步骤6:基于综合加权算法,获得声韵时间控制比例,添加声韵权重值因子,重新计算 单音素口型动画的时间,控制口型动画的合成,将合成的汉语语音与人脸口型动画同步; 步骤7 :根据动画场景添加背景图像,与合成的汉语语音与人脸口型动画同步; 步骤8 :基于综合加权算法,获得噪声时间控制比例,添加噪声权重值因子,计算校正 后的输入背景噪声的噪声同步时间; 步骤9 :根据动画合成的需求,选择控制添加校正后的输入背景噪声,与合成汉语语 音、人脸口型动画和背景图像的合成动画进行同步,实现逼真的人脸口型动画。
2. 如权利要求1所述的一种基于综合加权算法的口型动画合成方法,其特征在于:所 述针对输入的汉语文本进行分析,将汉字拆分为不同的汉语可视化音素是将汉字按照标准 汉语拼音中声母和韵母的划分,完成口型拼音声部和口型拼音韵部的定义,将汉字的标准 拼音转换成口型声部和口型韵部符号组成的口型拼音。
3. 如权利要求1所述的一种基于综合加权算法的口型动画合成方法,其特征在于:所 述基于综合加权算法,获得的声韵时间控制比例,添加声韵权重值因子,重新计算单音素口 型动画的时间,控制口型动画的合成包括以下步骤: 语音段3、13内各时间帧的特征矢量分别为乂14,其中1彡1彡凡,1彡_]_彡\4与¥ 1的欧氏距离为dij,那么a、b段的段间距离为:
Da,b为a、b间所有特征矢量距离的平均值,反映了 a、b之间的总体差异,待分割的口型 动画被划分为T帧,分别标记为1,……,T,以第t帧为分界,前后各取m帧构成两个子语 音段,即i e [t-m+1,……,t]与j e [t+1,……,t+m],得到这两个子语音段的段间距离为
计算获得的声韵时间控制比例,添加声韵权重值ws、Wy因子,重新计算单音素口型动画 的时间,控制口型动画的合成: ts = W JP; ty=wytp; 其中 ws+wy = I ; 采取M组数据每组数据N个样点,并对其进行平均化处理,经过特征系统的评估,将取 方差最小时时间数据的平均时间作为进行口型动画合成的单汉字口型动画的标准时 间。
4.如权利要求3所述的一种基于综合加权算法的口型动画合成方法,其特征在于:所 述基于综合加权算法,获得的声韵时间控制比例,添加声韵权重值因子,重新计算单音素口 型动画的时间,控制口型动画的合成还包括以下步骤:考虑汉语标点符号对连续口型变化 的影响,在合成连续动画时考虑在句内或句末出现的停顿时间较长的7种点号,即句号、叹 号、问号、顿号、逗号、分号、冒号,根据这7种标号在句中或者句末停顿时间的长短赋以不 同的权值Wbi,
Wbi代表标号中第i个标号的权重值,通过改变一定限度内的Wbi标号权重值生成类似 的训练集的基本口型,用到连续动画合成通道上。
【文档编号】G06T13/00GK104361620SQ201410712164
【公开日】2015年2月18日 申请日期:2014年11月27日 优先权日:2014年11月27日
【发明者】韩慧健, 梁秀霞, 贾可亮, 张锐, 刘峥, 其他发明人请求不公开姓名 申请人:韩慧健
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1