自动产生动画的系统与方法

文档序号：6407168阅读：152来源：国知局

专利名称：自动产生动画的系统与方法
技术领域：
本发明涉及一种自动产生动画的系统与方法，特别是有关一种通过声音分析配置脸部表情变化以自动产生动画的系统与方法，通过声音分析的资料自动配合脸部表情调整参数，以产生具备声音及表情变化动画效果的系统及方法。
背景技术：
在传统的动画技术中，常利用语音分析技术，产生对应于声音时间轴的嘴型资料，再以此资料驱动影像以产生拟似说话的角色。虽然这样的处理可以自动化，但是所产生的动画只有嘴型，没有丰富的表情变化，因此缺乏生命感及真实感。在现有的方法中，为了增加表情变化，使用者必须在对应于声音的时间轴上透过适当的制作工具--例如Timeline Editor进行动画编辑(此为KeyFrame Animation方法)，以产生表情变化的效果。这样的制作工具通常包含声音波形以时间轴图像显示的制作接口、可在画面上点选一个时间点、可在该时间点上加入Key Frame(动画格)，编辑该Key Frame(动画格)的内容、以及指定Transition等等，前述步骤重复数次的后，便能完成具备丰富表情的动画编辑，通常，为了方便制作，一些基本的编辑功能也必须包含于该制作工具中，例如删除、复制等。
然而，前述的动画编辑制作方式有三项缺点；(一)在时间轴上进行表情变化的编辑相当复杂，通常使用者必须具备高度制作动画的专业知识；(二)在时间轴上进行动画的编辑需要繁琐的编辑工具以及输入装置，产出结果的时间非常长，且亦不易在有限的输入装置(如手机)上实现这样的功能；(三)因为编辑结果是对应于特定的声音时间轴进行编辑，因此当声音资料改变时即需重新编辑，资料无法重复利用。

发明内容
本发明的目的是提供一种自动产生动画的系统与方法，特别是有关一种通过声音分析配置脸部表情变化以自动产生动画的系统与方法，通过声音分析自动配合脸部表情调整参数，以产生具备声音及表情变化动画效果。
根据本发明的一个方面，提供了一种自动产生动画的系统，通过声音或事件驱动，并依据使用者选择的情境自动产生动画，包括一情境选择接口，用于使用者选择情境模板；一情境模板数据库，用以储存情境模板资料；一情境模板处理模块，用以配置一人像影像资料及一选取的情境模板资料；一动画产生模块，用以配置一人像影像资料及一选取的情境模板资料以配置关键帧(Key Frame)资料，并依据配置完成的关键帧资料以产生动画资料。
根据本发明的另一个方面，一种自动产生动画的方法，至少包含以下步骤(a)输入及分析人像影像，并依据该影像的特征配置动态属性；(b)经由一声音分析模块辨识及分析一声音数据；(c)经由一情境模板处理模块，配对该辨识及分析完毕的声音资料及一自情境模板数据库中经手动或自动选取的情境模板资料；(d)经由一动画产生模块，依据该配置完成的声音数据及情境模板数据调整该动态属性以产生动画数据；及(e)输出该动画资料。
本发明的经由声音或事件驱动的情境模板套用系统及方法，在输入声音后，使用者只需选择想要的“情境”(Scenario)，便会自动产生有丰富表情的动画。
本发明的情境模板将原本的Key Frame(动画格)中的脸部表情调整参数资料依据不同情境加以分类，分类后的资料形成情境模板，放置于情境模板数据库中，使用者选取情境以后，对输入的声音进行分析，找出不同特性的区段，再依据选取的情境套入不同的动画变化，如此使同样的模板可以运用于长度不同的声音。
利用本发明的系统及方法，使用者只需输入照片→输入声音→点选模板，就可以完成丰富的动画输出，相当适合在有限的输入装置频繁使用的状况下操作使用(例如以手机传递短讯息)。
为了便于了解本发明的结构特征及所达成的功效，下面结合附图以较佳的实施例对本发明进行详细说明。

图1A是本发明的系统架构图；图2B是本发明的一实施例的系统架构图；图2是本发明的人像特征辨识的一实施例的示意图；图3是本发明的人像特征辨识的一实施例的另一示意图；图4是本发明的声音辨识的一实施例的示意图；图5是本发明的情境模板与声音配置的一实施例的示意图；图6是本发明的情境模板的示意图；图7是本发明的情境模板的一实施例的示意图；图8是本发明的情境模板处理模块的流程图；图9是本发明的情境模板的动画区段配对的示意图；图10是本发明的情境模板的动画状态配对的示意图；图11是本发明的系统流程图。
附图标记说明012特征点检出模块；013特征点映射模块；014声音分析模块；015情境模板处理模块；016情境模板数据库；017动画产生模块；0121、0122原始人像影像；0131通用脸部网纹资料；0141声音输入；0151模板选择接口；018动画输出；041、042、043、044、045声音转折点；050、051、052、05N、05N+1情境模板状态；061动画区段；062动画状态；063动画资料；091、092配对步骤；101、102配对步骤；111、112、113、114、115、116、117步骤。
具体实施例方式
请参阅图1A所示的本发明的系统架构图。由图1A可知，本发明的自动产生动画的系统01包括一情境选择接口0151，用于使用者选择情境模板；一情境模板数据库016，用以储存情境模板资料；一情境模板处理模块015，用以处理使用者所选取的情境模板资料；及一动画产生模块017，用以配置情境模板及人像资料完成关键帧(Key Frame)资料以产生动画资料。首先，本发明的自动产生动画系统外部的一影像读取单元先读取的一原始人像影像0122，该原始人像影像0122经读取后，使用者可使用本发明系统中的一情境选择接口0151自本发明中的一情境模板数据库016中选择一情境模板，尔后，该原始人像影像0122及该选取的情境模板经由本发明的一情境模板处理模块015的处理，最后本发明的一动画产生模块017将进行该情境模板及该原始人像资料的配置以产生关键帧(Key Frame)资料并产生动画资料018。
请再参阅图1B所示的本发明另一实施例的系统架构图。由图1B可知，本发明的自动产生动画的系统01可包括一特征点检出模块(Feature DetectionModule)012、一特征点映射模块(Feature Mapping Module)013、一声音分析模块(Voice Analysis Module)014。
首先，本发明的自动产生动画系统外部的一影像读取单元先读取的一原始人像影像0121，该原始人像影像0121经读取后便输入至本发明系统中的特征点检出模块012中进行特征点的辨识，辨识完成后，相关的人像特征将被定位完毕。尔后，本发明中的特征点映射模块(Feature Mapping Module)013利用特征点检出模块产生的特征点对一组已预先内置的通用网纹(Generic Mesh)0131进行比对调整，使其成为可进行动画处理的网纹(mesh)资料。如图2所示，本系统采用渐进式特征点映射方式(Progressive Feature Mapping)，其做法为将特征点依据五官特性区分群组，再依精细度区分为数个等级(Level)，并建立各等级间的对应关系。而通用网纹(Generic Mesh)亦有与特征点(Feature Point)对应的分组，处理时特征点(Feature Point)即负责调整对应的通用网纹(GenericMesh)。通过不断调整运算便可以得到正确的网纹输出。上述的调整运算，若在运算资源充足的系统中执行(如在桌上型计算机)，可以利用特征点将完全被检出，而得到精细的结果；而在运算资源有限的手持式装置上(如手机及PDA)，也可以只检出至较低的等级，仍能得到近似的结果。在实际应用情境中，前者可能是来自内容供货商所提供的预制资料，而后者则是使用者在手持设备上实时操作而得。该原始人像影像0121经本发明特征点检出模块012及特征点映射模块013的处理后产生的结果可如图3所示。
本发明的声音分析模块014(如图1B中所示)包含以习知技术所制作的语音辨识单元，以及分析声音特性的特性分析单元。使用者可录下一段语音资料并经由本发明的声音分析模块014进行语音的辨识及分析。语音分析单元将输入的语音辨识为音标，并包含每一个音标发生的时间。特性分析单元则是依据语音的特性，将语音分成不同特性的区段，并记录该区段的特性资料(如声音强度)及时间信息(如起始时间、声音长度)。语音经辨识及分析的结果可如图4所示。如图4所示，语音资料经本发明中声音分析模块014(如图1B中所示)辨识完毕后，共有五个声音转折点041、042、043、044及045可代表一个人在某些状况下(如生气、高兴)时说话声音变化的情形。
在声音数据经过本发明的声音分析模块处理切割为数个包含特性资料的声音区间后(如图5所示)，本发明的情境处理模块即负责进行声音区间与情境模板中资料的配对(match)。
如图6所示，情境模板资料共区分为三个主要的阶层，061动画区段(Animation Part)、062动画状态(Animation State)以及063动画资料(AnimationData)。动画区段用于表示动画的顺序性，一个动画区段可能配对至一个或一个以上的声音区间。动画状态则是用于构成所属的动画区段，在该动画区段中一个动画状态仅会对应至一个声音区间，但可重复出现，动画状态中包含一索引值。动画资料则用于表示所属动画状态位于相对时间轴上的关键帧资料(KeyFrame Data)，用于产生可驱动动画产生模块的动画资料。请参考图7，图7中显示了一个“喜极而泣”的情境模板的结构。
情境模板处理模块通过三项主要步骤进行情境模板与声音区间的配对，一是动画区段配对、二是动画状态配对、三是动画资料展开，其流程如图8所示。
动画区段配对是依据情境模板中动画区段的数量，先将生音区间做等量分割，再计算声音区间的能量差异，的后移动分割点再重新计算声音区间的能量差异，反复运算至取得能量最大差异为止，此时的分割点视为最佳的分割点。经此配对处理的结果动画区段顺序不变，且切割点位于最佳位置。
请再参考图9，图9说明一个”喜极而泣”的情境模板的动画区段配对的情形，其中含有“喜”与“泣”两组动画区段，091表示经由等量分割的配对结果，092则表示取得最佳分割后的配对结果。
动画状态配对是对每一组动画区段中的动画状态进行处理，其目的为使动画区段中的每一个声音区间均对应至一个动画状态，且动画状态可重复出现。处理方式可依据索引、以声音特性所分析的机率模型等方法。
请再参考图10，图10说明一组”喜极而泣”的动画状态配对结果，101为配对完成的动画区段，102为依据索引值配对的动画状态，103则为以声音特性配合机率模型配对的动画状态。
动画资料展开是将配对后的动画状态转换为时间轴上的动画关键帧。在情境模板中每一个动画状态均包含一段位于相对时间轴上的动画轨(AnimationTrack)，以及一个该段动画是否重复的标记，在动画状态配对后，将其所表示的动画轨移动至所配对的声音区间起始时间，即可完成该段动画资料，并可依据该动画资料是否重复的标记重复复制动画资料至声音区间结束。
如前所述，本发明情境模板处理模块(Scenario Template...)的功能在于将人像影像与语音资料做一适当的配对(match)以便于产生动画，其中，情境模板(Scenario Template)是一种模板(Template)，其用于表示一种特定的脸部表情动画情境，其中包含动画区段(Animation Part)、动画状态(Animation State)以及动画资料(Animation Data)。情境模板(Scenario Template)亦是一种利用工具预先制作的资料，可以储存于本发明的情境模板数据库(Scenario Template Database)中或一般常用的储存装置中，在经由模板选择接口0151选择后于本发明的系统中使用。在实际的状况中，可依据不同的应用需求设计不同的情境模板，其数量视应用情况而定。另外，情境模板(Scenario Template)也可以利用网络(如网际网络)或其它传输方式(如手机)下载至应用的设备中，达成资料可扩充的系统。
当人像影像资料与语音资料经由上述的程序处理后便输入至本发明的动画产生模块，产生最终的动画影像。
本发明的动画产生模块所产生的动画资料输出，包含关键帧(key frame)、以及声音资料。因此适用于可以播放声音且以key frame产生动画的系统。另外，本系统动画模块也可以是一个2D或3D的模块，配合声音播放及Key frameData，产生动画输出。
为了更进一步了解本发明的一种声音驱动的自动表情动画产生系统中各工作单元相互间的系统关系，故更进一步介绍本发明的一种声音驱动的自动表情动画产生系统的操作流程如下所示，请参阅图11，图11是本发明的系统操作流程图。由图11可知，首先，本发明的声音驱动的自动表情动画产生系统可经由外部的一影像读取单元先读取的一原始人像影像(步骤111)，该原始人像影像经读取后便输入至本发明系统中的特征点检出模块(Feature DetectionModule)中进行特征点的辨识(步骤112)，辨识完成后，相关的人像特征将被定位完毕。尔后，本发明中的特征点映射模块(Feature Mapping Module)利用特征点检出模块产生的特征点对一组已预先内建的通用网纹(Generic Mesh)资料进行比对调整，使其成为可进行动画处理的网纹(mesh)资料(步骤113)。
于上述原始人像影像辨识程序处理之前，之后或同时，使用者可录下一段语音资料并经由本发明的声音分析模块进行语音的辨识及分析(步骤114)。语音分析单元将输入的语音辨识为音标，并包含每一个音标发生的时间。特性分析单元是依据语音的特性，将语音分成不同特性的区段，并包含该区段的时间信息。
当人像影像经特征点检出及特征点映射的处理程序处理完毕，且语音资料亦经由声音分析模块的辨识及分析完毕后，处理完毕的人像影像资料及语音资料便进一步输入至本发明情境模板处理模块(Scenario Template Unit)。本发明情境模板处理模块的情境模板(Scenario Template)是一种模板(Template)，其用于表示一种特定的动画情境。在此程序中，使用者可以手动或自动的方式自情境模板数据库中(Scenario Template Database)选取一特定的情境，被选取的情境将自动依据辨识完毕的语音资料进行配对(Match)的处理(步骤115)，例如，使用者可能选择“喜极而泣”的情境，则本发明的情境模板处理模块将自动将语音资料中的抑扬顿挫的声音变化配合“喜”以及“泣”情境中脸部影像调整参数，形成声音播放时同时具备脸部“喜极而泣”的影像变化。
当人像影像资料与语音资料经由上述的程序处理后便输入至本发明的动画产生模块(步骤116)进行下一步的处理，并产生最终的动画影像(步骤117)。
于以上所描述的系统中，若忽略声音分析模块的声音特性资料，则可简化为一个仅具有三个动画区间的系统，分别为初始区间(Intro Part)、放映区间(Play Part)、结束区间(Ending Part)，并利用声音开始以及声音结束作为切割点，进行情境模板处理模块的区间配对。在这种简易系统中，初始区间以及结束区间可仅包含一个动画状态，且不重复，放映区间则为一个或数个动画状态，可索引或重复配置。这样的系统非常适合在有限运算资源的系统，如手持式设备、行动电话等，应用于声音长度较短的声音资料。
由前述系统中可知，若不进行声音分析也可以达到随声音播放产生丰富脸部动画的效果，其运作方式是以事件驱动(Event Driven)，也就是将事件视为切割点，用以进行情境模板处理模块的区间配对。
本发明所述的参考例子是在特定领域中的特定实施，因此本领域熟练技术人员应能明了本发明要义所在，进行适当、细微调整和应用，仍将不失本发明的要义所在。本发明的范围由所附的权利要求确定。
权利要求
1.一种自动产生动画的系统，通过声音或事件驱动，并依据使用者选择的情境自动产生动画，包括一情境选择接口，用于使用者选择情境模板；一情境模板数据库，用以储存情境模板资料；一情境模板处理模块，用以配置一人像影像资料及一选取的情境模板资料；及一动画产生模块，用以配置一人像影像资料及一选取的情境模板资料以配置关键帧(Key Frame)资料，并依据配置完成的关键帧资料以产生动画资料。
2.如权利要求1所述的一种自动产生动画的系统，还包括一特征点辨识模块，用来辨识一人像影像的特征点；一特征点映射模块，将该辨识完毕的该人像影像的特征点形成网纹资料；一声音分析模块，用以辨识及分析一声音资料。
3.如权利要求2所述的一种自动产生动画的系统，其中该情境模板处理模块可用以配置该辨识及分析完毕的声音数据及一选取的模板资料。
4.如权利要求2所述的一种自动产生动画的系统，其中该动画产生模块用来依据该配置完成的脸部调整参数调整网纹资料并配合声音播放及嘴形资料以产生动画。
5.如权利要求2所述的一种自动产生动画的系统，该特征点映射模块采用渐进式特征点映射方式(Progressive Feature Mapping)，其包括以下的步骤(a)将人像影像脸部的特征点依据五官特性区分为不同的群组；(b)依精细度区分为数个等级(Level)，并建立各等级间的对应关系；(c)利用该等特征点调整对应的通用网纹(Generic Mesh)；及(d)重复步骤(a)至步骤(c)以得到正确的网纹输出。
6.如权利要求1或2所述的一种自动产生动画的系统，其中该情境模板资料还包括(a)数组动画区段的资料，用于表示循序的动画；(b)数组动画状态的资料，用于以索引或机率配对至声音区间；(c)对应于每一组动画状态的动画资料；及(d)纪录以上各类型资料的数据结构，并以阶层配置。
7.如权利要求1或2所述的一种自动产生动画的系统，其中该情境模板处理模块的处理流程包括以下的步骤(a)配对情境模板资料中的动画区段，用以取得动画区段最佳分割，维持动画区段顺序不变。(b)配对情境模板资料中的动画状态，用以依据索引或机率模型配对，以组成动画区段。(c)展开情境模板资料中的动画资料，用以将各动画状态所对应的关键帧资料展开并输出为结果。
8.如权利要求1或2所述的一种自动产生动画的系统，其中该情境模板为一动态串连的脸部表情变化的情境模板。
9.如权利要求1或2所述的一种自动产生动画的系统，其中该情境模板可为一人像五官比例及相对位置变化的情境模板。
10.如权利要求1或2所述的一种自动产生动画的系统，其中该情境模板为一人像皮肤纹理质感或影像色调、明暗变化的情境模板。
11.如权利要求1或2所述的一种自动产生动画的系统，其中该情境模板可搭配一动态串联的漫画符号效果组合的情境模板。
12.一种自动产生动画的方法，至少包含以下步骤(a)输入及分析人像影像，并依据该影像的特征配置动态属性；(b)经由一声音分析模块辨识及分析一声音数据；(c)经由一情境模板处理模块，配对该辨识及分析完毕的声音资料及一自情境模板数据库中经手动或自动选取的情境模板资料；(d)经由一动画产生模块，依据该配置完成的声音数据及情境模板数据调整该动态属性以产生动画数据；及(e)输出该动画资料。
13.如权利要求12中所述的一种自动产生动画的方法，其中该动态属性可为网纹数据。
14.如权利要求12中所述的一种自动产生动画的方法，其中，步骤(a)包括以下步骤(a1)加载一人像影像；(a2)经由一特征点辨识模块辨识及定位该人像影像的人像特征；(a3)经由一特征点映射模块将该辨识完毕的该人像影像的特征点形成网纹资料。
15.如权利要求14中所述的一种自动产生动画的方法，其中，步骤(a3)与步骤(d)的处理顺序可对调。
16.如权利要求12所述的一种自动产生动画的方法，其中该情境模板为一动态串连的脸部表情变化的情境模板。
17.如权利要求12所述的一种自动产生动画的方法，其中该情境模板为人像五官比例及相对位置变化的情境模板。
18.如权利要求12所述的一种自动产生动画的方法，其中该情境模板为人像皮肤纹理质感或影像色调、明暗变化的情境模板。
19.如权利要求12所述的一种声音驱动的自动表情动画产生的方法，其中该情境模板为动态串联的漫画符号效果组合的情境模板。
全文摘要
本发明公开了一种自动产生动画的系统与方法，特别是一种通过声音分析配置脸部表情变化以自动产生动画的系统与方法，通过分析声音变化的资料自动配合储存于一情境模板数据库中的脸部表情调整参数，将一脸部表情随时间轴加以调整以自动产生具备声音及表情变化动画效果，该情境模板数据库包含数笔脸部表情调整参数，通过不同脸部表情调整参数的排列组合可产生不同的表情变化情境，再配合声音起伏转折的变化，可自动产生丰富多变的动画效果。
文档编号G06T15/70GK1710613SQ200410048270
公开日2005年12月21日申请日期2004年6月16日优先权日2004年6月16日
发明者卢泽人申请人:甲尚股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卢泽人
技术所有人：甲尚股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。