图像处理装置、显示装置、动画生成方法以及动画显示方法与流程

文档序号：11277371阅读：227来源：国知局

本发明涉及图像处理装置、显示装置、动画生成方法以及动画显示方法。

背景技术：

以往，已知一种影像输出装置，通过向形成为内容的轮廓的形状的屏幕投影内容，由此能够对阅览者加深印象(参照专利文献1)。例如，通过向人形状的屏幕投影人对商品等进行说明的动画内容，由此能够得到好像人站立在那里那样的具有存在感的投影像。

此外，近年来，利用了基于1张面部图像和语音数据来生成与语音相匹配地使面部图像的嘴活动的唇音同步动画的技术。在唇音同步动画中，例如，根据所发音的声音的母音使嘴的形状变化。

专利文献1：日本特开2011-150221号公报

然而，如专利文献1所记载的那样，在使用人形状的屏幕的情况下，优选根据1张面部图像来生成唇音同步动画，并将其作为内容进行显示。其原因在于，在使用对人物进行摄影而得到的动态图像作为内容的情况下，当在摄影时人活动了时，人物像不会收到屏幕中、需要进行繁琐的调整。

然而，唇音同步动画仅根据声音使嘴活动，因此存在缺乏表现力这样的问题。

技术实现要素：

本发明的目的在于，提高基于面部图像生成的动画的表现力。

为了实现上述的目的，本发明的图像处理装置，具备：

表情附加部，对于与语音的输出一起显示的面部图像附加与上述语音对应的表情；以及

生成部，生成使附加有上述表情的面部图像中包含的嘴根据上述语音活动的动画。

发明的效果

根据本发明，能够提高基于面部图像生成的动画的表现力。

附图说明

图1是表示图像处理装置的功能的构成的框图。

图2是表示由图1的控制部执行的动画生成处理的流程图。

符号的说明

10显示装置

11控制部

12操作部

13显示部

14语音输出部

15通信部

16存储器

17存储部

a语音数据

b文本数据

c词语(wordorphrase)数据组

d词语表情数据组

e语句表情数据组

f面部图像数据

g翻译语句数据组

h1影像数据

h2影像数据

i表情参数

p程序

t1词语·表情对应表

具体实施方式

以下，参照附图对本发明的实施方式进行说明。在以下的实施方式中，以将本发明的图像处理装置以及显示装置应用于显示装置10的情况为例进行说明。此外，本发明不限定于图示例。

[显示装置10的构成]

图1是表示本实施方式的显示装置10的功能的构成的框图。

显示装置10具备控制部11、操作部12、显示部13、语音输出部14、通信部15、存储器16、以及存储部17，各部经由总线18连接。显示装置10构成为包括能够进行影像加工的图像处理装置。

控制部11由执行存储部17所存储的各种程序而进行规定的计算、各部的控制的cpu(centralprocessingunit：中央处理单元)构成。控制部11通过与存储部17所存储的程序p的协作，来执行图2所示的动画生成处理，基于所生成的动画的影像数据h1或者h2，使显示部13显示动画。控制部11作为表情附加单元、生成单元、以及翻译单元起作用。

操作部12构成为具备键盘以及鼠标等指示设备，该键盘具备光标键、文字输入键、数字键以及各种功能键等，将通过对于键盘的键操作、鼠标操作而输入的指示信号向控制部11输出。

显示部13由lcd(liquidcrystaldisplay：液晶显示器)等监视器构成，根据从控制部11输入的显示信号的指示，显示各种画面。

语音输出部14具备扬声器、d/a转换电路等，根据来自控制部11的控制而输出语音。

通信部15由调制解调器、路由器、网卡等构成，与连接于通信网络的外部设备进行通信。

存储器16由dram(dynamicrandomaccessmemory：动态随机存取存储器)等半导体存储器等构成，暂时存储由显示装置10的各部处理的数据等。

存储部17由hdd(harddiskdrive：硬盘驱动器)、非易失性的半导体存储器等构成。在存储部17存储有以程序p为首的、控制部11执行各种处理所用的各种程序、执行这些程序所需要的数据等。

例如，在存储部17存储有成为生成动画的基础的语音数据a以及面部图像数据f。

语音数据a是对人发出的语音进行录音而取得的数据，被用作想要进行唇音同步的角色(也包括人物)的语音。作为语音数据a，设为不包含语音以外的声音(噪声、bgm等)。此外，在本实施方式中，语音数据a附加有包含该语音的语言的信息的头信息。

面部图像数据f是包含想要进行唇音同步的角色的面部在内的图像的数据，例如是二维的静止图像数据或者三维的多边形数据。

此外，在存储部17中存储有在动画生成处理中生成的影像数据h1、h2。影像数据h1、h2由构成动态图像(动画)的一系列的帧图像、以及与各帧图像对应的语音数据构成。

此外，在存储部17中存储有表情参数i。表情参数i是表示每个表情(例如，笑脸、怒脸、哭脸、…)的眼、嘴、眉毛等特征点的位置的参数。基于与所希望的表情相对应的表情参数i，对面部图像上的眼、嘴、眉毛等的形状进行调整，由此能够生成附加了所希望的表情的面部图像。

此外，在存储部17中存储有词语·表情对应表t1，该词语·表情对应表t1将词语与根据该词语想象的表情的信息建立对应地存储。

[显示装置10的动作]

接下来，对显示装置10的动作进行说明。

图2是表示在显示装置10中执行的动画生成处理的流程图。动画生成处理，在通过操作部12指定了在动画的生成中使用的语音数据a、面部图像数据f以及要生成的动画的语言、并指示了动画的生成时，通过控制部11与存储部17所存储的程序p的协作来执行。此外，作为语言，能够从预先设定的多个语言中指定。所指定的语音数据a、面部图像数据f以及语言，作为设定信息而存储于存储器16。

首先，控制部11从存储部17读出通过操作部12指定的语音数据a，对语音数据a进行文本转换而生成文本数据b(步骤s1)。

文本转换使用现有的语音识别技术。例如，控制部11将“ご来店ありがとうございます。”这样的语音数据a转换为“ご来店ありがとうございます。”这样的文本数据b。控制部11使所生成的文本数据b存储于存储器16。

接着，控制部11从文本数据b中检测词语，并生成词语数据组c(步骤s2)。

词语的检测例如使用形态分析等现有的词语检测技术。例如，控制部11从“ご来店ありがとうございます。”这样的文本数据b中检测到“ご来店”、“ありがとう”、“ございます”这3个词语。控制部11使所生成的词语数据组c存储于存储器16。

接着，控制部11按照词语数据组c所包括的每个词语，取得与该词语对应的表情的信息，生成表示与各词语对应的表情的词语表情数据组d(步骤s3)。

例如，控制部11将词语数据组c所包括的词语数据从最初的词语开始依次读入，并按照每个词语，取得在存储部17所存储的词语·表情对应表t1中与该词语建立对应地存储的表情的信息，而生成词语表情数据组d。例如，作为与“ご来店”对应的表情而取得“根据语境”，作为与“ありがとう”对应的表情而取得“笑脸”，作为与“ございます”对应的表情而取得“根据语境”。在此，所谓“根据语境”是表示与语境相匹配的表情。控制部11使所生成的词语表情数据组d存储于存储器16。

接着，控制部11基于词语表情数据组d，决定与文本数据b所包含的各语句(由标点符号划分)相对应的表情，并生成表示与各语句对应的表情的语句表情数据组e(步骤s4)。

例如，控制部11参照词语表情数据组d，将与相同语句内的词语对应的表情中最多的表情决定为该语句的表情。例如，在上述“ご来店ありがとうございます。”的情况下，与各词语对应的表情为，“ご来店”→“根据语境”、“ありがとう”→“笑脸”、“ございます”→“根据语境”。“根据语境”是与语境相匹配的表情，因此忽略，将“笑脸”决定为该语句的表情。控制部11使所生成的语句表情数据组e存储于存储器16。

接着，控制部11判断是否以与语音数据a相同的语言来生成动画(步骤s5)。例如，控制部11基于存储器16所存储的设定信息，判断是否以与语音数据a相同的语言来生成动画。

在判断为以与语音数据a相同的语言来生成动画的情况下(步骤s5；相同语言)，控制部11基于语音数据a、语句表情数据组e以及所指定的面部图像数据f，来生成附加了表情的唇音同步动画，使其数据即影像数据h1存储于存储部17(步骤s6)，使动画生成处理结束。

在步骤s6中，控制部11首先基于语音数据a和面部图像数据f，生成构成动画的各帧的嘴的形状数据。

例如，控制部11首先取得面部图像数据f中的嘴的特征点。例如，通过图像识别从面部图像数据f中提取嘴的轮廓，取得轮廓上的特征点的坐标。接着，控制部11从语音数据a的先头依次取得与1帧相当的时间的语音数据at。在此，当将所生成的动画的帧率设为pf(帧/秒)、将语音数据a的再生时间设为t(秒)时，每次1/pf(秒/帧)地取得语音数据at。接着，控制部11对各语音数据at进行分析而取得母音，将与母音对应的嘴的形状决定为与该语音数据at相对应的帧的嘴的形状。然后，以成为所决定的嘴的形状的方式，使面部图像数据f的嘴的各特征点的位置变化，将该变化后的各特征点的坐标，作为与该语音数据at对应的帧的嘴的形状数据，与帧编号建立对应地存储于存储器16。

接着，控制部11基于面部图像数据f以及语句表情数据组e，生成附加了与各帧的语音对应的表情的面部图像数据。

首先，控制部11决定对各帧的面部图像附加的表情。例如，控制部11确定与各帧的语音数据at对应的语句，基于语句表情数据组e来确定与所确定的语句对应的表情，将所确定的表情决定为对各帧的面部图像附加的表情。接着，控制部11基于对各帧决定的表情以及存储部17所存储的表情参数i，对面部图像数据f附加表情而生成各帧的面部图像数据，并存储于存储器16。然后，控制部11使各帧的面部图像数据的嘴基于各帧的嘴的形状数据进行变形，由此生成各帧的静止图像，将所生成的各帧的静止图像结合而生成动画，对所生成的动画结合语音数据a而生成影像数据h1，使影像数据h1存储于存储部17。

另一方面，在步骤s5中，在判断为以与语音数据a不同的语言生成动画的情况下(步骤s5；不同语言)，控制部11通过翻译引擎将文本数据b所包括的每个语句的文本数据翻译为所指定的语言，生成由每个语句的翻译数据(文本数据)构成的翻译语句数据组g(步骤s7)。控制部11使所生成的翻译语句数据组g存储于存储器16。

然后，控制部11基于翻译语句数据组g、语句表情数据组e以及所指定的面部图像数据f来生成附加了表情的唇音同步动画，使其数据即影像数据h2存储于存储部17(步骤s8)，使动画生成处理结束。

在步骤s8中，控制部11首先生成构成所指定的语言的动画的各帧的嘴的形状数据，将各帧的嘴的各特征点的坐标作为嘴的形状数据而与帧编号建立对应地存储于存储器16。

例如，控制部11基于翻译后的文本数据即翻译语句数据组g，生成所指定的语言的语音数据(称为语音数据j)，基于语音数据j和面部图像数据f，通过与在步骤s6中说明了的方法同样的方法(仅将语音数据a置换为语音数据j之处不同)，生成构成动画的各帧的嘴的形状数据。此外，将各帧的语音数据设为语音数据jt。

接着，控制部11生成附加了与各帧的语音对应的表情的面部图像数据。

首先，控制部11决定对各帧的面部图像附加的表情。例如，控制部11确定与各帧的语音数据jt对应的语句(翻译后的文本语句)，基于语句表情数据组e来确定与所确定的语句的翻译前的语句相对应的表情，将所确定的表情决定为对各帧的面部图像附加的表情。接着，控制部11基于对各帧决定的表情和存储部17所存储的表情参数i，对面部图像数据f附加表情而生成各帧的面部图像数据，并存储于存储器16。然后，控制部11基于各帧的嘴的形状数据使各帧的面部图像数据的嘴进行变形，由此生成各帧的静止图像，将所生成的各帧的静止图像结合而生成动画，对所生成的动画结合语音数据j而生成影像数据h2，使影像数据h2存储于存储部17。

控制部11在上述动画生成处理的执行后，基于所生成的影像数据h1或者h2，使显示部13显示动画，并且，通过语音输出部14输出与各帧对应的语音。

如以上说明的方式，根据显示装置10，控制部11基于对语音数据a进行了文本转换的文本数据b，对与该文本数据b所对应的语音的输出一起显示的面部图像附加与语音对应的表情，生成使附加了表情的面部图像所包含的嘴根据语音活动的动画。

例如，控制部11从文本数据b中检测词语，参照词语·表情对应表t1取得预先与构成文本数据b所包括的各语句的词语建立对应的表情的信息，基于所取得的信息，决定与文本数据b所包括的各语句相对应的表情。然后，将所决定的表情附加到与该语句所对应的语音的输出一起显示的面部图像，生成使附加了表情的面部图像所包含的嘴根据语音活动的动画。

因此，根据1张面部图像自动地生成根据语音使表情改变、根据语音使嘴活动的动画，因此能够提高基于面部图像生成的唇音同步动画的表现力。此外，例如，不需要进行用户在用耳朵听语音的同时判断在哪个定时附加哪个表情而手动地进行调整等繁琐的操作，能够容易地生成附加了与语音对应的表情的唇音同步动画。

此外，控制部11将文本数据b所包括的各语句翻译为其他语言的文本数据，将对翻译前的文本数据b所包括的各语句决定的表情，附加到与翻译后的对应的各语句所对应的语音的输出一起显示的面部图像，生成使附加了表情的面部图像所包含的嘴根据与翻译后的文本数据相对应的语音而活动的动画。

因此，能够根据1张面部图像自动地生成根据与原来的语言不同的语言(例如，外国语)的语音而使表情改变、并对应于该语音使嘴活动的动画，因此即使并不能理解语音的语言，也能够容易地生成附加了与语音对应的表情的唇音同步动画。

此外，上述实施方式的记载内容为本发明的显示装置10的优选的一个例子，并不限定于此。

例如，在上述实施方式中，将语音数据a的语言的例子设为日语来进行了说明，但不限定于日语，也可以是外国语。

此外，在上述实施方式中，以基于语音数据a和面部图像数据f来生成影像数据的情况为例进行了说明，但在基于用于读出语音的文本数据和面部图像数据来生成影像数据的情况下，也能够应用本发明。

此外，在上述实施方式中，公开了作为储存了用于执行各处理的程序的计算机可读取的介质而使用了hdd、非易失性的半导体存储器的例子，但不限定于该例子。作为其他的计算机可读取的介质，还能够应用cdrom等可移动式记录介质。此外，作为经由通信线路提供程序的数据的介质，也可以应用载波(输送波)。

此外，关于显示装置10的细节构成以及细节动作，在不脱离发明的主旨的范围内能够适当地变更。

对本发明的实施方式进行了说明，但本发明的范围不限定于上述实施方式，包括专利请求范围所记载的发明范围及其等同的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冈庭翔一;根岸弘明;森谷成克;神田祐和
技术所有人：卡西欧计算机株式会社
我是此专利的发明人

上一篇：一种影视动画制作中大规模群体智能运动的制作方法与流程
上一篇：一种电子产品减震用橡胶材料的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。