可视电话终端的制作方法

文档序号：6397310阅读：92来源：国知局

专利名称：可视电话终端的制作方法
技术领域：
本发明涉及一种可视电话终端，能够传送用户的情绪和感受，使通话对方能够更容易理解。
背景技术：
在由多个可视电话终端、网络组成的可视电话系统中，通过网络将可视电话终端获得的画面和语音一起传送到通话对方的终端。因此，当用户和通话对方远距离会谈时，用户可以同时看到通话对方的面部。既然在会谈时通话双方可以相互看到和听到，不仅在语音上传送通话方的语言，而且在视觉上呈现他或她的外观，这样进行一种更现实的、更高水平的通信处理。
然而，一些用户不希望把他们的画面发送到通话对方的终端，还有一些用户不认为谈话时看着自己的或通话对方的画面是有趣的，因此，发展了另一种技术，凭从用户画面中提取的个人面部特征的特征点，如眉毛、眼睛、鼻子和嘴，生成类似用户面部的虚拟人物，作为用户的个人形象传送到通话对方的终端(专利文件1JP-A-2002-511617；和专利文件2JP-A-2002-511620)依照该技术，首先，用户面部的画面(在下文中称为“面部画面(facepicture)”)被检查以识别对应于用户面部的区域，和从面部画面中提取一些表现个别面部特征的点(在下文中称为“特征点(feature points)”)，如眉毛、眼睛、鼻子和嘴，正如图1所示的用来解释面部画面和个人特征点。然后，基于平均个人面部特征得到的平均面部，按照特征点，生成类似用户面部的虚拟人物。更具体地，计算提取的特征点和平均面部的特征点之间的差别，将差别数据反映到平均面部，生成类似用户面部的虚拟人物。在附图2中，呈现了类似用户面部的虚拟人物。
接下来，追踪用户面部画面上个人特征点的动作，反映到虚拟人物上。照这样，由于与用户面部表情变化相关的每个面部特征的动作与虚拟人物每一个面部特征的动作相互作用，虚拟人物面部表情随着用户面部表情而变化。然而，虚拟人物不需要一直类似用户的面部，当用户面部画面特征点的动作反应在一个完全不同的虚拟人物上时，虚拟人物的面部表情随着用户面部表情的变化进行变化。
此外，当所有的面部特征沿着面部画面坐标轴的同一方向运动时，就呈现整个面部在移动。因此，用户头部的任何运动，如点头、歪头或者摇头，都被反映到虚拟人物上。
如上所述，按照常规技术，由于与用户面部表情变化相关的每个面部特征的动作与虚拟人物面部特征相互作用，虚拟人物的表情随着用户表情而变化。更进一步地，由于用户头部的任何运动都反映到虚拟人物上，当用户点头、歪头或摇头时，虚拟人物做相同的运动。
然而常规技术仅提供了用户面部表情和用户头部动作变化在虚拟人物上的直接反映，采用虚拟人物的面部表情和动作不能表达不随语音一起传送的情绪或感受。为了传送用户的情绪或感受以能够使通话对方更易于理解，因此，夸大用户的面部表情变化或者采用典型的象征符号比仅仅用虚拟人物直接反映用户面部表情的变化要好。更多地，采用这种方法使虚拟人物的面部表情和动作更有趣，这种方法的娱乐价值是比较高的。

发明内容
为了解决上述问题，本发明的一个目的是提供一种可视电话终端，能够传送用户的情绪或感受，使通话对方能够很容易的理解。
为了达到这个目的，本发明的一方面是，提供一种可视电话终端，通过网络与不同的终端用语音和画面通信，画面包括基于人的面部生成的虚拟人物，其中，当用键盘执行预定操作时，或当在用户语音中识别出预定关键字时，则虚拟人物外貌的画面被改变或者预定画面被传送到另外的终端。因此，表达了仅仅采用虚拟人物面部表情和动作所不能表达的情绪或感受，结果，通过传送了用户的情绪或感受，使通话对方容易理解。
依照本发明的可视电话终端，虚拟人物外貌画面的改变是指虚拟人物面部的个人特征或整个面部的大小尺寸发生变化，或者是在虚拟人物上加载预定图案的画面。这样，由于虚拟人物的面部表情和动作会更加有趣，因而采用虚拟人物的视频通信的娱乐价值会升高。
此外，依照本发明的可视电话终端，当用键盘执行预定操作时，预定音响效果被传送到另外的终端，或者把音响效果添加在用户的语音上。所以，除了采用语音或画面，还用音响表达了用户的情绪或感受。
依照本发明的另一方面，一种可视电话终端可以通过网络和另外的终端用语音和画面进行通信，画面包括基于人的面部产生的虚拟人物。其中，当传送不同于虚拟人物的画面、执行用于取消未决状态的预定操作时，或当在未决状态期间获得的画面中认出未决状态之前所用的用户面部时，就传送画面和语音，以在屏幕上恢复和重新显示虚拟人物，同时附带预定的音响，并取消未决状态。因此，通话对方可以在另外的终端上确定屏幕已经从未决状态恢复。
依照发明的一个附加的方面，提供一种可视电话终端，通过网络与不同的终端用语音和画面通信，画面包括基于人的面部产生的虚拟人物，其中，在与不同的终端的通信结束时执行预定操作，将虚拟人物从屏幕上消失的画面在中断线路之前传送到该不同的终端；其中，第一个预定操作提供的画面与第二个预定操作提供的画面不同。所以，依照画面的内容，用户所参加的会谈的感受被传送到通话对方。

图1是说明面部画面和特征点的示意图；图2是说明类似用户的面部的虚拟人物的示意图；和图3是按照本发明的一种模式的可视电话终端的方框图。
在附图中，附图标记101是摄像机；103是视频处理器；105是麦克风；107是扬声器；109是音频处理器；111是虚拟人物发生器；113是显示单元；115是键盘；117是存储单元；119是中央处理单元；121是无线单元；和123是天线。
具体实施例方式
现在参照附图描述按照本发明的可视电话。
按照本发明的一种模式的可视电话终端是便携式电话机、或者是如PHS或PDA的通信终端，其中包括摄像机，用于获得动态画面和静止的画面(在下文中都简称为“画面”)。可视电话终端用作视频电话，用于通过网络与另一个可视电话终端交换画面和语音。在可视电话会谈期间，可视电话终端之间交换的画面除了摄像机拍摄的画面外，还可以是虚拟人物的画面，该虚拟人物的画面是基于摄像机拍摄的用户画面生成的。在这种模式中，采用一个其中接收虚拟人物的画面的例子。
现在描述生成虚拟人物的处理。该模式的可视电话终端识别摄像机拍摄的用户画面中的面部区域。然后，从面部画面中提取表现面部特征的点(在下文中称为特征点)，如眉毛、眼睛、鼻子和嘴。图1是说明个人面部特征的特征点在画面中的位置的示意图，由于主要的面部特征眉毛、眼睛、鼻子和嘴，根据面部表情做各种复杂的改变，当表情发生改变时，相对于其它特征移动的面部特征作为特征点被提取。
接下来，基于通过平均对应于用户的个人面部特征的特征点形成的平均面部，生成类似用户面部的虚拟人物。更具体地，计算提取的特征点与平均面部的特征点之间的差别，将得到的差别数据反映到平均面部的人物上。照这样，就生成了类似用户面部的虚拟人物。附图2说明了类似用户面部的虚拟人物。
跟踪用户面部画面上的特征点，画面中每一个特征的动作被反映到虚拟人物上。当所有面部特征沿着面部画面的坐标轴的同一方向移动时，可以呈现整个面部在移动。因此，用户点头、歪头或摇头能够反映在虚拟人物上。
现在参照附图3描述这种模式的可视电话终端的结构。如图3所示，该模式的可视电话终端包括摄像机101、视频处理器103、麦克风105、扬声器107、音频处理器109、虚拟人物发生器111、显示单元113、键盘115、存储单元117、中央处理单元119、无线单元121和天线123。
视频处理器103分析摄像机101拍摄的画面，识别画面中面部的位置，提取特征点。音频处理器109完成对通过麦克风105输入的用户语音的预定处理，或者处理从对方可视电话终端收到的对方的语音数据，通过扬声器107输出语音。音频处理器109的处理包括分析作为语音特征的要素，如音量、音调和音高，对用户自己和通话对方的语音都进行这种分析。
虚拟人物发生器111基于视频处理器103提取的特征点生成虚拟人物，并在虚拟人物上反映摄像机101拍摄的用户的面部表情和动作。虚拟人物发生器111按照从中央处理单元119收到的指令可以改变虚拟人物的部分或全部。根据储存在存储单元117中的时间表信息和日期信息，虚拟人物发生器111指定预定画面作为虚拟人物的背景在显示单元113上显示，根据时间或当前环境来改变背景。例如，在用户的生日指定蛋糕的画面作为背景，分层平台、红色地毯的画面可以在三月三日(女孩的洋娃娃节(the Girl’s DollFestival))为洋娃娃指定；或者在五月五日(男孩节(the Boy’s Festival))可以指定鲤鱼旗的画面。
存储单元117用于储存与虚拟人物的表情改变和动作有关的程序、预定画面和语音数据、用户的时间表信息和日期信息。
键盘115用于向中央处理单元119传输转换到未决模式(后面会详细介绍)的指令、中断链路的指令、和其它指令。中央处理单元119按照键盘115输入的指令或根据关键字执行视频和音频处理，对链路的连接/断开和未决模式的开始/取消的预定处理，和对视频数据和音频数据的压缩/解压处理。无线单元121调制或解调视频和音频数据，通过天线123交换信号。
虽然考虑了前面所做的说明，下面通过顺序描述实施例一、二、三来具体描述本发明的可视电话终端。
第一实施例按照第一实施例，在采用虚拟人物的视频会谈期间，当用户用附图3中所示的键盘115执行预定操作时，或当音频处理器109在用户语音中识别出预定关键字时，提供其中改变虚拟人物外观的画面或者完全不同的画面。
要改变虚拟人物的外观，虚拟人物面部每一个特征的尺寸、或整个面部的尺寸都可以改变，或者添加表达情绪的图案，举例来说，可以将垂直线加到虚拟人物的眼睛上，或者将脸颊的颜色改为红色。可以通过仅仅使虚拟人物的眼睛大于一般情况来表示惊奇，通过使整个面孔变得大于一般情况并转为红色来表示生气。
完全不同的可用画面是感叹号(！)和问号(？)的画面，感叹号用来表示赞美，问号(？)用来表示疑惑。
作为另一种可用的画面，与关键字“好”相关地将显示翘起大拇指手势的画面预先存储在存储单元117中，然后，当音频处理器109在用户的语音中识别到这个关键字时，中央处理器单元110可以从存储单元117中读取这张显示翘大拇指的画面，只显示这张画面或将这张画面添加到虚拟人物上，不仅采用静止的画面，还采用动的画面。
同样地，与预定键盘操作相关地将预定音响效果预先存储在存储单元117。当用键盘115执行预定操作时，中央处理单元119可以从存储单元117读取相应的音响效果的数据，再现该音响，或将该音响叠加到用户或通话对方的语音上。
如上所述，按照这个实施例，当用户用键盘115执行预定操作时，或当音频处理器109识别到预定关键字时，显示不同于一般的表情或动作的虚拟人物、或完全不同的画面被显示。因此，能够传达仅仅采用虚拟人物面部表情和动作所不能传达出来的情绪或感受。这样，尽管虚拟人物的面部表情和动作本身是非常有趣的，采用虚拟人物的视频通信的娱乐性被提高了。另外，由于按照键盘操作可以再现预定音响效果，使用户的情绪或感受可以被传递，而它们是仅仅使用语音和画面所不能传递的。
第二实施例按照第二实施例，在采用虚拟人物的视频会谈期间，操作模式可以转换到未决模式。当未决模式取消时，伴随悦耳的音调，虚拟人物被恢复并在屏幕上重新被显示。这是当操作模式是未决模式、用户按下附图3中键盘115上的未决模式按钮、中央处理单元119检测该按压操作并取消未决模式时发生的。或者是当通过视频处理器103从摄像机101在未决模式中拍摄的画面中提取的特征点与输入未决模式前参加会谈的用户的特征点对应、并且中央处理单元109取消未决模式时发生的。
同时，中央处理器119运行预定程序，从存储器117中读取悦耳音调的数据，并在发出悦耳音调的同时，显示在键入未决模式前显示的虚拟人物。然而需要注意的是，在取消未决模式之后，虚拟人物被实际显示之前，需要一段特定的时间，因为基于视频处理器103从摄像机101拍摄的画面中提取的特征点，虚拟人物发生器111必须在虚拟人物上反映出用户的表情和动作。所以，在等待期间在屏幕上显示的画面是伴随悦耳音调、具有显示预定动作的相同表情的虚拟任务的画面。例如预定动作是虚拟人物打开门并进入房间。
如上所述，按照该实施例，当未决模式取消时，伴随悦耳音调显示执行预定动作的虚拟人物的画面，用户的通话对方能够明白操作模式已经从未决模式恢复过来。
实施例三按照实施例三，在采用虚拟人物的视频会谈的结尾，按照用户在附图3中键盘115上选择的按钮，显示虚拟人物从屏幕上消失的预定画面，并中断线路。例如预定画面是虚拟人物抱着鲜花从画面上消失的画面，或者是施加到虚拟人物的头部的压力挤压虚拟人物的画面。
应该注意的，提供的用户通话对方的感受依画面内容而不同。因此，如果用户对会谈感到很高兴，在会谈结束时，用户可以按一个预定按钮，呈现虚拟人物抱着鲜花从画面上消失的画面。另一方面，如果用户对会谈没有特别的反应，在会谈结束时，用户可以按另一个按钮，呈现施加到虚拟人物的头部的压力挤压虚拟人物的画面。在会谈结束时，以这种方式按下按钮，在中断线路之前，中央处理单元119从存储单元117中读取与被按压的按钮相应的画面数据，并传输该数据。
如上所述，按照这个实施例，在会谈结束时显示与按键操作协调一致的画面，并利用画面内容，将用户从会谈中接收的感受传送到通话对方。
对每一个实施例，可视电话终端的视频处理例103、音频处理器109、虚拟人物发生器111和中央处理单元119可以用程序的执行来操作。
如上所述，按照本发明的可视电话终端，用户的情绪和感受能够被传送，使通话对方容易理解。
权利要求
1.一种可视电话终端，用于通过使用语音和画面在网络上与另外的终端通信，所述画面包括基于人的面部生成的虚拟人物，所述可视电话终端包括视频处理器，用于分析摄像机获得的画面，识别画面中的面部位置，提取面部的特征点；音频处理器，用于分析从麦克风得到的音频，并处理该音频；和虚拟人物发生器，用于根据所提取的特征点产生虚拟人物，其中，当用键盘执行预定操作时，或当所述音频处理器在用户语音中识别到预定关键字时，1)所述虚拟人物发生器产生虚拟人物的修改画面或产生预定画面，然后，2)产生的画面被传送到另外的终端。
2.如权利要求1所述的可视电话终端，其中所述虚拟人物的修改画面是通过以下产生的改变虚拟人物的整个面部的尺寸或虚拟人物的面部的每一部分，或在虚拟人物上画预定图案。
3.如权利要求1所述的可视电话终端，其中，当用键盘执行预定操作时，所述音频处理器通过用预定音响效果替换用户的语音、或将预定音响效果叠加到用户语音上来产生音频数据，然后所述产生的音频数据被传送到另外的终端。
4.如权利要求2所述的可视电话终端，其中，当用键盘执行预定操作时，所述音频处理器通过用预定音响效果替换用户的语音、或将预定音响效果叠加到用户语音上来产生音频数据，然后所述产生的音频数据被传送到另外的终端。
5.一种可视电话终端，用于通过使用语音和画面在网络上与另外的终端通信，所述画面包括基于人的面部生成的虚拟人物，所述可视电话终端包括视频处理器，用于分析摄像机获得的画面，识别画面中的面部的位置，并提取面部的特征点；音频处理器，用于分析从麦克风得到的音频，并处理该音频；和虚拟人物发生器，用于根据所提取的特征点产生虚拟人物，其中，当通过使用键盘执行释放未决模式的预定操作时，或当通过比较两个面部的特征点而从在未决状态期间获得的面部中认出在未决状态前操作可视电话的用户面部时，1)所述虚拟人物发生器产生指示所述虚拟人物返回到屏幕上的画面，和所述音频处理器产生预定声音，2)产生的画面和预定声音被传送到另外的终端，然后，3)释放该未决模式。
6.一种可视电话终端，用于通过使用语音和画面在网络上与另外的终端通信，所述画面包括基于人的面部生成的虚拟人物，所述可视电话终端包括视频处理器，用于分析摄像机获得的画面，识别画面中的面部的位置，并提取面部的特征点；音频处理器，用于分析从麦克风获得的音频，并处理该音频；和虚拟人物发生器，用于根据所提取的特征点产生虚拟人物，其中，当在与另外的终端的通信结束时执行预定操作，所述虚拟人物发生器产生表示虚拟人物从屏幕上消失的画面，在中断线路前将产生的画面传送到另外的终端，和其中，根据用户选择的预定操作，能够产生表示虚拟人物从屏幕上消失的多种类型的画面。
全文摘要
本发明提供了一种可视电话终端，能够传送用户的情绪和感受，使通话对方容易理解。当用户执行预定操作或当音频处理器在用户语音中识别到预定关键字时，虚拟人物的画面被修改，或者显示完全不同的画面。为了修改虚拟人物的画面，面部的每一部分或整个面部的尺寸被改变，或者在上面增加表达情绪的图案。然后，当释放未决模式时，伴随悦耳音调，虚拟人物被恢复并显示在屏幕上。在视频会谈结束时，根据用户的选择，在中断线路前显示表示虚拟人物从屏幕上消失的画面。
文档编号G06T15/70GK1532775SQ20041003306
公开日2004年9月29日申请日期2004年3月19日优先权日2003年3月19日
发明者松尾英明, 牧野崇弘, 山田文彦, 西村真, 羽田哲, 弘, 彦申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：松尾英明;牧野崇弘;山田文彦;西村真;羽田哲
技术所有人：松下电器产业株式会社
我是此专利的发明人

上一篇：一种对光栅图像进行调整和修改的方法
上一篇：图像处理、展开、输出、变换方法及装置，可读存储介质的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。