在视频会议和其他通信期间控制化身的方法和终端的制作方法

文档序号：7681664阅读：166来源：国知局

专利名称：在视频会议和其他通信期间控制化身的方法和终端的制作方法
技术领域：
本发明涉及电子通信终端，更具体地涉及电子通信终端之间的视频会议。
背景技术：
通信技术持续发展，以改进无线通信终端之间的实时全动视频会议。视频会议的全动视频创建和发布使得有必要部署可靠的高带宽网络，并在通信终端中使用高处理带宽和存储容量，以支持实时视频生成、编码、发布、接收和解码功能。因此，视频会议能力会增加通信终端的复杂性和成本，并且可能妨碍其在一些通信终端例如在一些蜂窝电话中的使用。
尽管复杂性和成本增加，但是拥有支持视频会议的通信终端的人数不断增加。然而，已经发现，由于明M不愿意示出他们目前的样貌，所以许多人不愿意使用视频会议。这种不愿意在习惯于使用即时消息传送和基于消息的聊天室的年轻一代间尤其普遍。

发明内容
本发明的各种实施方式致力于提供对通信终端上的化身显示进行控制的方法和相关联的无线通信终端。下面将进一步详细解释，化身是计算机产生的人的二维或三维表示。
根据一些实施方式，一种用于控制在接收通信终端处显示的化身的
方法包括在来自视频源的视频流中识别人的画像特性。响应于在视频
流中所识别出的人的画像特性，在接收通信终端已知的多条画像命令中
选择画像命令。将所选择的画像命令传送到接收通信终端。接收通信终
端随后可以响应于接收到的画像命令来修改所显示的化身。
在一些进一步的实施方式中，在发送通信终端处，在图片和/或视频流中识别人的画像特性。响应于所识别出的画像特性来产生化身。然后，在发送通信终端和接收通信终端之间建立视频会议会话期间，将化身从发送通信终端传送到接收通信终端。响应于在二维图片和/或视频流中所识别出的画像特性，可以将化身产生为人的身体特征的三维表示。
在一些进一步的实施方式中，识别画像特性包括识别作为人的情绪的指示的面部表情。选择对应于人的情绪的指示的画像命令。然后，修改接收通信终端显示的化身，以提供人的情绪的指示。选择画像命令可以包括选择指示人的情绪是以下情绪中的至少一种的画像命令高兴、悲伤、厌烦和困倦。可以通过执行以下操作中的至少一个来修改所显示的化身在画像命令对应于高兴情绪时修改所显示的化身的嘴部以指示微笑；在画像命令对应于悲伤情绪时修改所显示的化身的嘴部以指示不悦；在画像命令对应于厌烦情绪时修改所显示的化身的嘴部以指示厌倦；以及在画像命令对应于困倦情绪时修改所显示的化身的眼睛以指示闭眼。响应于在接收通信终端上设置的标志，可以修改所显示的化身以提供与画像命令指示的情绪相反指示的情绪。
在一些进一步的实施方式中，识别人的画像特性可以包括识别语
音信号中作为人的情绪的指示的语音#征。然后，可以选择对应于所识
别出的语音特征的画像命令。可以响应于语音信号中的讲话音高和/或语
速的变化来选择画像命令。
在一些进一步的实施方式中，响应于来自发送通信终端的语音信号
中的语音特征，来修改接收通信终端显示的化身。可以响应于语音信号
中的讲话音高和/或语速的变化来修改所显示的化身。
在一些进一步的实施方式中，识别人的画像特性可以包括识别视
频流中的人的身体特征反复活动。可以选择作为所识别出的视频流中的反复身体特征活动的指示的画像命令。可以修改接收通信终端显示的化身，以显示化身上对应于该画像命令所指示的反复身体特征活动的特征的反复活动。
在一些进一步的实施方式中，可以响应于用户在接收通信终端上的规定设置，通过夸张所显示的化身的规定特征来执行对所显示的化身的修改。
在一些进一步的实施方式中，可以响应于用户的规定设置和在视频流中识别出的人的画像特性，来选择对在接收终端上显示的化身的规定特征进行夸张的画像命令。
在一些进一步的实施方式中，可以响应于识别到发送通信终端已使接收通信终端处于通信保持状态，修改.接收通信终端显示的化身。
在一些进一步的实施方式中，在所述多条画像命令中选择指示发送
通信终端将其麦克风静音的画像命令。响应于所接收到的指示发送通信
终端将其麦克风静音的画像命令，修改接收通信终端显示的化身。
在一些进一步的实施方式中，在接收通信终端处，使用发送通信终
端的电话号码来在多个存储的化身中选择化身。然后，在接收通信终端
处显示所选择的化身。响应于所述画像命令，修改所显示的化身。
在一些进一步的实施方式中，使用语音识别来识别在发送通信终端
处讲话的人。响应于对人的识别，在多个存储的化身中选择化身。在接
收通信终端处显示所选择的化身。响应于所述画像命令，接收通信终端
修改所显示的化身。
在一些进一步的实施方式中，响应于在视频流中的至少一帧内所识
别出的人的画像特性，来选择供传送的一条画像命令。可以反复响应于在所述视频流中的空间上隔开规定数目个跳帧的各单独帧内所识别出的画像特性，来选择供传送的一条画像命令。在接收通信终端处接收所述一条画像命令，并且响应于所述一条画像命令，在存储于接收通信终端中的多组化身修改操作内识别一组化身修改操作。响应于所识别的一组化身修改操作，修改接收通信终端显示的化身。
在一些其它实施方式中，一种无线通信终端包括视频源，其用于产生视频流；收发机，其被配置为通过无线空中接口与另一通信终端进行通信；以及图像处理器，其被配置为，在来自所述视频源的视频流中识别人的画像特性；响应于在所述视频流中所识别出的人的画像特性，从多条画像命令中选择接收通信终端已知的画像命令；以及通过所述收发机将所选择的画像命令传送给另一通信终端。在一些其他实施方式中，一种无线通信终端包括收发机，其被配
置为通过无线空中接口从另一通信终端接收画像命令；显示器；以及图像处理器，其被配置为响应于所接收到的画像命令，对在所述显示器上显示的化身执行修改。
在阅读了附图和详细说明书之后，根据本发明实施方式的其他系统、通信终端和/或方法将对本领域技术人员是或者变得显而易见。所有这些附加的系统、方法和/或计算机程序产品都包括在本说明书内，落入本发明的范围内，并且受所附权利要求的保.护。

图1示出了根据本发明一些实施方式的对无线通信终端上的化身显示进行控制的通信系统。
图2是示出根据本发明一些实施方式的用于生成并向接收通信终端发送化身和用于生成并向接收方通信终端发送画像命令的操作与方法的流程图。
图3是示出根据本发明一些实施方式的用于接收/选择用于显示的化身、接收画像命令和修改所显示的化身的操作与方法的流程图。
图4是示出根据本发明一些实施方式的用于根据另一通信终端的用户的语音特征来选择化身的操作与方法的流程图。
图5是示出根据本发明一些实施方式的用于根据对发送通信终端的用户的面部表情的识别来选择画像命令的操作与方法的流程图。
图6是示出根据本发明一些实施方式的用于修改所显示的化身的操作与方法的流程图。
具体实施例方式
下面将参照附图更全面地描述本发明，在附图中示出了本发明的实施方式。然而，本发明可以以很多替代的形式来实施，并且不应当被解读为限于本文所阐述的实施方式。
因此，尽管本发明容许有各种修改和替代形式，但是在附图中通过举例的方式示出了其特定实施方式，并将详细描述这些实施方式。然而，应当理解，并不意图将本发明限于所公开的特定形式，相反，本发明将涵盖落入所附权利要求限定的本发明的精神和范围内的所有修改例、等同例和替代例。在对附图的整个描述中，类似的数字指代类似的部件。
本文中使用的词语仅用于描述特定实施方式，而不对本发明构成限
制。在本文中使用时，除非以其他方式明确指出，否则单数形式"一(an， an)"和"所述"也将包括复数形式。还应当理解，当在该说明书中使用时，词语"包括(includes, comprises, including禾口/或comprising)"意指存在所陈述的特征、整数、步骤、操作、部件和/或组件，但是并不排除存在或添加一个或更多个其他特征、.整数、步骤、操作、部件、组件和/或它们组成的组。此外，当一部件被称为"响应于"或"连接到"另一部件时，它可以直接响应于或连接到该另一部件，或者可以存在中间部件。相反，当一部件被称为"直接响应于"或"直接连接到"另一部件时，不存在中间部件。在这里使用时，词语"和域"包括一项或更多项关联列举项中的任何或所有组合，并且可以被简写为"/"。
应当理解，尽管词语第一、第二等在这里可被用来描述各种部件，但是这些部件不应当受这些词语限制。这些词语仅用来将一部件与另一部件区分开。例如，第一部件可以被命名为第二部件，类似地，第二部件可以被命名为第一部件，而不会偏离本公开的教导。尽管一些附图在通信路径上包括箭头来显示通信的基本方向，但是应当理解，通信可以发生在与所描绘的箭头相反的方向上。
结合流程图描述了一些实施方式，'在这些流程图中每个框表示电路元件、模块或者包括一条或更多条可执行指令的代码的一部分，所述指令用于实现所规定的逻辑功能。还应当注意，在其他实现中，在框中注明的功能可以不按注明的次序发生。例如，取决于所涉及的功能性，被示为连续的两个框可以事实上基本并发地发生，或者所述框有时可以以逆序执行。
本发明的一些实施方式可以产生于这样的实现，即可以使用化身来在通信终端之间的视频会议和其他通信行为期间表示人员，并且这可以鼓励更多使用这种可视通信，可以降低这些通信使用的网络带宽，并且可以降低通信终端的处理带宽和/或存储要求。
图1例示了根据本发明一些实施方式的对第一和第二无线通信终端
110和120上的化身的显示进行控制的通信系统。
化身是由通信终端110和120中的电子电路产生的关于人的二维或三维图形表示。如在视频会议中所使用的，在通信终端110和120 二者处均可以产生化身，作为分别在通信终端110和120处捕捉到的图片/视频流中示出的人的计算机产生的图形表示，并且在通信终端110和120 之间传送化身以在它们上进行显示。化身可以包括来自图片/视频流的人的图像的至少一部分，并且可以通过例如以下操作来产生使人的图像变形(例如，活动/改变面部特征和/或身体特征)，将计算机产生的图形 (例如，计算机产生的图形面部特征、.图形身体特征、和/或诸如太阳镜和/或珠宝这样的图形附件)添加到人的图像的规定部分，和/或用整个计算机产生的图形肖像(例如，该肖像可以具有动画卡通外貌)来替换人的图像。下面将描述，可以基于索尼公司开发的运动画像(portrait)技术来产生化身。
出于仅举例说明和解释的目的，在本文中就无线通信终端来描述本发明的各种实施方式。然而，应当理解，本发明并不限于这些实施方式，并且可以一般地实施为如本文所描述的那样产生、选择和或控制化身的任何通信终端。
参照图1，示例性的第一和第二通信终端110和120可以各自包括视频源130、图像处理器132、显示器134、通信控制器140、收发机142、存储器150，以及用户输入接口 160。第一和第二通信终端110和120可以被配置来通过交换从视频源130产生的视频流来在它们之间进行视频会议，并且所述视频流可以包括操作相应的通信终端110和120的人员的图像。本领域技术人员将意识到，在游戏环境内、在包括多于两个通信终端的视频会议环境内、以及在期望参与者的可视化表示的其他通信环境内，该系统可以类似地工作。
通信终端110和120被配置来通过无线空中接口进行通信。收发机142通常包括协作以发送和接收射频信号的发送机电路和接收机电路，所述射频信号可以通过例如可包括在蜂窝通信系统内的基站收发机144和移动交换中心(MSC) 146来被路由。通信终端110和120的收发机142 可以附加或可替代地被配置来使用短距离通信协议在其间直接进行通信。相应地，通信控制器140可以被配置来根据一种或更多种蜂窝协议对通信进行编码/解码和控制，所述蜂窝协议可以包括但不限于全球移动通信标准(GSM)、通用分组无线业务(GPRS)、增强型数据速率GSM 演进技术(EDGE)、码分多址(CDMA)、宽带CDMA、 CDMA2000，和/或通用移动电信系统(UMTS)。通信控制器140可以替代地或附加地根据一种或更多种短距离通信协议对通信进行编码/解码和控制，所述短距离通信协议可以包括但不限于，蓝牙和/或WiFi,例如IEEE 802.11 (例如，IEEE802.11b-g)。
视频源130可以包括例如电荷耦合器件或其他产生视频流并且还可以产生数字静物图片的图像传感器。用户接口 160可以包括麦克风、游戏杆、键盘/小键盘、触感显示接口、拨号盘、方向键，和/或定位终端(例如，鼠标、轨迹球、触摸板等)。显示器134可以包括液晶显示器(LCD)、阴极射线管(CRT)，和/其他可以可视地显示计算机产生的图形，并且还可以被配置来显示全动视频的其他显示技术。
存储器150可以表示存储器结构，该存储器结构可以包括易失性存储器和/或非易失性存储器，例如，可移除闪存、磁和/或光可重写的非易失性存储器。该存储器可以包括画像命令数据库152、化身数据库154和操作数据库156，操作数据库156包括可以用来修改在显示器134上显示的化身的操作组。
图像处理器132被配置来产生化身、在显示器134上显示化身，以及修改所显示的化身。图像处理器132还被配置来使用画像命令来控制在另一通信终端上显示的化身，所述画像命令是响应于针对来自视频源 130的视频流内的人的图像而识别出的画像特性而产生的。下面参照图 2-5，来描述可以例如通过图像处理器132执行以产生、选择、传送和修改化身的各种操作和方法。图2是例示用于产生并向另一通信终端传送化身和用于产生并向另一通信终端传送画像命令的操作和方法200的流程图。这些操作和方法可以至少部分地由图像处理器132来执行。
参照图2，第一通信终端110使用图像处理器132和通信控制器140 来与第二通信终端120建立视频会议(框202)。视频会议协议可以例如基于第一和第二通信终端110和120支持的一个或更多个蜂窝视频会议协议。
确定第二通信终端120中是否存储有已有化身(框2(H)。例如，在建立视频会议期间，第二通信终端120可以基于第一通信终端110的电话号码来确定它是否存储有与该电话号码相关联的已有化身，如果没有，则可以从第一通信终端110请求化身。.
当确定第二通信终端120没有对应化身(例如，存储在终端120中的预先存在的化身)时，第一通信终端110产生化身并将该化身传送到第二通信终端120。化身可以通过图像处理器132识别(框206)来自视频源130的图片和/或视频流中的人的画像特性来产生。化身可以响应于所识别出的画像特性，使用例如索尼公司开发的运动画像技术来产生(框 208)。例如，图像处理器132可以响应于对人的面部轮廓的识别和/或响应于对面部特征(例如，头发、耳朵、眼睛、鼻子、嘴部以及皮肤表面的相对大小、颜色和位置)的识别，来产生化身。图像处理器132随后可以产生图形表示，如人的二维或三维的全部图形表示和/或人的部分视频部分图形的混合表示。图像处理器132可以例如根据二维图片/视频流产生人的三维图画。
图像处理器132可以通过例如以下操作来产生化身使人的图像变形(例如，活动/改变面部特征和/或身体特征)，将计算机化的图形图像 (例如，计算机产生的图形面部特征、身体特征，和/或诸如太阳镜和/ 或珠宝这样的附件)作为覆盖添加在人的图像的规定部分上，和/或用整个计算机产生的图形肖像替换人的图像。图像处理器132通过通信控制器140和收发机142将化身传送到第二'通信终端120 (框210)。
在进行视频会议期间，第一通信终端110的图像处理器132被配置来使用第二通信终端120已知的画像命令来控制第二通信终端120在显示器134上显示的化身。为了产生一条或更多条画像命令，图像处理器 132识别(框212)来自视频源130的视频流中的人的画像特性。图像处理器132响应于所识别的画像特性，从数据库152中的画像命令中选择画像命令。通过通信控制器140和收发机142将所选择的画像命令传送到第二通信终端120。 '
图5是例示可以例如通过图像处理器132执行来基于对面部表情的识别选择画像命令的各种操作和方法的流程图。参照图5，在进行视频会议期间，图像处理器132分析来自视频源130的视频流中的视频帧，以识别(框502)面部表情。图像处理器132可以对识别出的面部表情进行分类(框504)，例如，将面部表情分类为指示多种规定情绪中的一种或更多种，例如指示人高兴、悲伤、厌烦或困倦。图像处理器132响应于分类，从命令数据库152中选择(框506)画像命令，所述画像命令用于将第二通信终端120显示的化身改变为对应于识别出的面部表情，例如，从指示人高兴改变为指示人悲伤、厌烦或困倦(例如，改变化身的嘴部特征、眼睛特征、头发特征、身体特征活动特性，以可视地指示识别出的人的情绪)。
可替代地或者附加地，图像处理器132可以响应于人的语音特征(例如，语音的音高和/或讲话速度)，从命令数据库152中选择(框506)画像命令。因此，图像处理器132可以从人的语音检测各种特性，例如人的情绪，这些特性可以由画像命令来表示，以使得第二通信终端120修改所显示的画像来指示化身上的对应情绪。在示例性实施方式中，图像处理器132在人的音高和域语速增加至少一个或更多个阈值量(例如，高于其相应的中间值的阈值量)时，可以将人分类为高兴的，在人的音高和/或语速降低至少一个或更多个阈值量时，可以将人分类为厌烦的，而当人的音高和域语速进一步降低至少一个或更多个阈值量时，可以将人分类为困倦的。如上所述，图像处理器132可以响应于这些分类的变化，使用画像命令来使得第二通信终端120以对应方式修改它显示的化身。可替代地或附加地，图像处理器132可以响应于人通过接口 160 (例如，用户选择第一通信终端110上的各种规定按钮)产生的信号，选择 (框506)对应画像命令，所述对应画像命令被所述图像处理器132传送给第二通信终端120，以使得第二通信终端120修改它显示的化身(例如，将小键盘按钮与使化身厌倦、微笑等相关联)。
图像处理器132可以识别来自视频源130的视频流中的人的身体特征(例如，头部、嘴部等)的活动(框508)。响应于所识别出的活动，图像处理器132可以从命令数据库152.中选择(框510)指示所检测到的活动(例如，指示检测到的人头部的上下晃动、人头部的左右摇动、人嘴部的快速活动等)的画像命令。由此，传送到第二通信终端120的一条画像命令可以指示特定身体特征的反复活动，并且可以使第二通信终端120相应地以动画形式使化身活动以模仿该反复活动，例如上下晃动化身的头部、左右摇动化身的头部、使化身的嘴部快速活动以模仿说话等。
由此，第一通信终端110中的图像处理器132可以响应于所识别的画像特性来选择一条或更多条画像命令，并将一条或更多条画像命令传送到第二通信终端120，以使得第二通信终端120中的图像处理器132修改所显示的化身。第一通信终端110中的图像处理器132可以针对各单独视频帧或者针对多个视频帧来选择一条画像命令。图像处理器132可以例如通过识别在空间上隔开规定数目个跳过视频帧的单独视频流帧内的人的画像特性，来在画像命令的选择之间跳过规定数目的视频帧。
使用一条画像命令来控制第二通信终端120显示的化身，可以大大减少在第一和第二通信终端110和120之间使用的网络通信带宽，和/或可以减少在通信终端110和120中用来在视频会议期间提供实时编码、分发、接收和解码功能的处理带宽。然而，图像处理器132并不限于每帧选择一条画像命令，它可以另选地针对每个视频帧选择多条画像命令，以传送给第二通信终端120。
再次参照图2，通过通信控制器140和收发机142将所选的一条或更多条画像命令传送(框216)到第二通信终端120。确定视频会议是否已经终止(框218)，如果没有，则可以重复框212到218的操作。
图3是例示根据本发明一些实施方式的操作和方法的流程图，所述操作和方法用于接收/选择化身、接收化身命令和修改所显示的化身，并且所述操作和方法可以主要由第二通信终端120中的图像处理器132来执行。
参照图3，第二通信终端120使用图像处理器132和通信控制器140 来建立与第一通信终端110的视频会议(框302)。视频会议协议可以例如基于第一和第二通信终端110和120支持的一种或更多种蜂窝视频会议协议。
确定第二通信终端120在化身数瑪库154中是否具有应当在视频会议期间在显示器134上显示来表示操作第一通信终端110的人的化身(框 304)。图像处理器132可以通过使用第一通信终端的电话号码来作出该确定，如果存在一个对应化身，则使用该电话号码作为化身数据库154 内的指针来选择(框312)该对应化身。
可替代地或附加地，图像处理器132可以识别通过视频会议接收的人的语音特征，并且如果存在对应化身，可以使用这些识别出的语音特征(例如，对音高、速度模式等的语音识别)作为化身数据库154内的指针，来选择(框312)该对应化身。图4是例示可以用来基于对第一通信终端110讲话的人的语音特征来选择化身的操作和方法的流程图。
参照图4，识别对第一通信终端110讲话的人的语音特征(框402)。在视频会议/电话会议期间可以对诸如话音模式这样的特定语音参数进行采样，并将其与相关联的化身一起存储在数据库154内，并且随后可以使用这些语音参数来在随后的视频会议呼叫期间识别语音并选择相关联的化身。例如，确定所识别的语音特征是否对应于在化身数据库154中本地存储的已有化身(框404)，如果是，则选择(框406)该化身以在视频会议期间显示。
由此，第二通信终端120可以使用第一通信终端110的电话号码来选择(框312)用于在视频会议期间显示的化身，和/或可以对通过第一通信终端110讲话的人的语音执行语音识别，以选择(框312)用于在视频会议期间显示的化身。
在视频会议期间，第二通信终端120的图像处理器132可以识别正在通过第一通信终端110讲话的人何时发生改变，和/或可以识别多个在讲话的人，可以识别其他讲话者的语音特征，并且如果存在的话，可以使用这些识别出的语音特征来选择(框312)化身数据库154中的另一化身。图像处理器132随后可以在正从第一通信终端110接收人的语音的同时，在显示器134上显示识别出的化身。图像处理器132可以可替代地或附加地显示多于一个化身，每个化身对应于在视频会议期间正从第一通信终端110接收的被识别出不同人的语音。由此，可以在显示器134 上显示多个化身，每个化身表示在视频会议期间例如以顺序方式和/或以扬声器电话配置使用第一通信终端110的不同讲话者。
可替代地或附加地，在视频会议期间，正在操作第二通信终端120 的人可以使用接口 160，来手动从数据库152中的化身内选择一化身以在显示器134上显示。
当识别出没有已有化身，并且正在使用第二通信终端120的人未以其他方式手动选择已有化身时，第二通信终端120可以从第一通信终端 110请求(框306)化身。响应于该请求，第二通信终端120可以接收(308) 要在视频会议期间显示的化身，并且可以将该化身和相关联的信息(例如，第一通信终端110的电话号码和/或其他识别信息)存储到化身数据库154内。图像处理器132可以附加地/可替代地识别正在使用第一通信终端110的人的语音特征，并且可以将所识别出的与所选化身相关联的语音特征存储在化身数据库154中。由此，第二通信终端120可以将人的语音关联到数据库154中的化身，并早可以将该信息存储在数据库154 中，以供在以后的视频会议期间重用。
图像处理器132在显示器134上显示(框316)化身。在进行视频会议期间，通过收发机142和通信控制器140从第一通信终端110接收一条或更多条画像命令。操作数据库156包括被配置为执行不同化身修改的操作组，这些化身修改例如为，将化身上的嘴部从微笑修改为不悦、张开和闭合化身的嘴部、使化身眨眼、用手捂住化身的耳朵、对化身添加/移除计算机产生的太阳镜等。响应于接收到的画像命令，图像处理器
132在操作数据库156中选择它用来修改所显示的化身的一组操作。
图像处理器132响应于所选择(框318)的修改操作，来修改(框 320)在显示器134上显示的化身。例如，图像处理器132可以响应于来自第一通信终端110的单独画像命令，选择(框31S)并执行以下操作在微笑与不悦之间切换化身的嘴部、张开/闭合化身的嘴部、睁开/闭合化身的一只或两只眼睛、用手捂住化身的耳朵、对化身添加/移除计算机产生的太阳镜等。
图6是例示可以由第二通信终端120的图像处理器132使用以修改显示的化身的操作和方法的流程图。图像处理器132识别(框602)数据库156中对应于接收到的画像命令的操作。接收到的画像命令可以指令图像处理器132执行所显示的化身的规定部分的反复活动(框604)，例如，晃动化身的头部(例如，点头表示同意)、摇动化身的头部(例如，摇头表示不同意)、使化身的嘴部活动以模拟讲话/唱歌，和/或使化身的眼睛活动以模拟眨眼。由此，可以使用来自第一通信终端110的一条画像命令，来执行第二通信终端120显示的化身的规定部分的反复活动。
再次参照图3，图像处理器132可以可替代地或附加地响应于从第一通信终端110接收到的语音信号的特性，来修改(框322)在显示器134 上显示的化身。例如，图像处理器132可以响应于来自第一通信终端110 的语音信号中讲话的音高和/或语速的至少阈值变化，来从数据库156中选择一个或更多个化身改变操作。
在示例性实施方式中，图像处理器132可以修改(框322)所显示的化身，以指示当接收到的音高和/或语速增加至少一个或更多个阈值量(例如，高于其相应中间值的阈值量)时为高兴，可以修改所显示的化身以指示当接收到的音高和/或语速降低至少一个或更多个阈值量时为厌烦，以及可以修改所显示的化身以指示当接收到的音高和/或语速进一步降低至少一个或更多个阈值量时为困倦。
确定(框324)视频会议是否已经终止，如果没，则可以重复框 316至324的操作。由此，在一些实施方式中，通信设备识别视频流中人的画像的特性。通信设备响应于所识别的特性，选择接收通信设备已知的画像命令，并将所选择的画像命令传送到该接收通信设备，以控制该接收通信设备显示的化身。
在附图和说明书中，已经公开了本发明的示例性实施方式。然而，在基本上不偏离本发明的原理的情况下，可以对这些实施方式进行许多变化和修改。因此，尽管使用了特定术语，但是它们仅用于一般性的说明意义，而非限制的目的，本发明的范围由所附权利要求来限定。
权利要求
1、一种用于控制在接收通信终端处显示的化身的方法，该方法包括在发送通信终端处，在来自视频源的视频流中识别人的画像特性；在所述发送通信终端处，响应于在所述视频流中所识别出的所述人的画像特性，从所述接收通信终端已知的多条画像命令中选择画像命令；以及将所选择的画像命令从所述发送通信终端发送到所述接收通信终端。
2、根据权利要求1所述的方法，其中，从多条画像命令中选择画像命令包括响应于在所述视频流的至少一帧内所识别出的所述人的画像特性，选择供发送的一条画像命令。'
3、根据权利要求2所述的方法，其中，从多条画像命令中选择画像命令包括反复响应于在所述视频流的在空间上隔开规定数目个跳帧的各单独帧内所识别出的人的画像特性，选择供发送的一条画像命令。
4、根据权利要求2到3中的任一项所述的方法，该方法还包括在所述接收通信终端处接收所述一条画像命令；响应于所述一条画像命令，从所述接收通信终端中存储的多组化身修改操作中识别一组化身修改操作；响应于所识别出的一组化身修改操作，修改所述接收通信终端显示的化身。
5、根据权利要求1到4中的任一项所述的方法，其中识别人的画像特性包括识别作为人的情绪的指示的面部表情；从多条画像命令中选择画像命令包括选择与所识别出的人的情绪的指示对应的画像命令；并且该方法还包括在所述接收通信终端处接收所述画像命令；和修改所述接收通信终端显示的化身，以提供所述人的情绪的指示。
6、根据权利要求5所述的方法，其中从多条画像命令中选择画像命令包括选择指示所述人的情绪是以下情绪中的至少一种的画像命令高兴、悲伤、厌烦和困倦；并且修改所述接收通信终端显示的化身包括通过执行以下操作中的至少一种来使所显示的化身变化；在所述画像命令对应于高兴情绪时，修改所显示的化身的嘴部以指示微笑；在所述画像命令对应于悲伤情绪时，修改所显示的化身的嘴部以指示不悦；在所述画像命令对应于厌烦情绪时，修改所显示的化身的嘴部以指示厌倦；以及在所述画像命令对应于困倦情绪时，修改所显示的化身的眼睛以指示闭眼。
7、根据权利要求6所述的方法，该方法还包括响应于在所述接收通信终端上设置的标志，修改所显示的化身以提供与所述画像命令指示的情绪相反指示的情绪。
8、根据权利要求1到7中的任一项所述的方法，其中识别人的画像特性包括识别语音信号中作为人的情绪的指示的语音特征；并且从多条画像命令中选择画像命令包括选择与所识别出的语音特征对应的画像命令。
9、根据权利要求8所述的方法，其中，选择与所识别出的语音特征对应的画像命令包括响应于所述语音信号中讲话音高和/或语速的变化来选择画像命令。
10、根据权利要求1到9中的任一项所述的方法，该方法还包括-响应于来自所述发送通信终端的，音信号中的语音特征，来修改所述接收通信终端显示的化身。 '
11、根据权利要求10所述的方法，其中，修改所述接收通信终端显示的化身包括响应于所述语音信号中的讲话音高和/或语速的变化来修改所显示的化身。
12、根据权利要求1到11中的任一项所述的方法，其中识别人的画像特性包括识别所述视频流中的所述人的身体特征反复活动；从多条画像命令中选择画像命令包括选择作为所述视频流中所识别出的身体特征反复活动的指示的画像命令；并且该方法还包括修改所述接收通信终端显示的化身，以显示所述化身上与所述画像命令所指示的身体特征反复活动对应的特征的反复活动。
13、根据权利要求1到12中的任一项所述的方法，该方法还包括在所述接收通信终端处接收所述画像命令；和响应于所述画像命令来修改所述接收通信终端显示的化身，其中，对所述化身的修改是通过响应于用户在所述接收通信终端上的规定设置，夸张所显示的化身的规定特征来执行的。
14、根据权利要求1到13中的任一项所述的方法，其中从多条画像命令中选择画像命令包括选择画像命令，所述画像命令响应于用户的规定设置和在所述视频流中所识别出的所述人的画像特性，来夸张在所述接收通信终端上显示的化身的规定特征。
15、根据权利要求1到14中的任一项所述的方法，该方法还包括响应于识别出所述发送通信终端已使所述接收通信终端处于通信保持状态，修改所述接收通信终端显示的化身。
16、根据权利要求1到15中的任一项所述的方法，该方法还包括从所述多条画像命令中选择指示所述发送通信终端将其麦克风静音的画像命令，其中，所选择的画像命令被发送给所述接收通信终端；响应于所接收到的指示所述发送通信终端将其麦克风静音的画像命令，修改所述接收通信终端显示的化身。
17、根据权利要求1到16中的任一项所述的方法，该方法还包括在所述发送通信终端处，识别图片'和/或视频流中的人的画像特性；响应于所识别出的画像特性来产生化身；以及在所述发送通信终端和所述接收通信终端之间建立视频会议会话期间，将所述化身从所述发送通信终端发送到所述接收通信终端。
18、根据权利要求1到17中的任一项所述的方法，其中，响应于所识别出的画像特性来产生化身包括响应于在二维图片和/或视频流中所识别出的画像特性，产生人的身体特征的三维表示。
19、根据权利要求1到18中的任一项所述的方法，该方法还包括-在所述接收通信终端处，使用所述发送通信终端的电话号码来从多个存储的化身中选择化身；在所述接收通信终端处显示所选择的化身；以及响应于所述画像命令，修改所述接收通信终端显示的化身。
20、根据权利要求1到19中的任一项所述的方法，该方法还包括通过对来自在所述发送通信终端处讲话的人的音频信号使用语音识别，来使用语音识别识别该人；响应于对该人的识别，从多个存储的化身中选择化身；在所述接收通信终端处显示所选择的化身；以及响应于所述画像命令，修改所述接收通信终端显示的化身。
21、一种无线通信终端，该无线通言终端包括视频源，其用于产生视频流；收发机，其被配置为通过无线空中接口与另一通信终端进行通信；以及图像处理器，其被配置为在来自所述视频源的视频流中识别人的画像特性；响应于在所述视频流中所识别出的人的画像特性，从多条画像命令中选择接收通信终端已知的画像命令；以及通过所述收发机将所选择的画像命令发送给另一通信终端。—
22、一种无线通信终端，该无线通信终端包括收发机，其被配置为通过无线空中接口从另一通信终端接收画像命令；显示器；以及图像处理器，其被配置为响应于所接收到的画像命令，对在所述显示器上显示的化身执行修改。
全文摘要
公开了用于对在通信终端处的化身显示进行控制的方法和相关联的无线通信系统。识别来自视频源的视频流中的人的画像特性。响应于所识别出的所述视频流中的人的画像特性，从多条画像命令中选择接收通信终端已知的画像命令。将所选择的画像命令发送到接收通信终端。接收通信终端然后可以响应于接收到的画像命令来修改显示的化身。
文档编号H04L29/06GK101690071SQ200780053540
公开日2010年3月31日申请日期2007年12月18日优先权日2007年6月29日
发明者亨里克·本特松, 托德·撒恩伯格申请人:索尼爱立信移动通讯有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：托德.撒恩伯格;亨里克.本特松
技术所有人：索尼爱立信移动通讯有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。