用于移动视频通信的化身数据库的制作方法

文档序号：2821455阅读：215来源：国知局

专利名称：用于移动视频通信的化身数据库的制作方法
技术领域：
本发明涉及移动视频通信领域。更具体地，本发明涉及一种方法和系统，包括用于移动视频通信网络的全球化身(avatar)数据库。
背景技术：
视频通信网络已使之有可能在虚拟环境中交换信息。实现此的一种方式是使用化身。化身允许用户在虚拟世界中与其他用户通信和交互。
化身能够根据用户要求采用许多不同的形状，例如，正在讲话头部(talking head)、卡通、动物或用户的三维图像。对于虚拟世界中的其他用户而言，化身是该用户的图形表示。当控制化身的用户例如通过个人计算机或移动电话登录到虚拟世界或与虚拟世界交互作用时，在虚拟现实中可以使用该化身。
如上所述，正在讲话头部可以是其嘴唇与语音同步移动的人的头部的三维表示。正在讲话头部能够用于创建可视互连的假象，即使所使用的连接是语音信道。
例如，在视听语音系统中，“正在讲话头部”的集成可以用于各种应用。这样的应用可以包括例如用于视频电话的基于模型的图像压缩、呈现、虚拟会议室中的化身、诸如电子邮件阅读和游戏的智能计算机-用户接口以及许多其他操作。这样的智能用户接口的一个示例是移动视频通信系统，其使用正在讲话头部来表示发送的音频消息。
在音频视频系统中，对音频进行处理，以获得音素和定时信息，然后将其传送到脸部动画合成器。脸部动画合成器使用适当的viseme图像(来自N的集合)来利用音素以及音素之间的变体(morph)进行显示。这传送与音频同步的脸部运动(例如，嘴唇)的外观。在T.Ezzat等人的“MiketalkA talking facial display based on morphingvisemes”，Proc Computer Animation Conf.第96-102页，Philadelphia，PA，1998和E.Cosatto等人的“Photo-realistictalking-heads from image samples”，IEEE Trans.OnMultimedia，Vol.2，No.3，2000年9月中描述了这样的常规系统。
具有两种对脸部图像的动画建模方案(1)基于几何学，和(2)基于图像。使用照片真实的正在讲话头部的基于图像的系统具有许多益处，包括更加个人的用户界面、相对于其他方法(诸如卡通动画)增加的可懂度和这样的系统的话音部分增加的质量。
也可以使用三维(3D)建模技术。这样的3D模型提供灵活性，因为这些模型能够被改变以适应不同的语音表达和情绪。不幸地，这些3D模型通常不适于利用计算机系统自动实现。随着当前模型被增强以实现更强的真实感，3D建模的编程复杂性不断增加。在这样的3D建模技术中，用于生成3D合成景物的多边形的数量呈指数律地增长。这大大增加了存储器要求和计算机处理功率。因此，在诸如蜂窝电话的设备中一般不能实施3D建模技术。
当前，2D化身用于类似于因特网聊天和视频电子邮件应用的应用。常规的系统诸如CrazyTalk和FaceMail利用化身驱动将文本组合到语音应用。用户能从多个已有的化身中选择一个或提供他自己的化身并对他自己的化身调节脸部特征点。当输入文本时，化身将模拟对应于该文本的讲话。但是，这个简单的2D化身模型并不产生真实的视频序列。
为了创建3D化身模型，如上所述，一般需要复杂的和交互的技术，而这对于一般用户而言太困难了。

发明内容
因此，本发明的目的是提供用于基于化身的实时视频移动通信的商业模型。
本发明的另一目的是提供用于与移动视频通信一起使用的化身的全球资源数据库。
本发明的一个实施例涉及视频通信系统，包括移动通信网络、包含能通过移动通信网络与另一通信设备交换信息的显示器的移动通信设备以及包含多个化身的数据库。该数据库是用于移动通信网络的全球资源。该移动通信设备能访问多个化身中的至少一个。
本发明的另一实施例涉及用于将化身用于移动视频通信的方法。该方法包括下列步骤由移动通信设备用户启动与另一视频通信设备用户的视频通信；访问包括多个化身的全球资源数据库和选择数据库中多个化身中的一个化身。该方法还包括将这一个化身发送给另一视频通信设备用户的步骤。

本发明的其他特征和方面及其各种优点从附图以及下面对优选实施例的详细描述中将更加清楚。
图1表示其中能够实现本发明的优选实施例的一种系统的概念图。
图2是表示根据本发明优选实施例的一种方法的流程图。
具体实施例方式
在下面的描述中，为了说明而不是限制的目的，列出了具体的细节，诸如特定的结构、界面、技术等，以提供对本发明的完全理解。但是，对于本领域技术人员来说，显然可以在不同于这些具体细节的其他实施例中实施本发明。此外，为了简要和清楚起见，省略了公知设备、电路和方法的详细说明，以避免因为不必要的细节而使本发明的描述不清楚。
在图1中，示出了移动通信系统10的总体视图。该网络包括移动站(MS)20，其能够连接到不同的基站子系统30。基站(BS)30通过网络40互连。网络40可以是广域网，诸如公共电话网络/蜂窝交换网络，或路由发送TCP/IP数据报的因特网路由器网络。
各个服务节点50也能通过网络40进行连接。如所示，能够提供的一个这样的服务是用于视频通信的服务。服务节点50被配置为提供这样的视频通信并连接到网络40作为全球资源。
每个MS20包括常规的移动发送/接收设备，以便能够识别用户和促进呼叫完成。例如，当一个呼叫者试图即在被网络40的BS30覆盖的区域中发出呼叫时，MS20和BS30相互之间交换呼叫者信息。此时，也可以通过网络40交换所支持或所订购的服务的列表。例如，呼叫者可以通过具有显示器61的移动电话60订购移动视频通信。
但是，如上所述，对于呼叫者而言，主要的困难可能在于，创建化身70，用于供这样的移动视频通信使用。本发明的一个实施例涉及存储在服务节点50中的化身的数据库80，呼叫者可以根据需要访问和下载这些化身。还给呼叫者提供用于化身70真实地模拟语音的驱动机制。
数据库80可以包括大量不同类型的化身70，例如，二维、三维、卡通类和基于几何学或基于图像的化身。
还注意到，服务节点50是用于所有BS30和MS20的全球资源。因此，不需要每个BS30和/或MS20独立存储任何化身信息。这允许访问中心点用于所有化身70的更新、维护和控制。多个链接的服务节点70还可以均被提供有所有化身60的子集。在这种安排中，一个服务节点70根据需要能访问另一服务节点70中的数据，以便于移动视频通信呼叫。
数据库80(DB)至少包含动画库和协同发音库。一个库中的数据可以用于从另一个中提取样本。例如，服务节点50可使用从协同发音库中提取的数据从动画库中选择适合的帧参数，以提供给呼叫者。
还注意到，也执行协同发音。协同发音的目的是调节在最终合成的输出中协同发音的效果。协同发音的原理识别对应于音素的嘴形不仅取决于说出的音素本身，还取决于在该瞬时音素之前(和有时在此之后)所说出的音素。未考虑协同发音效果的动画方法对于观察者将被感觉为不自然的，因为嘴形可以与在那些形状的使用不一致的语境中所说出的音素共同使用。
服务节点50还可以包含动画合成软件，诸如基于图像的合成软件。在这个实施例中，可以为呼叫者创建定制化身。这一般在试图向另一方发出移动呼叫之前完成。
为了创建定制化身，在主体正在自然讲话的同时，捕获至少呼叫者的移动和图像的样本。这可以通过移动电话内的视频输入接口来完成，或者可以利用其他方式(例如，通过个人计算机)捕获音频图像数据并将其下载到服务节点50。这些样本捕获正在说话人的特征，诸如在说出特定音素时他或她产生的声音、他或她的嘴形以及他或她明确表达音素之间过渡(transition)的方式。图像样本被处理并被存储在服务节点50的动画库中。
在另一个实施例中，呼叫者可能已经具有能提供(上载)给服务节点50以备将来使用的特定化身。
图2显示表示访问和使用化身数据库80的流程图。在步骤100中，呼叫者开始移动电话呼叫。随后，在MS20和BS30之间交换信息，识别呼叫者为系统10的用户，以及确定呼叫者可以使用什么服务。应注意，还可以根据与移动电话60相关的唯一号码识别呼叫者。
之后，在步骤110，访问化身数据库80。
如果呼叫者订购视频通信服务，则该呼叫者可以具有从数据库80中选择(在步骤121)化身70的选择权。该呼叫者可以具有预先选择的用于与所有呼叫一起使用的默认化身，或具有与不同的被呼叫方相关的不同化身。例如，特定化身可以与呼叫者已编程的每个预编程的快速拨号号码相关。
一旦确定了合适的化身70(步骤120)，服务节点50就在步骤130下载化身70。将这个化身传送给被呼叫的一方，作为呼叫建立程序的一部分。这可以通过类似于呼叫者身份类型信息传送的方式来执行。
此时，服务节点50还可以确定将被呼叫的一方具有将被用于呼叫者的默认化身。再一次，将被呼叫的一方可能具有用于与所有呼叫一起使用的预定的默认化身60或默认化身60可能基于预定相关性(例如，基于呼叫者的电话号码)。预定的默认化身被传送给呼叫者。如果对于将被呼叫的一方不能确定默认化身，则可以将另一预定的系统默认化身发送给呼叫者。
在步骤140，在呼叫建立和继续时，呼叫者和将被呼叫的一方的各种(例如，脸部)参数在数据库80中被存取并被发送给双方，以确保化身60在相应地模仿接收的语音和脸部表情。
在呼叫(步骤150)期间，呼叫者和/或将被呼叫的一方可以动态改变当前使用的化身60。
与系统10相关联的各种功能操作可以全部或部分地在存储在存储器中并由(例如，在MS20、BS30或服务节点50中)处理器执行的一个或多个软件程序中实现。
虽然上面根据特定实施方式对本发明进行了描述，但是应理解，本发明并不打算局限于或限制于这里公开的实施例。相反，本发明覆盖预定包括包括在所附的权利要求书的精神和范围内的各种结构和修改。
权利要求
1.一种视频通信系统(10)，其包括移动通信网络(20，30)；移动通信设备(60)，包括能通过移动通信网络与另一移动通信设备交换信息的显示器(61)；和数据库(80)，包括多个化身(70)，该数据库为用于移动通信网络的全球资源，其中所述移动通信设备能访问多个化身中的至少一个。
2.如权利要求1所述的视频通信系统(10)，其中移动通信网络是蜂窝网络，包括多个移动站(20)和至少一个基站(30)。
3.如权利要求2所述的视频通信系统(10)，其中移动通信设备是蜂窝电话(60)。
4.如权利要求1所述的视频通信系统(10)，其中多个化身包括人体头部的至少一个三维表示。
5.如权利要求1所述的视频通信系统(10)，其中多个化身包括人体头部(70)的至少一个二维表示。
6.如权利要求1所述的视频通信系统(10)，其中多个化身包括人体头部(70)的至少一个基于图像的表示。
7.如权利要求1所述的视频通信系统(10)，其中移动通信设备(60)还包括视频输入接口。
8.如权利要求1所述的视频通信系统(10)，其中数据库(80)是通信连接到移动通信网络通信的视频服务节点(50)的一部分。
9.如权利要求8所述的视频通信系统(10)，其中所述视频服务节点(50)还包括动画合成软件，以允许视频通信系统的用户创建定制化身。
10.一种用于使用化身用于移动视频通信的方法(图2)，该方法包括下列步骤由移动通信设备用户开始至另一视频通信设备用户的视频通信；访问包括多个化身的全球资源数据库；选择数据库中多个化身中的一个化身；和将这一个化身发送给另一视频通信设备用户。
11.如权利要求10所述的方法，其中所述移动通信设备是蜂窝电话。
12.如权利要求10所述的方法，其中多个化身包括人体头部的至少一个三维表示。
13.如权利要求10所述的方法，其中多个化身包括人体头部的至少一个二维表示。
14.如权利要求10所述的方法，其中多个化身包括人体头部的至少一个基于图像的表示。
15.如权利要求10所述的方法，还包括允许移动通信设备用户通过提供视频信息来创建定制化身的步骤。
16.如权利要求10所述的方法，其中选择步骤包括使用预定的默认化身。
17.如权利要求16所述的方法，其中至少两个不同的预定的默认化身供将被呼叫的两个视频通信设备用户使用。
18.如权利要求10所述的方法，还包括将预定的化身发送给移动通信设备用户的步骤。
全文摘要
公开了用于化身移动视频通信的方法和系统。由于在移动通信设备(60)(例如，蜂窝电话)中可能不是全部自动地完成化身(7)的创建和真实驱动，因此与真实驱动机构一起提供化身数据库(80)。移动呼叫者可以选择适当的可下载化身，以便在移动视频通信期间使用。提供该化身数据库作为用于移动视频通信系统的全球资源。
文档编号G10L21/06GK1762145SQ200380105644
公开日2006年4月19日申请日期2003年12月4日优先权日2002年12月12日
发明者M·特拉科维, P·瓦桑斯, Y.－T.林申请人:皇家飞利浦电子股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M·特拉科维、P·瓦桑斯、Y.-T.林
技术所有人：皇家飞利浦电子股份有限公司
我是此专利的发明人

上一篇：动态分析言语短暂性的系统和方法
上一篇：用于选择性语音识别的方法和装置的制作方法