便携式终端和图像通信程序的制作方法

文档序号：2831308阅读：164来源：国知局

专利名称：便携式终端和图像通信程序的制作方法
技术领域：
本发明涉及一种便携式终端、一种图像通信程序和一种图像通信方法。
背景技术：
带有可视电话(videotelephony)的蜂窝电话已经随着无线通信的增长速度和随着图像压缩技术的发展投入到实际的使用中。这种类型的蜂窝电话将由内置的照相机拍摄的始发者(originator)的活动图像实时传送给接收者的蜂窝电话，并且该接收者的蜂窝电话接收这一活动图像以顺序地将其再现。这允许始发者和接收者在进行电话交谈的同时看到彼此的面部图像。
带有可视电话的蜂窝电话还包括所建议的一些电话，其具有发送通过把始发者面部比拟为预定的人物(character)(以下简称为人物图像)生成的图像数据以代替实际拍摄的始发者的面部图像的功能。例如，下面的专利文献1公开了一种可视电话，被配置为基于输入到蜂窝电话中的语音来产生人物图像，并且将其发送给接收者的蜂窝电话。专利文献2公开了一种蜂窝电话，被配置为也按照在始发者面部上的表情的变化来改变人物图像，并且将该改变的人物图像发送给接收者的蜂窝电话。
日本专利申请特开平No.2002-009963[专利文献2]日本专利申请特开平No.2002-176632发明内容但是，以上所述的两种传统方法是基于由始发者产生的语音本身或者基于面部表情，蜂窝电话产生人物图像，并且由此产生的图像不总是反映始发者个人的情绪或者意愿。由于这个缘故，产生的人物图像不一定是与始发者的愿望相匹配的人物图像。特别地，在专利文献1描述的发明中，产生的人物图像不是考虑了始发者的语音音调(声音音量或者频率)的人物图像，并且关于该人物图像的表情有时不能充分地反映该始发者的情绪。在专利文献2描述的发明中，要求分析该始发者面部图像的过程，作为用于在该人物图像中反映该始发者情绪或者意愿的一个额外过程。
因此，本发明的一个目的是提供一种便携式终端，以相对简单的配置去产生接近于始发者愿望的人物图像，并且将其发送给接收者的便携式终端，从而增强在始发者和接收者之间的电话交谈过程中的趣味效果。
为了达到以上所述的目的，按照本发明的便携式发射终端包括存储多个人物图像的存储装置；用于指定将要发送给便携式接收终端的人物图像的表情或者动作的指定装置；用于从存储在存储装置中的多个人物图像当中获得人物图像，和用于使用该获得的人物图像去产生具有由该指定装置指定的表情或者动作的人物图像的产生装置；和用于发送由该产生装置产生的人物图像给便携式接收终端的发射装置。
一种按照本发明的图像通信程序令便携式发射终端执行指定要发送给便携式接收终端的人物图像的表情或者动作的指定过程；从存储在存储装置中的多个人物图像当中获得人物图像，和使用获得的人物图像去产生具有由指定过程指定的表情或者动作的人物图像的产生过程；和发送由该产生过程产生的人物图像给便携式接收终端的发送过程。
此外，一种按照本发明的图像通信方法包括指定步骤，其中便携式发射终端指定要发送给便携式接收终端的人物图像的表情或者动作；产生步骤，其中该便携式发射终端从存储在存储装置中的多个人物图像当中获得人物图像，并且使用该获得的人物图像去产生带有在指定步骤指定的表情或者动作的人物图像；和发射步骤，其中该便携式发射终端发送在该产生步骤产生的人物图像给便携式接收终端。
按照本发明的这些方面，该便携式发射终端被配置成使用从多个人物图像当中获得的人物图像，产生带有指定的表情或者动作的人物图像(例如，绘制的图片)，并且将其发送给该便携式接收终端。即，要发送给该便携式接收终端的人物图像的表情或者动作是一个反映作为便携式发射终端的用户的始发者的情绪或者意愿的人物图像，由此，通过相对简单的配置，产生和发送/接收接近于始发者愿望的人物图像成为可能。因此，在电话交谈过程中在始发者和接收者之间的趣味效果把被增强。
另一个按照本发明的便携式发射终端包括存储多个人物图像的存储装置；用于输入语音的输入装置；用于分析由输入装置输入的语音的音调，和基于音调的分析结果，确定要发送给便携式接收终端的人物图像的表情或者动作的确定装置；用于从存储在存储装置中的多个人物图像当中获得人物图像，和使用该获得的人物图像去产生具有由该确定装置确定的表情或者动作的人物图像的产生装置；和用于发送由该产生装置产生的人物图像给便携式接收终端的发射装置。
另一个按照本发明的图像通信程序使便携式发射终端执行输入语音的输入过程；分析由输入过程输入的语音的音调和基于音调的分析结果，确定要发送给便携式接收终端的人物图像的表情或者动作的确定过程；从存储在存储装置中的多个人物图像当中获得人物图像，和使用获得的人物图像去产生具有由确定过程确定的表情或者动作的人物图像的产生过程；和发送由产生过程产生的人物图像给便携式接收终端的发送过程。
按照本发明的另一个图像通信方法，包括输入步骤，其中便携式发射终端输入语音；确定步骤，其中便携式发射终端分析在输入步骤输入的语音的音调，并且基于音调分析的结果，确定要发送给便携式接收终端的人物图像的表情或者动作；产生步骤，其中便携式发射终端从存储在存储装置中的多个字符当中获得人物图像，并且使用获得的人物图像去产生具有在确定步骤确定的表情或者动作的人物图像；和发送步骤，其中便携式发射终端发送在产生步骤产生的人物图像给便携式接收终端。
按照本发明的这些方面，便携式发射终端被配置成使用从多个人物图像当中获得的人物图像，产生具有基于输入语音的音调分析结果确定的表情或者动作的人物图像，并且将其发送给便携式接收终端。即，要发送给便携式接收终端的人物图像的表情或者动作是一个反映作为便携式发射终端用户的始发者的语音的音调的人物图像。音调真正地反映始发者的情绪。因此，无需分析始发者的面部图像过程，通过比较简单的配置，产生和发送/接收接近于始发者愿望的人物图像成为可能。因此，在电话交谈过程中在始发者和接收者之间的趣味效果被增强。
在按照本发明的便携式发射终端中，优选地，产生装置使得便携式发射终端的显示装置显示由产生装置产生的人物图像。
按照本发明，在便携式发射终端中产生的人物图像不仅在便携式接收终端上被显示，而且在便携式发射终端的显示装置上被显示。因此，始发者可以进行电话交谈，同时容易和迅速地捕获在电话交谈中由接收者看到的人物图像。表示在屏幕上位置的指针也可以被显示在出现于便携式发射终端方上的人物图像之上，其允许增加附加功能，例如，按照指针的运动改变人物图像的方向的功能，或者选择人物图像的一部分的功能。
在按照本发明的便携式发射终端中，优选地基于从便携式接收终端发送的语音，确定装置确定要发送给便携式接收终端的人物图像的表情或者动作。
按照本发明，要发送给便携式接收终端的人物图像的表情或者动作是基于从便携式接收终端发送的接收者的语音确定的。这允许接收者也主动地改变人物图像的表情或者动作，这增强了趣味效果和更多的娱乐特性。在这里，接收者的语音可以是其声音音调，在这种情况下，人物图像的表情或者动作是由确定装置基于分析接收者语音的音调的结果确定的。在这种情况下，不需要提及，基于输入进便携式发射终端的始发者语音的音调分析结果，便携式发射终端还可以确定要发送给便携式接收终端的人物图像的表情或者动作。此外，还可以基于输入进便携式发射终端的始发者语音的音调分析结果和接收者语音的音调分析结果两者，确定人物图像的表情或者动作。
在按照本发明的便携式发射终端中，优选地确定装置分析声音音量和语音频率的至少一个，作为音调。
按照本发明，便携式发射终端被配置去使用从多个人物图像当中获得的人物图像，产生具有基于声音音量(包括有/没有语音)和输入语音频率的至少一个确定的表情或者动作的人物图像。产生的人物图像被发送给便携式接收终端。输入语音的声音音量可能反映作为便携式发射终端用户的始发者的情绪。按照这个情绪，便携式发射终端修改所产生和发送的人物图像的表情或者动作。
例如，这里在始发者当前的声音音量和正常的声音音量之间的差值小于一个预先确定的值，便携式发射终端确定始发者情绪处于通常的状态之中，并且产生和发送一个表示正常情绪的人物图像。另一方面，这里在始发者当前的声音音量和正常的声音音量之间的差值不小于预先确定的值，并且始发者当前的声音音量不小于正常的声音音量，便携式发射终端确定始发者的情绪处于比通常的状态更加激动的状态，并且产生和发送一个表示激动感觉的人物图像。此外，在始发者当前的声音音量和正常的声音音量之间的差值不小于预先确定的值，并且始发者当前的声音音量小于正常的声音音量，便携式发射终端确定始发者的情绪处于比正常状态更平静的状态，并且产生和发送一个表示镇静感觉的人物图像。以这样的方式，便携式发射终端能够在某种程度上从输入语音的声音音量中估算始发者当前的情绪，并且能够按照估算的结果适当地改变呈现给通信伙伴的人物图像的表情或者动作，这进一步增强了在电话交谈过程中的趣味效果。
除声音音量之外，频率也可以被作为一个确定人物图像的表情或者动作的指标使用。即，始发者当前的频率小于预先确定的值加正常频率所得的值，则便携式发射终端确定始发者的情绪处于正常状态，并且产生和发送表示正常感觉的人物图像。另一方面，始发者当前的频率不小于预先确定的值加正常频率所得的值，并且不小于由从正常频率中减去另一个预先确定的值所得的值，则便携式发射终端确定始发者的情绪处于比通常的状态更加激动的状态，并且产生和发送一个表示激动感觉的人物图像。此外，始发者当前的频率不小于预先确定的值加正常频率所得的值，并且小于由从正常频率中减去另一个预先确定的值所得的值，则便携式发射终端确定始发者的情绪处于比通常的状态更平静的状态，并且产生和发送一个表示镇静感觉的人物图像。
人物图像的表情或者动作还可以是通过声音音量与频率的组合确定的。
在便携式发射终端中，进一步优选地，发射装置使用标准视频传输协议发送人物图像。
在图像通信程序中，进一步优选地，发射过程是使用标准视频传输协议发送人物图像。
在图像通信方法中，进一步优选地，发射步骤是一个在其中便携式发射终端使用标准视频传输协议发送人物图像的步骤。
标准视频传输协议例如是H.320、H.324、3G324M等等的其中一个。通过以这样的方式在人物图像的发送过程中使用现有的标准通信协议，无需开发新的图像传输技术就可以实现本发明的目的。
构建如下的图像通信系统也是可行的，该图像通信系统包括前述的便携式发射终端和便携式接收终端，并且被配置使得便携式发射终端将所产生的人物图像发送给便携式接收终端。
本发明使得采用较简单配置的便携式终端能够产生接近于始发者愿望的人物图像，并且发送该人物图像给接收者便携式终端，从而，增强在电话交谈过程中在始发者和接收者之间的趣味效果。
从下面给出的详细说明和仅用于说明给出的附图中，本发明将变得更充分地清楚，因此，不被认为是限制本发明。
从在下文给出的详细说明中，本发明的进一步的适用范围将变得显而易见。但是，应该明白，虽然表示本发明的优选实施例，详细的说明和特定的例子仅仅是作为说明给出的，因为从这个详细说明中，对于那些本领域技术人员来说，在本发明的精神和范围之内各种各样的改变和改进将变得显而易见。

图1是一个概念上的图解，示出一个按照本发明的可视电话的整个的结构。
图2是一个图解，示出在第一个实施例中的发射蜂窝电话的功能结构。
图3是一个示出按照本发明的发射蜂窝电话的硬件结构的方框图。
图4是一个图解，示出在第一个实施例中在按压键编号和人物图像的表情或者动作之间对应的例子。
图5是一个用于解释在第一个实施例中由发射蜂窝电话执行的人物图像产生过程的流程图。
图6A是一个图解，示出在指定表情之前的人物图像的例子，和图6B是一个图解，示出在指定打盹儿面部作为表情之后的人物图像的例子。
图7是一个图解，示出在第二个实施例中的发射蜂窝电话的功能结构。
图8是一个图解，示出当在第二个实施例中的发射蜂窝电话确定一个人物图像的表情的时候，在表中涉及的数据存储的例子。
图9是一个用于解释在第二个实施例中由发射蜂窝电话执行的人物图像产生过程的流程图。
图10是一个图解，示出在第二个实施例中，在简单分析模式的选择过程中从音调分析结果中提取的二个目标采样数据元素。
图11是一个用于解释在第二个实施例中，在简单分析模式的选择过程中执行的人物图像确定过程的流程图。
图12是一个图解，示出在第二个实施例中，在音量分析模式的选择过程中的参考采样数据元素和从音调分析结果中提取的二个目标采样数据元素。
图13是一个用于解释在第二个实施例中，在音量分析模式的选择过程中执行的人物图像确定过程的流程图。
图14是一个图解，示出在第二个实施例中，在频率分析模式的选择过程中的参考采样数据元素和从音调分析结果中提取的二个目标采样数据元素。
图15是一个用于解释在第二个实施例中，在频率分析模式的选择过程中执行的人物图像确定过程的流程图。
图16是一个图解，示出在第二个实施例中，在复合分析模式的选择过程中的参考采样数据元素和从音调分析结果中提取的二个目标采样数据元素。
图17是一个图解，示出在第二个实施例中，在复合分析模式的选择过程中涉及的情绪类型表的例子。
图18是一个图解，示出在第二个实施例中，在复合分析模式的选择过程中涉及的表情表的例子。
具体实施例方式
第一个实施例在下面将参考附图描述在本发明第一个实施例中的可视电话系统(对应于一个图像通信系统)。首先将描述结构。图1是一个图解，示出用于在始发者和接收者之间以图像执行电话交谈的可视电话系统1整个的结构。在当前的系统中发送和接收的图像不是始发者或者接收者实际拍摄的图像，而是通过将始发者或者接收者比拟为预定的人物作为其替代而产生的图像数据(人物图像)。
如图1所示，始发者的蜂窝电话10(对应于便携式发射终端)经由基站B1被无线耦接至通信网络N，接收者的蜂窝电话20(对应于便携式接收终端)经由基站B2被无线耦接至通信网络N。这使蜂窝电话10和蜂窝电话20去执行包含人物图像的各种数据的双向发射/接收。
下面，将参考图2描述蜂窝电话10的功能结构。
如图2所示，蜂窝电话10功能上包括人物图像DB11(对应于存储装置)、用户指定器12(对应于指定装置)、人物图像产生器13(对应于产生装置)、图像编码器14、话音编码器15、协议处理器16和通信装置17(对应于发射装置)。
作为由用户指定器12选择的目标的多个人物图像被预先地存储(登记)在人物图像DB11中。多个人物图像例如被按照性别和年龄，以及按照发型、衣服等等登记，使得可适用于始发者的许多角色。这些人物图像可以通过因特网下载，通过近程的无线通信，诸如红外通信，或者通过电子邮件而获得。人物图像的数据格式可以是任意的格式，例如，静止图像库(base)或者3D(维)库静态数据格式，使用表情或者动作的指定和输入以及至图像编码器14的输出接口的应用格式，等等。
存储在人物图像DB11中的人物图像可以被安排为按照与日历和时钟同步的季节，日期与时间来动态地改变。例如，在背景图像也与人物图像一起存储的情况下，在夏季的背景图像是一个海滨浴场图像，并且在二十点之后背景图像是夜景图像。也可能采用这样的人物图像的变化，即，在清晨人物图像具有一个未着色的面部(没有化妆)，在夜晚，人物图像是一个穿着睡衣的图像，并且在圣诞节，人物图像是一个穿着圣诞老人衣服的图像。
用户指定器12从存储在人物图像DB11的多个人物图像当中选择一个人物图像作为在表情改变或者动作之前的人物图像(换句话说，作为参考人物图像)。人物图像可以基于通过蜂窝电话10的用户的输入操作被选择，或者可以对应于通信伙伴(蜂窝电话20)自动地从预先与记录在电话号簿中的组和个体有关的人物图像当中选择。
用户指定器12基于通过蜂窝电话10的用户的输入操作，指定选择的人物图像的表情和动作的至少一个。指定内容被输出给人物图像产生器13。例如，向上、向下、向左和向右的光标键被分别分配给“微笑”、“哭泣”和“愤怒”以及“鞠躬”动作的情况下，按压向上键来指定具有微笑表情的人物图像，并且按压向右键来指定一个具有鞠躬动作的人物图像。还可能添加另一个功能，为每个表情分配一个程度，例如，当在按压向上键之后再次按压向上键时，按照按压的次数指定具有较高程度的微笑表情的人物图像。
分配给键的指定内容(定义内容)例如不仅可以是独立的显示，诸如显示右眼闭合、显示人物的整个的形体、仅显示上上半身等等，而且可以是合成显示，诸如合成显示嘴和眼睛的操作以产生笑脸，显示嘴的变化动作以产生嘴形的发音a、i、u、e和o等等。此外，文字可被用于将顺序处理、重复处理、排队、条件等等增加到各个指定内容，从而为每个人物图像赋予许多的动作。
在人物图像也被显示在蜂窝电话10的屏幕上的情况下，用户指定器12可以被配置，使得用户因此可以选择性地移动显示在蜂窝电话10的屏幕上的指针。这允许用户去改变人物图像的面部的方向，指定人物图像的一部分，或者去轻击头部的人物图像。例如，在衣服被指定为人物图像的一部分时，改变衣服变是可行的；在轻击人物图像的头部，改变表情为微笑表情也是可能的。
还期待，在具有前述的相应的表情或者动作的人物图像被预先地存储在人物图像DB11中的情况下，用户指定器12被安排基于通过蜂窝电话10的用户的输入操作，从显示在表中的这些人物图像当中选择一个人物图像。
通过蜂窝电话10的用户的输入操作不仅包含通过手指输入，而且包含语音识别以及利用单词记录(word registration)的语音输入。
人物图像产生器13获得由用户指定器12从人物图像DB11中选择的人物图像，并且使用人物图像产生具有由用户指定器12指定的表情或者动作的人物图像。
在用户指定器12的指定之前，人物图像产生器13不总是必须执行人物图像的生成。即，若在固定时段内没有检测到来自用户指定器12的指定，人物图像产生器13可以产生具有预先在蜂窝电话10中记录的或者由用户预先记录的表情或者动作的人物图像。例如，在三分钟之后没有这样的指定，人物图像表示欲睡的姿态，打呵欠等等，或者不耐烦的姿态，甚至在又一个三分钟之后还没有指定，人物图像入睡，因此增强了趣味效果。在不同类型的人物图像之中，上述的表情或者动作可以被设置为不同的。
为了呈现与人的相似性，人物图像产生器13可以具有自动地给出人物图像眨眼或者微妙的面部动作的功能。即，标准动作和非标准动作被定义为人物图像的动作，并且人物图像产生器13被提供一种附加功能，给人物图像提供这样的动作，如磕睡，照镜子和把手放在头发上，检查蜂窝电话的邮件等等作为非标准动作。在这种情况下，为了增加不可预测性，优选地甚至相同的人物图像显示不同的动作。反之，还可能增加一种玩偶方式，其中人物图像不具有与人的相似性。
图像编码器14编码和压缩由人物图像产生器13产生的人物图像。
语音编码器15编码和压缩输入的始发者语音。
协议处理器16使用标准可视电话协议(例如，3G-324M)将由图像编码器14编码的人物图像，和由话音编码器15编码的语音转换为可以由蜂窝电话20接收的信号。
通信装置17实际上发送由协议处理器16转换的人物图像和语音的信号给蜂窝电话20的地址。
接着，将参考图3描述蜂窝电话10的硬件结构和在硬件结构和功能结构之间的对应关系。图3是示出蜂窝电话10的硬件结构的方框图。如图3所示，蜂窝电话10实际上是由控制单元10a、输入设备10b、RAM10c、显示设备10d、存储设备10e、无线电通信设备10f和音频处理器10g组成的。这些设备每个被经由总线电耦接，使得能够相互之间接收和馈送各种各样的信号。
更具体地说，控制单元10a例如是CPU(中央处理单元)，输入设备10b例如是光标键和数字输入键，和RAM10c例如是易失性半导体存储器。显示设备10d例如是LCD(液晶显示器)或者EL(电致发光)显示器，和存储设备10e例如是非易失性半导体存储器，诸如闪速存储器。无线电通信设备10f例如包括RF(射频)、基带部分和可视电话协议处理器。音频处理器10g包括麦克风M、扬声器S、分析输入语音声音音调的设备，和语识别设备。
人物图像DB11的功能是由存储设备10e作为实体部分实现的，和用户指定器12的功能是由输入设备10b实现的。当控制单元10a执行预定的程序的时候，符号图像产生器13的功能被实现。图像编码器14、协议处理器16和通信装置17的功能由无线电通信设备10f实现，并且话音编码器15的功能由音频处理器10g实现。
接下来，将描述在当前的实施例中的可视电话系统1的操作，同时还描述了一种按照本发明的图像通信方法。在当前的操作描述中，如图4所示，为简单起见，采用的例子是其中将五种类型的表情或者动作分配给相应的数字键的情况。即，键编号“1”被分配一个张开两个眼睛的表情，键编号“2”被分配一个稍微张开嘴的表情，键编号“3”被分配一个闭合嘴的表情，键编号“4”被分配一个闭合两个眼睛的表情(睡着了)，和键编号“5”被分配一个向前弯着腰的表情(鞠躬)。
图5是一个流程图，示出由可视电话系统1执行的人物图像产生过程的流程。首先，蜂窝电话10的用户通过用户指定器12选择一个人物图像(S1)，然后人物图像产生器13被告知所选择的人物图像。人物图像产生器13接收通知，从人物图像DB11中获得选择的人物图像作为基本人物图像(S2)。
接着，蜂窝电话10的用户通过用户指定器12指定对于在S2获得的人物图像的想要的表情或者动作(S3)，然后，人物图像产生器13被告知指定的表情或者动作。人物图像产生器13接收通知，基于在S2获得的人物图像，按照在S3指定的表情或者动作产生一个人物图像(S4)。
例如，在图6A中示出的人物图像13a是在S1选择的情况下，当具有键编号3和4的键被组合按压的时候，上述的人物图像按照表情信息“嘴＝闭合”和“右眼＝闭合，左眼＝闭合”进行表现。从而，如图6B所示，带有嘴和两个眼睛闭合的面部的人物图像被产生。
由于在S5上和在S5之后的流程是通常公知的可视电话技术，在此处将省略它的详细说明，但是，S5是一个其中图像编码器14压缩和编码在S4产生的人物图像的步骤。类似地，S6是一个其中话音编码器15压缩和编码输入的始发者语音的步骤。在S5处压缩和编码的人物图像与在S6处压缩和编码的语音一起馈送给协议处理器16，以使用预定的可视电话协议，将其转换为一个可以由蜂窝电话20接收的信号(S7)。然后，人物图像与语音一起发送给作为蜂窝电话10的通信者的蜂窝电话20(S8)。
在按照本发明的可视电话系统1中，如上所述，蜂窝电话10使用从多个人物图像当中获得的人物图像去产生具有指定的表情或者动作的人物图像，并且将其发送给对应的蜂窝电话20。这允许作为始发者的蜂窝电话10的用户在蜂窝电话20方显示反映他或者她的情绪或者意愿的人物图像。因此，无需话音分析功能和图像分析功能，通过比较简单的蜂窝电话结构，可以增强在电话交谈过程中在始发者和接收者之间的趣味效果。
可视电话系统1为迅速响应来自用户的命令，同步再现人物图像的表情或者动作的变化而设，并且同时地发送人物图像和语音。由于这个缘故，不同于使用电子邮件等等的存储类型再现技术，其具有如下的优点。即，在与接收者对话的过程中，始发者可以使人物图像即时地反映他的或者她的情绪或者意愿。因此，在始发者和接收者之间执行流畅的通信，同时保持实时通信是可行的。
第二个实施例下面，将描述本发明的第二个实施例。
第一个实施例描述了其中蜂窝电话的用户指定人物图像的表情或者动作的例子，然而，当前的实施例将描述一个例子，其中以下描述的音调分析器基于输入的用户语音音调的分析结果，确定人物图像的表情或者动作。在此处，音调指的是声音音量或者声音(频率)的等级，正常地，音调取决于生成语音的人的情绪而不同，并且按照情绪的变化随着时间而变化。因此，通过基于音调改变人物图像的表情或者动作，在趣味效果方面实现改善也是可行的，这是本发明的目的。
首先，在第二个实施例中的可视电话系统整个的结构与参考图1描述的是差不多相同的，因此，详细说明和它的例子说明将在此处省略。即，在当前的实施例中的可视电话系统2包括蜂窝电话30、40，基站B1、B2和网络N。蜂窝电话30可以顺序地经由基站B1、网络N和基站B2执行与蜂窝电话40的通信。
下面，将参考图7描述蜂窝电话30的功能结构。如图7所示，蜂窝电话30功能上包括人物图像DB31(对应于存储装置)、用户指定器32、人物图像产生器33(对应于产生装置)、图像编码器34、话音编码器35、协议处理器36、通信装置37(对应于发射装置)、语音输入部分38(对应于输入装置)，和音调分析器39(对应于确定装置)。正如所描述的，蜂窝电话30具有多个与在第一个实施例中的蜂窝电话10所共有的组成部分。因此，无需详细说明，上述的部分将由相同的参考符号组(具有相同的末尾数字)来表示，以表明对应关系，并且在下面将详细地描述对应于在第一个和第二个实施例之间的差别的特殊部分。
语音输入部分38采集由蜂窝电话的用户发出的语音，将其转换为电信号，并且将信号作为语音信号输出给音调分析器39。语音输入部分38的功能是由音频处理器10g(参看图3)作为实体部分实现的。
音调分析器39分析从语音输入部分38馈送的语音信号的音调，并且基于分析结果确定人物图像的表情或者动作。人物图像产生器33被告知这样确定的表情或者动作。有许多用于音调分析器39的可以想到的技术，以使人物图像反映音调分析结果。稍后将在操作的描述中描述详细的流程内容，例如，音调分析器39基于存在或者不存在语音输入，简单地确定人物图像的表情或者动作。也就是，在声音音量大于0，即，存在语音输入时，估计始发者正在通话，并且人物图像的嘴在活动；反之，在声音音量是0或者非常小，即，可以确定没有语音输入时，估计始发者保持安静，并且人物图像的嘴是闭合的。
音调分析器39还可以如下被配置设置一个阈值，使得声音音量的变化量和人物图像的表情或者动作基于是否变化量超过该阈值来确定。例如，在多个时刻上测量的声音音量之间的差值超过阈值，并且声音音量从低到高变化，这可以被假定始发者变得发怒，并且从而，人物图像的表情被确定是生气的表情。
此外，音调分析器39还可以被配置去预先保留对应于多个情绪的音调模式，并且被配置成使人物图像的表情或者动作反映对应于最类似于音调分析结果的音调模式的情绪。用于确定在音调分析结果和音调模式之间相似性的行之有效的方法是从音调分析结果中提取特征数量。例如，在从音调分析结果中提取的特征数量最类似于笑声语音的音调模式的特征数量的情况下，音调分析器39确定笑着的面部作为人物图像的表情；在从音调分析结果中提取的特征数量最类似于哭泣声音的音调模式的特征数量的情况下，音调分析器39确定哭泣面部作为人物图像的表情。
音调分析器39还可以如下被配置设置一个阈值，使得语音的频率和人物图像的表情或者动作基于是否频率超过阈值而确定。例如，若在任意的时刻测量的频率超过阈值，即，语音为高，确定始发者变得激动，并且人物图像的表情被确定是一个激动的表情。和其形成对比，测量的频率不大于阈值，即，语音为低。人物图像的表情被确定是沮丧的表情。
此外，音调分析器39还可以被配置去通过声音音量与频率的组合来确定人物图像的表情。以这种形式，音调分析器39最好是被配置成具有一个如图8所示的参考表391。如图8所示，参考表391把包含多个对于相应的声音音量等级(五个等级)和对于相应的频率等级(五个等级)的表情组。按照参考表391，即使频率等级是最高的“5”，在声音音量是1或者2时，人物图像被确定为具有发笑的表情；在声音音量是3-5时，人物图像被确定具有生气的表情。此外，比重程度被设置在相同类的表情之中，例如，狂怒用声音音量5，普通的生气和少许的生气分别地用声音音量4和3等等。确定对应于类似于除生气之外的表情的不同情绪等级的表情也是可能的，例如，发笑、惊奇、厌恶、哭泣和悲伤。
每个说话的人语音音调是不同的。因此，在平时安排音调分析器39去存储始发者的音调，并且不断地由始发者在每次始发时更新音调是行之有效的。始发者的情绪被以这种方法基于获悉的音调来确定，生成更精确地反映音调分析结果的人物图像的表情或者动作是可行的。
人物图像产生器33获得用户指定器32从人物图像DB31中选择的人物图像，并且基于获得的人物图像产生具有由音调分析器39确定的表情或者动作的人物图像。
同样，在目前的实施例中，通过蜂窝电话30的用户的输入操作不仅包含通过手指的输入，而且包含语音识别，以及使用言语记录的语音输入。在蜂窝电话30具有上述的语音输入功能的情况下，人物图像的表情或者动作不仅可以以蜂窝电话30的用户(始发者)的语音根据时间而变化，而且可以以蜂窝电话40的用户(接收者)的语音根据时间变化。例如，当人物图像在蜂窝电话40的屏幕上是打盹儿时，接收者发出“看！”，“嗨！”等等的语音，当蜂窝电话30的用户指定器32识别到它时，人物图像执行惊奇地醒来的动作。当音调分析器39确定接收者音调是愤怒或者兴奋的时候，人物图像显示一个惊奇的表情。此外，可以期待许多的改进，例如，除非音调分析器39在规定的期限检测到接收者语音之外，否则人物图像点头。
接下来，将描述在本发明的第二个实施例中的可视电话系统的操作，同时还描述在按照本发明的图像通信方法中的每一个步骤。图9是一个用于解释由蜂窝电话30执行的人物图像生成过程的流程图。当前的人物图像生成过程包括与在第一个实施例(参看图5)中的人物图像生成过程所共有的多个步骤。具体地，在图9中的T1-T2相应于在图5中的S1-S2，并且同样地，T7-T10相应于S5-S8。在下面将进行描述T3-T6(在图9中以粗的实心框表示的过程)，在目前的实施例中其是特殊的过程。
在T3，语音输入部分38输出由蜂窝电话30的用户发出的语音的语音信号给音调分析器39。
在T4，音调分析器39分析在T3馈送的语音信号的音调。音调的分析结果被临时保留在音调分析器39中。
在T5处，基于在T4处的音调分析结果，音调分析器39确定人物图像的表情或者动作。具体地，音调分析器39以预定时间宽度从音调分析结果中获得采样数据。优选地，采样数据在以正常时间成批采样的始发者数据中获得(以下简称为参考采样数据)，并且采样数据作为用于确定人物图像的表情或者动作的目标(以下简称为目标采样数据)。音调分析器39比较目标采样数据与参考采样数据或者预先确定的值，从而从目标采样数据的特征中预测始发者的情绪(声音音量的等级或者频率的等级)。预测的情绪被反映在发送给蜂窝电话40的人物图像的表情或者动作上。
可以想得到有关从音调的分析结果中确定人物图像的表情或者动作过程的各种各样的形式，并且在下面将进行描述在它们之中的四个主要的形式。这四个形式是基于存在/不存在语音，基于声音音量的等级，基于频率的等级，和基于声音音量的等级以及频率的等级，确定人物图像的表情或者动作的模式。为简单起见，以上所述的形式将分别地被称为简单分析模式，音量分析模式，频率分析模式和复合分析模式。
首先，将参考图10和11描述在简单分析模式中特定的T5过程。图10是一个示出音调分析结果的说明，其中消逝的时间被定义在横轴，声音音量被定义在纵轴。如图10所示，音调分析结果包括具有预定时间宽度(例如，大约3秒)的多个采样数据元素(element)。在当前的形式中，让我们假设一种提取对应于时间宽度t1的目标采样数据元素①的情况和一种提取对应于时间宽度t2的目标采样数据元素②的情况。
图11是一个用于解释选择简单分析模式执行的人物图像确定过程的流程图。音调分析器39从音调分析结果中提取目标采样数据元素(T511)，尔后计算目标采样数据元素的平均音量(T512)。除异常值之外可以对于目标采样数据计算平均值。音调分析器39预先地保留在考虑了始发者周围噪声的无声状态中的声音音量值(最小值)，并且在平均值计算之后，其确定在平均值和最小值之间的数值关系(T513)。
此时返回到图10，至于目标采样数据元素①，它的平均值被确定为不小于最小值M(在图11中的T513，否)，并且在这种情况下，其确定始发者正在发出一些语音。为了使人物图像与始发者表情或者动作匹配，音调分析器39确定张开和闭合嘴(嘴唇同步)的开始，作为在图9中在T2处获得的人物图像的动作(T514)。和其形成对比，至于目标采样数据元素②，它的平均值被确定为小于最小值M(在图11中的T513，是)。在这种情况下，估计始发者没有发出语音，音调分析器39确定张开和闭合嘴(嘴唇同步)的中止，作为在T2处获得的人物图像的动作(T515)。尔后，流程移动到在图9示出的T6处和在T6之后的流程。
接着，将参考图12和13描述在音量分析模式中特定的T5过程。图12类似于图10，是一个示出音调分析结果的实例，这里消逝的时间被定义在横轴，声音音量被定义在纵轴上。如图12所示，音调分析结果包含具有时间宽度t3(例如，大约10秒)的参考采样数据元素①，和具有相应的时间宽度t4、t5(例如，两者大约5秒)的目标采样数据元素③、④。这些采样数据元素可以具有一个相同的时间宽度。
图13是一个用于解释在选择音量分析模式中执行的人物图像确定过程的流程图。音调分析器39从音调分析结果中提取参考采样数据元素(T521)，尔后其计算这些参考采样数据元素的音量的平均值，并且设置平均值为参考值(T522)。
音调分析器39从音调分析结果中提取目标采样数据元素(T523)，尔后计算目标采样数据元素的音量平均值(T524)。除异常值之外，也可以对于目标采样数据计算平均值。音调分析器39预先地保留一个正阈值作为用于确定平均值与参考值是否有区别的指标，并且在计算了平均值之后，其确定在上述阈值和作为在平均值和参考值之间的差值的|平均值—参考值|之间的量值关系(T525)。
当确定的结果是在平均值和参考值之间的差值不小于阈值(T525，否)的时候，音调分析器39进一步确定在平均值和参考值之间的量值关系(T526)。当确定的结果是平均值被确定不小于参考值(T526，否)的时候，始发者语音的音量偏离，以致大于在正常时间上的音量，估计始发者具有激动的感觉。因此，音调分析器39确定激动的表情作为在图9中T2处获得的人物图像的表情(T527)。
另一方面，当在T526处确定的结果是平均值被确定是小于参考值(T526，是)的时候，始发者的语音音量偏离，以致小于在正常时间上的音量，估计始发者具有镇静的感觉。因此，音调分析器39确定镇静的表情作为在T2处获得的人物图像的表情(T528)。
此外，当在T525处的确定结果是在平均值和参考值之间的差值小于阈值的时候(T525，是)，始发者语音的音量接近于在正常时间上的音量，从而音调分析器39确定正常表情作为在图9中T2处获得的人物图像的表情(T529)。人物图像产生器33被告知由在T527-T529处的一个过程确定的表情。尔后，流程进行到在图9中的T6处的过程和在T6之后的过程，以生成和发送具有前述的表情的人物图像。
返回到图12，例如，目标采样数据元素③的音量的平均值接近于参考值N1，参考值N1是参考采样数据的音量的平均值，在它们之间的差值不大于阈值。因此，在始发者发出对应于目标采样数据元素③的语音期间(t4)，生成具有正常表情的人物图像。和其形成对比，目标采样数据元素④的音量的平均值显著地大于参考采样数据元素的音量的平均值(参考值N1)，在它们之间的差值大于阈值。因此，在始发者发出对应于目标采样数据元素④的语音期间(t5)，生成具有激动的表情的人物图像。
简单模式和音量分析模式并不总是单独适用，而是当然还可以组合适用。在这种情况下，例如，在目标采样数据元素的音量的平均值大于最小值，并且如此大于参考值，以至超过阈值的情况下，生成一个其中具有激动表情的人物张开和闭合嘴巴的图像。
下面，将参考图14和15描述在频率分析模式中特定的T5过程。图14与图12一样是示出音调分析结果的实例，消逝的时间被定义在横轴上，频率被定义在纵轴上。如图14所示，音调分析结果包含具有时间宽度t6(例如，大约10秒)的参考采样数据元素②，和具有时间宽度t7(例如，大约5秒)的目标采样数据元素5。这些采样数据元素可以具有一个相同的时间宽度。
图15是一个用于解释在选择频率分析模式中执行的人物图像确定过程的流程图。音调分析器39从音调分析结果中提取参考采样数据元素(T531)，尔后其计算这些参考采样数据元素的频率的平均值，并且设置平均值为参考值(T532)。
音调分析器39从音调分析结果中提取目标采样数据元素(T533)，并且计算目标采样数据元素的频率平均值(T534)。除异常值之外，也可以对于目标采样数据计算平均值。取决于平均值偏离参考值到什么程度，音调分析器39预先地保留正值范围(range)A、B作为指标，以表示用于确定频率是否不同于在正常时间的频率的准则。范围A、B可以是相同的值或者不同的值。在计算了平均值之后，音调分析器39确定在平均值和参考值+范围A之间的量值关系(T535)。
当确定的结果是平均值小于参考值+范围A(T535，是)的时候，音调分析器39进一步确定在平均值和参考值-范围B之间的量值关系(T536)。当确定的结果是平均值小于参考值-范围B(T536，是)的时候，估计始发者的语音频率如此低以至于被称为不同于在正常时间时的频率，始发者具有镇静的感觉。因此，音调分析器39确定镇静的表情作为在图9中T2处获得的人物图像的表情(T537)。
另一方面，当在T536处确定的结果是平均值不小于参考值-范围B(T536，否)的时候，从在T535处的确定结果中，始发者的语音频率不是如此低以至于不同于在正常时间时的频率，和不是那么高以至于不同于在正常时间时的频率。也就是，由于始发者语音处于接近于正常时间的状态之中，估计始发者具有正常的感觉。因此，音调分析器39确定正常表情作为在图9中T2处获得的人物图像的表情(T538)。
此外，当在T535处确定的结果是平均值不小于参考值+范围A(T535，否)的时候，始发者语音的频率是如此高，以致不同于在正常时间上的频率，估计始发者具有激动的感觉。因此，音调分析器39确定激动的表情作为在T2处获得的人物图像的表情(T539)。人物图像产生器33被告知由在T537-T539处的一个过程确定的表情。尔后，流程进行到在图9中示出的T6处的过程和在T6之后的过程，以生成和发送具有前述的表情的人物图像。
更具体的例子将借助于数字描述，例如，在来源于参考采样数据的参考值被设置在220Hz，并且由音调分析器39保留的范围A、B分别是+25Hz和+20Hz的情况下，参考值+范围A是245Hz(＝220+25)，并且参考值-范围B是200Hz(＝220-20)。因此，人物图像的表情被使用这些值作为用于确定频率平均值的等级的阈值来确定。也就是，在目标采样数据元素的频率平均值是150Hz时，因为150＜200，人物图像的表情被确定为是一个表示镇静的感觉；同样地，在平均值是210Hz时，因为200＜210＜245，人物图像的表情被确定为是一个表示正常的感觉。在平均值是250Hz时，因为245＜250，人物图像的表情被确定为表示激动的感觉。
下面，将参考图16至18描述在复合分析模式中特定的T5过程。图16与图14一样是示出音调分析结果的实例，消逝的时间被定义在横轴上，频率被定义在纵轴上。如图16所示，音调分析结果包含具有时间宽度t8(例如，大约10秒)的参考采样数据元素③，和具有时间宽度t9(例如，大约5秒)的目标采样数据元素6。采样数据元素可以具有一个相同的时间宽度。
在音调分析结果包含以这种形式的音量分析结果和频率分析结果两者的情况下，音调分析器39可以使用从每个音调分析结果中获得的参考和目标采样数据元素确定人物图像。在下面将进行描述通过上述采样数据元素的组合确定人物图像的过程的例子。
在目前的形式中，音调分析器39具有一个在确定情绪类型时参考的情绪类型表392，和一个在确定表情时参考的表情表393。在情绪类型表392中，每一个音量和频率被设置为具有三级的范围。也就是，小于参考值-阈值、不小于参考值-阈值但小于参考值+阈值、和不小于参考值+阈值的三个范围被设置用于音量，并且小于参考值-值域D、不小于参考值-值域D但小于参考值+值域C、和不小于参考值+值域C的三个值域被设置用于频率。一旦音量和频率被确定，情绪类型被唯一地确定。例如，在音量在不小于参考值-阈值，但是小于参考值+阈值的值域范围之内，并且频率大于参考值+值域C的情况下，一个中等激动的表情II被从激动的情绪当中选出。在音量小于参考值-阈值，并且频率小于参考值-值域D的情况下，最冷漠的情绪I被从冷静的情绪当中选择出来。
音调分析器39经由确定的情绪类型确定人物图像的表情。为了这个目的，其引用表情表393。在表情表393中，人物图像的表情对应于情绪类型被存储。情绪类型I、II和III表示情绪递减排列的等级。一般说来，人的表情与其情绪有关，因此确定表情以匹配相关性，例如，在情绪类型是冷静的情绪I的情况下，非常疲倦的表情被设置；在情绪类型是激动的情绪II的情况下，一个急躁的表情被设置。
返回到图9，人物图像产生器33被告知在T5确定的表情或者动作。在T6处，基于在T2处获得的人物图像，人物图像产生器33接收通知并且按照T5处确定的表情或者动作生成人物图像。
如上所述，在第二个实施例中的可视电话系统2是这样配置的，使得蜂窝电话30分析作为其用户的始发者的语音音调，并且基于分析结果确定人物图像的表情或者动作。这样确定的表情或者动作被反映在从人物图像DB31获得的人物图像中，并且人物图像与输入语音一起被发送给蜂窝电话40。因此，通过无需图像分析过程的比较简单的结构，在接收者的蜂窝电话上显示接近于始发者愿望的人物图像是可行的。从而，在电话交谈过程中在始发者和接收者之间的趣味效果被增强。
注意到，在以上的每个实施例中描述的内容是按照本发明的便携式终端优选的例子，并且本发明决不意欲被限制于此。例如，以上的每个实施例示出了除指针被显示在蜂窝电话10、30的屏幕上的情况之外，人物图像仅被显示在对应的蜂窝电话20、40上的情况，但是，人物图像还可以被显示在始发者的蜂窝电话的显示屏上。此外，在接收者的蜂窝电话20、40具有与始发者的蜂窝电话10、30相同的人物图像生成功能的情况下，蜂窝电话可以提供有一个组合显示在屏幕上的伙伴人物图像与其自己的人物图像的附加功能。
此外，模式转换功能可以被添加到蜂窝电话10、30。具体地，当始发者转动CCD(电荷耦接器件)照相机朝着始发者侧(这边)的方向的时候，正常的可视电话功能(拍照和发送始发者的面部图像的模式)变为活动的，并且当始发者转动CCD照相机朝着始发者另一侧的时候，按照本发明生成人物图像的功能变为活动的。
此外，一个图像合成功能可以被添加到蜂窝电话10、30。具体地，蜂窝电话提供有诸如在另一个活动图像或者静止图像上叠加前述的人物图像，组合人物图像与框架，以及允许指定合成区域的附加功能。
文字(letter)添加功能也可以被添加到蜂窝电话10、30。具体地，蜂窝电话提供有诸如在人物图像上叠加文字、增加文字框架、象形文字，或者已格式化的报告，以及允许指定尺寸或者颜色的附加功能。在象形文字的情况下，与其相应的声音被产生。
音响效果增加功能也可以被添加到蜂窝电话10、30。具体地，蜂窝电话提供有诸如混合输入的始发者语音与其它的音响效果的附加功能，例如，借助于按压操作键9，对伙伴给出一个尖叫声，和借助于按压操作键#，给出一个振铃曲调作为背景音乐。
一个蜂窝电话可以具有由第一个实施例中的蜂窝电话10、20和第二个实施例中的蜂窝电话30、40拥有的多个功能的一些或者全部也是理所当然的事。便携式终端不必限制在蜂窝电话，可以是PDA(个人数字助理)、个人计算机等等。此外，便携式终端也可以是没有通信功能的终端，在这种情况下，终端可以经由诸如送受话器叉簧(cradle)的扩展设备执行通信。
从本发明如此的描述中，很明显，本发明的实施例可以以很多的方法进行改变。这样的变化不被认为是偏离本发明的精神和范围，并且对于一个本领域技术人员来说将是明显的，所有这样的改进意欲包含在以下的权利要求的范围之内。
权利要求
1.一种便携式发射终端，包括用于存储多个人物图像的存储装置；用于输入语音的输入装置；用于分析由输入装置输入的语音的音调，并且用于基于音调的分析结果和从便携式接收终端发送的语音，确定要发送给便携式接收终端的人物图像的表情或者动作的确定装置；用于从存储在存储装置中的多个人物图像当中获得人物图像，并且用于使用该获得的人物图像产生具有由该确定装置确定的表情或者动作的人物图像的产生装置；和用于将由该产生装置产生的人物图像发送给便携式接收终端的发送装置。
2.一种用于使便携式发射终端执行下述操作的图像通信程序输入语音的输入过程；分析由输入过程输入的语音的音调，并基于音调的分析结果和从便携式接收终端发送的语音，确定要发送给便携式接收终端的人物图像的表情或者动作的确定过程；从存储在存储装置中的多个人物图像当中获得人物图像，并使用获得的人物图像产生具有由确定过程确定的表情或者动作的人物图像的产生过程；和将由该产生过程产生的人物图像发送给便携式接收终端的发送过程。
全文摘要
按照本发明的发射蜂窝电话10提供有人物图像DB 11、用户指定器12、人物图像产生器13和通信装置17。多个人物图像被预先地存储在该人物图像DB11中。该用户指定器12指定要发送给接收蜂窝电话20的人物图像的表情或者动作。该人物图像产生器13从存储在该人物图像DB 11中的多个人物图像当中获得一个人物图像，并且使用该人物图像去产生具有由该用户指定器12指定的表情或者动作的人物图像。通信装置17发送产生的人物图像给该接收蜂窝电话20。
文档编号G10L15/10GK1607829SQ20041009816
公开日2005年4月20日申请日期2004年5月20日优先权日2003年5月20日
发明者安泽和哉, 浦川康孝, 石井贤次申请人:株式会社Ntt都科摩

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：安泽和哉;浦川康孝;石井贤次
技术所有人：株式会社NTT都科摩
我是此专利的发明人

上一篇：再现装置和再现方法
上一篇：演奏控制数据生成装置及方法、和存储媒体的制作方法