基于化身的传输协议、图标生成和玩偶动画的制作方法

文档序号：9278231阅读：375来源：国知局

基于化身的传输协议、图标生成和玩偶动画的制作方法
【技术领域】
[0001] 各个实施例一般地涉及化身。更具体地，各个实施例涉及基于化身的传输协议、图标生成和玩偶动画。
【背景技术】
[0002] 可以在虚拟世界(诸如游戏环境中)使用化身。最近化身技术的发展可以作为视频内容封装、传输和处理化身数据，这可能导致高带宽花费。此外，各种技术方案可以在实时传输协议（RTP)信道中传输化身数据，这依赖于远程对等体中的专用化身支持。
【附图说明】
[0003] 通过阅读下面的说明书和所附的权利要求并且通过参考附图，实施例的各种优点对于本领域技术人员来说将变得清楚，其中：图1是根据实施例的化身传输协议的示例的框图；图2是根据实施例的管理化身的方法的示例的流程图；图3是根据实施例的化身图标消息传送方案的示例的框图；图4是根据实施例的施行化身图标消息传送的方法的示例的流程图；图5是根据实施例的基于化身的玩偶动画方案的示例的框图；图6是根据实施例的施行基于化身的玩偶动画的方法的示例的流程图；图7A和7B是根据实施例的客户端设备的示例的框图；图8是根据实施例的处理器的示例的框图；图9是根据实施例的系统的示例的框图。
【具体实施方式】
[0004] 现在转向图1，示出了化身传输协议的示例，其中对象10 (例如个体、人、用户等）分别被摄像机22和麦克风24在视觉上和可听见地捕获。图示的对象10展示被反映在视频信号26中的一个或多个面部表情(例如嘴部形状、头部转动、点头、眨眼、皱眉、微笑、使眼色）并且同时说出被反映在音频信号28中的可听见的内容30 (例如，单词、短语、声音)。视频信号26和音频信号28可以由消息传送系统/应用32处理，消息传送系统/应用32 被配置为在视频信号26中标识对象20的一个或多个面部表情并且基于该一个或多个面部表情生成化身动画数据34。如将被更详细讨论的，化身动画数据34可以促进在视觉上和可听见地模仿对象10的化身的生成，而不揭示对象10的真实身份或肖像。
[0005] 另外，消息传送系统32可以把音频信号28编码(例如压缩)成音频文件36并且把化身动画数据34合并到音频文件36中。尤其要注意的是，把图示的化身动画数据34合并到音频文件36中使得化身动画数据34能够跨网络38 (例如因特网、内联网）被传输而不会导致高带宽花费或依赖于远程对等体(例如远程客户端设备)中的专用化身支持。图示的音频文件36和化身动画数据34被用于呈现化身动画40,该化身动画40模仿对象20的面部表情和由对象20说出的可听见的内容30,而不揭示对象10的真实身份或肖像。
[0006] 在一个示例中，化身动画数据34包括加时间戳的面部运动数据。面部运动数据可以包括表示面部特征和/或表情(诸如例如对象眼睛、嘴、脸颊、牙齿、眼眉等的位置、头部转动、点头、眨眼、皱眉、微笑、使眼色等)的各种参数。向面部运动数据加时间戳可以促进在化身动画40的呈现期间把动画面部表情与可听见的内容30同步。此外，加时间戳的面部运动数据可以被存储到音频文件36的空数据字段。例如，核心音频格式（CAF)文件格式可以被用于指定面部运动数据的量以及面部运动数据自身，如下面表I中所说明的。表I。
[0007] 在另一示例中，化身动画数据34包括到面部运动数据的链接(例如统一资源定位符)，其中该链接可以被存储在音频文件36的声音元数据字段中（例如，如果使用不具有空数据字段的音频文件格式(诸如因特网低比特率编解码器/iLBC、高级音频编码/AAC等)的话)。因此，可以在这种情况下使用如表II中的文件格式。表I。
[0008] 现在转向图2,示出了管理化身的方法42。方法42可以在客户端设备中实施为存储在机器或计算机可读介质（诸如随机存取存储器（RAM)、只读存储器（ROM)、可编程ROM (PR0M)、闪速存储器等）中的逻辑指令和/或固件的集合；实施在可配置逻辑中，可配置逻辑诸如例如是可编程逻辑阵列（PLA)、现场可编程门阵列（FPGA)、复杂可编程逻辑器件 (CPLD);实施在使用电路技术的固定功能逻辑硬件中，电路技术诸如例如是专用集成电路 (ASIC)、互补金属氧化物半导体（CMOS)或晶体管-晶体管逻辑（TTL)技术；或者实施在它们的任何组合中。例如，用于执行方法42中示出的操作的计算机程序代码可以用一种或多种编程语言的任何组合来编写，该编程语言包括：面向对象的编程语言，诸如C++等；和常规过程编程语言，诸如"C"编程语言或类似的编程语言。此外，方法42可以使用任何上面提到的电路技术来实施。
[0009] 所图示的处理方框44规定在本地客户端设备(例如本地对等体）处在视频信号中标识对象的一个或多个面部表情。化身动画数据可以在方框46处基于所述一个或多个面部表情生成，其中图示的方框50把该化身动画数据合并到与视频信号相关联的音频文件中。如已经讨论的，把化身动画数据合并到音频文件中可以包括：在音频文件的空数据字段中存储加时间戳的面部运动数据；把到加时间戳的面部运动数据的链接存储在音频文件的声音元数据字段中，等等。面部运动数据可以描述由视频信号捕获的对象的诸如嘴部动作、眼睛位置、眼眉位置等之类的面部运动。因此，面部运动数据可以描述眼睛张开的程度、嘴部张开的程度、嘴唇、鼻尖、头部转动的位置等。
[0010] 加时间戳的面部运动数据可以包括例如针对视频信号的每个帧的16位浮点数据。尤其要注意的是，具有面部运动数据的10秒声音剪辑(每秒25帧和50%的压缩率）可以产生大约20KB的音频文件大小，而常规10秒的视频剪辑可能导致几兆字节的文件大小。在方框52,音频文件可以被发送到远程客户端设备(例如远程对等体)。在一个示例中，音频文件经由消息传送应用和/或系统通过网络连接被发送。
[0011] 图示的方框54规定在远程客户端设备处接收音频文件。该音频文件可以在方框 56被用于获得化身动画数据，其中化身动画可以在方框58基于音频文件和化身动画数据被呈现。在一个示例中，获得化身动画数据涉及从音频文件的空数据字段取回加时间戳的面部运动数据。在另一示例中，获得化身动画数据涉及从存储在音频文件的声音元数据字段中存储的链接取回加时间戳的面部运动数据。呈现化身动画可以涉及把加时间戳的面部运动数据与音频文件同步。
[0012] 化身图标生成尤其可以受益于本文描述的技术的一种类型的应用是在消息传送环境中的化身图标生成。例如，对于朋友和/或熟人可能经常发生以在线设置(诸如社交网络、虚拟论坛、焦点小组等）彼此共享消息。已经讨论的化身传输协议可以被容易地应用于这样的设置中以便促进化身图标连同共享的消息的生成和传输。
[0013] 图3示出了图标消息传送方案的示例，其中由摄像机22捕获对象60,并且消息传送系统/应用62在视频信号26中标识对象60的一个或多个面部表情，如已经讨论的。对象60的面部表情也可以在静止图像27中由摄像机22捕获。所图示的消息传送系统62基于面部表情生成一个或多个化身图标64 (例如，响应于用户请求周期性地进行等)，一个或多个化身图标64可以被添加到图标列表66。
[0014] 图标列表66因此可以包含具有不同面部特征/表情的一组化身，其反映由对象在视频信号26和/或静止图像27的捕获期间做出的面部特征/表情。在此方面，消息传送系统62可以在将化身图标64添加到图标列表66之前确认化身图标64不是副本。图标列表 66可以继而经由用户接口（UI) 68被呈示给对象60,其中从图标列表66对化身图标70的用户选择可以连同消息74 (例如，即时消息/IM、发布、短消息传送服务/SMS、电子邮件等）通过网络38被发送到远程客户端设备。所选择的化身图标70也可以通过网络38在音频文件中被传输，如已经讨论的。
[0015] 在图示的示例中，消息74包括由对象60输入的文本72。化身图标64可以在用户正在输入文本72时

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李文龙;X.童;杜杨洲;T.萨赫森;Y.王;
技术所有人：英特尔公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。