一种会话处理方法、装置、电子设备及可读存储介质与流程

文档序号:33319217发布日期:2023-03-03 19:10阅读:26来源:国知局
一种会话处理方法、装置、电子设备及可读存储介质与流程

1.本技术涉及互联网技术,尤其涉及一种会话处理方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.随着互联网技术的发展,即时通信的应用越来越广泛,即时通信应用用于为用户提供基于互联网的即时交流消息的业务,允许两人或多人通过网络即时的传递文字信息、语音与视频等。随着即时通信应用的发展,即时通信应用已经渗透在人们的生活中,越来越多人使用即时通信应用进行交流。
3.在通过即时通信应用进行会话的过程中,当用户所处环境条件不佳时,如在赶路、光线昏暗、人多嘈杂的公共场景下,很难发送符合场景的视频信息。在这样的情况下,用户会不得已使用文字或者语音进行消息输出,而文字消息或者语音消息很难传递真实的会话场景等信息,从而导致会话效率低的问题。


技术实现要素:

4.本技术实施例提供一种会话处理方法、装置、电子设备及计算机可读存储介质,能够充分有效地展示会话场景,提高会话效率。
5.本技术实施例的技术方案是这样实现的:
6.本技术实施例提供一种会话处理方法,包括:
7.呈现会话编辑区域;
8.响应于基于所述会话编辑区域的输入操作,获取所述输入操作形成的会话内容;
9.响应于针对所述会话内容的发送操作,在会话区域中呈现基于目标对象的虚拟形象生成的特效,其中,所述特效用于表征所述会话内容。
10.上述技术方案中,所述在会话区域中呈现基于目标对象的虚拟形象生成的特效之前,所述方法还包括:
11.基于所述目标对象的虚拟形象以及所述会话内容,确定用于表征所述会话内容的特效数据;
12.基于所述会话内容,确定符合所述目标对象声音的语音数据;
13.将所述特效数据与所述语音数据进行合成处理,得到基于所述目标对象的虚拟形象生成的特效。
14.上述技术方案中,所述确定用于表征所述会话内容的特效数据之前,所述方法还包括:
15.获取所述目标对象的真实图像;
16.基于所述真实图像调用虚拟形象生成模型,得到所述目标对象的虚拟形象。
17.上述技术方案中,所述基于所述真实图像调用虚拟形象生成模型,得到所述目标对象的虚拟形象,包括:
18.通过所述虚拟形象生成模型执行以下处理:
19.对所述真实图像进行主成分分析处理,得到对应所述目标对象的几何信息分布以及纹理信息分布;
20.基于所述几何信息分布以及所述纹理信息分布进行形变处理,得到所述目标对象的虚拟形象。
21.上述技术方案中,所述基于所述会话内容,确定符合所述目标对象声音的语音数据,包括:
22.对所述会话内容对应的文本信息进行文本分析处理,得到所述会话内容的上下文特征;
23.基于所述目标对象声音对所述会话内容的上下文特征进行语音参数预测处理,得到所述会话内容对应的、且符合所述目标对象声音的多个语音参数;
24.对所述多个语音参数进行合成处理,得到符合所述目标对象声音的语音数据。
25.上述技术方案中,当所述会话内容为文本消息时,所述基于所述目标对象的虚拟形象以及所述会话内容,确定用于表征所述会话内容的特效数据,包括:
26.对所述文本消息进行文本特征提取处理,得到所述文本消息的文本特征;
27.基于所述文本特征对数据库中包含的多个候选特效数据进行匹配,将匹配到的所述候选特效数据作为用于表征所述会话内容的特效数据;
28.其中,所述文本特征包括以下至少之一:文字、符号、表情图片。
29.上述技术方案中,当所述会话内容为语音消息时,所述基于所述目标对象的虚拟形象以及所述会话内容,确定用于表征所述会话内容的特效数据,包括:
30.对所述语音消息进行格式转换处理,得到所述语音消息对应的文本消息;
31.对所述文本消息进行文本特征提取处理,得到所述文本消息的文本特征;
32.基于所述文本特征对数据库中包含的多个候选特效数据进行匹配,将匹配到的所述候选特效数据作为用于表征所述会话内容的特效数据。
33.本技术实施例提供一种会话处理装置,包括:
34.第一显示模块,用于呈现会话编辑区域;
35.获取模块,用于响应于基于所述会话编辑区域的输入操作,获取所述输入操作形成的会话内容;
36.第二显示模块,用于响应于针对所述会话内容的发送操作,在会话区域中呈现基于目标对象的虚拟形象生成的特效,其中,所述特效用于表征所述会话内容。
37.本技术实施例提供一种用于会话处理的电子设备,所述电子设备包括:
38.存储器,用于存储可执行指令;
39.处理器,用于执行所述存储器中存储的可执行指令时,实现本技术实施例提供的会话处理方法。
40.本技术实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本技术实施例提供的会话处理方法。
41.本技术实施例具有以下有益效果:
42.通过在会话区域中呈现基于目标对象的虚拟形象生成的、用于表征会话内容的特效,以充分有效地展示会话内容,相较于在会话区域直接显示文本消息或者语音消息的会
话方案,提高了会话的互动效率和会话效果,从而节约了相关的通信资源和计算资源。
附图说明
43.图1是本技术实施例提供的会话系统的架构示意图;
44.图2是本技术实施例提供的用于会话处理的电子设备的结构示意图;
45.图3a是本技术实施例提供的会话处理方法的流程示意图;
46.图3b是本技术实施例提供的会话编辑区域的示意图;
47.图3c-图3d是本技术实施例提供的发送动效的示意图;
48.图4a是本技术实施例提供的虚拟形象生成的示意图;
49.图4b是本技术实施例提供的声音采集的示意图;
50.图5-6是本技术实施例提供的文字发布的示意图;
51.图7是本技术实施例提供的语音发布的示意图;
52.图8a-图8d是本技术实施例提供的移动端接收惊喜表情的示意图;
53.图9是本技术实施例提供的个人计算机(pc)接收惊喜表情的示意图;
54.图10是本技术实施例提供的移动端接收视频信的示意图;
55.图11是本技术实施例提供的个人计算机(pc)接收视频信的示意图;
56.图12a-图12b是本技术实施例提供的会话处理方法的流程示意图;
57.图13是本技术实施例提供的用户形象特征及声音特征采集的示意图;
58.图14是本技术实施例提供的语音合成方法的流程示意图;
59.图15是本技术实施例提供的语音转换为文本的流程示意图。
具体实施方式
60.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
61.在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术实施例能够以除了在这里图示或描述的以外的顺序实施。
62.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术实施例的目的,不是旨在限制本技术。
63.对本技术实施例进行进一步详细说明之前,对本技术实施例中涉及的名词和术语进行说明,本技术实施例中涉及的名词和术语适用于如下的解释。
64.1)响应于:用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
65.2)表情:在社交应用活跃之后,形成的一种流行文化,用以表达特定的情感,例如表达用户面部或姿态上所展现的情感;在实际应用中,表情可分为符号表情、静态图片表情、动态图片表情、视频表情等,比如,表情可以以表达用户各种情绪的人脸为素材,或者以
时下流行的明星、动漫、影视截图等为素材,再配上一系列相匹配的文字等。
66.3)惊喜表情:又称表情特效,可通过用户发送的文字信息合成用户语音,并结合文字内容及事先录入的用户形象数据以合成的表情图片得到,或者将用户发送的语音消息作为语音,并结合语音对应的文本内容及事先录入的用户形象数据以合成的表情图片得到。
67.4)视频信:又称视频特效,可通过用户发送的文字信息合成音频,并结合文字内容及事先录入的用户形象数据以合成的视频帧得到,或者将用户发送的语音信息作为音频,并结合音频对应的文本内容及事先录入的用户形象数据以合成的视频帧得到。
68.5)虚拟形象:虚拟场景中可以进行交互的各种人和物的形象,例如虚拟人物、虚拟动物、动漫人物等。该虚拟形象可以是该虚拟场景中的一个虚拟的用于代表用户的形象。
69.本技术实施例提供一种会话处理方法、装置、电子设备及计算机可读存储介质,能够充分有效地展示会话场景,提高会话效率。
70.本技术实施例所提供的会话处理方法,可以由终端独自实现;也可以由终端和服务器协同实现,例如终端独自承担下文所述的会话处理方法,或者,会话发送方的终端向服务器发送输入的会话内容,服务器根据接收的会话内容,获取基于目标对象(例如真实用户、虚拟对象)的虚拟形象生成的、用于表征会话内容的特效,并将特效发送至会话接收方的终端,以在会话接收方的会话区域显示特效,以便捷的传递信息,让会话更生动有趣,提高会话的粘度。
71.下面说明本技术实施例提供的电子设备的示例性应用,本技术实施例提供的电子设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,智能电视,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备,车载设备)等各种类型的用户终端。下面,将说明电子设备实施为终端时示例性应用。
72.参见图1,图1是本技术实施例提供的会话系统100的架构示意图,终端(示例性示出终端200-1以及终端200-2)通过网络300连接服务器100,其中,网络300可以是广域网或者局域网,又或者是二者的组合。
73.在一些实施例中,以电子设备是终端为例,本技术实施例提供的会话处理方法可以由终端实现。例如,终端200-1呈现会话编辑区域,响应于基于会话编辑区域中的输入操作,获取输入形成的会话内容,响应于针对会话内容的发送操作,在会话区域中呈现基于目标对象的虚拟形象生成的、用于表征会话内容的特效,并将特效发送至终端200-2,以在终端200-2的会话区域显示特效,以便捷的传递信息,让会话更生动有趣,提高会话的粘度。
74.在一些实施例中,本技术实施例提供的会话处理方法也可以由服务器和终端协同实现。例如,终端200-1呈现会话编辑区域,响应于基于会话编辑区域中的输入操作,获取输入形成的会话内容,并向服务器100发送会话内容,服务器100根据接收的会话内容,获取基于目标对象的虚拟形象生成的、用于表征会话内容的特效,并将特效发送至终端200-1以及终端200-2,以在终端200-1以及终端200-2的会话区域显示特效,以便捷的传递信息,让会话更生动有趣,提高会话的粘度。
75.在一些实施例中,终端或服务器可以通过运行计算机程序来实现本技术实施例提供的会话处理方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(native)应用程序(app,application),即需要在操作系统中安装才能运行的程序,如即时通信类的应用程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的
程序;还可以是能够嵌入至任意app中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
76.在一些实施例中,服务器100可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器,其中,云服务可以是直播处理服务,供终端进行调用。
77.在一些实施例中,多个服务器可组成为一区块链,而服务器100为区块链上的节点,区块链中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。其中,本技术实施例提供的会话处理方法所相关的数据(例如会话处理的逻辑、特效)可保存于区块链上。
78.下面说明本技术实施例提供的用于会话处理的电子设备的结构,参见图2,图2是本技术实施例提供的用于会话处理的电子设备500的结构示意图。以电子设备500是终端为例说明,图2所示的用于会话处理的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
79.处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
80.存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom,read only memory),易失性存储器可以是随机存取存储器(ram,random access memory)。本技术实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
81.在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
82.操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
83.网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(wifi)、和通用串行总线(usb,universal serial bus)等;
84.在一些实施例中,本技术实施例提供的会话处理装置可以采用软件方式实现,本技术实施例提供的会话处理装置可以提供为各种软件实施例,包括应用程序、软件、软件模块、脚本或代码在内的各种形式。
85.图2示出了存储在存储器550中的会话处理装置555,其可以是程序和插件等形式的软件,并包括一系列的模块,包括第一显示模块5551、获取模块5552、第二显示模块5553
以及处理模块5554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
86.如前所述,本技术实施例提供的会话处理方法可以由各种类型的电子设备实施。参见图3a,图3a是本技术实施例提供的会话处理方法的流程示意图,结合图3a示出的步骤进行说明。
87.在步骤101中,呈现会话编辑区域。
88.如图3b所示,在进行会话交互时,在人机交互界面中呈现会话编辑区域301,该会话编辑区域301用于输入会话内容,其中,会话编辑区域301包括用于显示输入文本的文本输入框、虚拟键盘等。
89.在步骤102中,响应于基于会话编辑区域的输入操作,获取输入操作形成的会话内容。
90.如图3b所示,当会话内容为文本消息时,用户可以在文本输入框中输入文字、字符、表情等文本消息,输入完成后,即可获取输入的文本消息。当会内容为语音消息时,可以响应于会话编辑区域中的录音入口的触发操作,以获得触发操作形成的语音消息,其中,本技术实施例对触发操作不做限定,例如点击或长按操作等。
91.在步骤103中,响应于针对会话内容的发送操作,在会话区域中呈现基于目标对象的虚拟形象生成的特效,其中,特效用于表征会话内容。
92.如图4a所示,响应于针对会话内容的发送操作,执行发送特效,当发送成功时,在用于呈现会话消息记录的会话区域中呈现基于目标对象的虚拟形象生成的特效(图中所示的惊喜表情502以及视频信504)。当特效发送失败,则在会话界面呈现特效发送失败的提示信息,例如通过感叹号的图标指示特效发送失败。
93.在一些实施例中,在会话区域中呈现基于目标对象的虚拟形象生成的特效,包括:播放基于目标对象的虚拟形象生成的表情特效,其中,表情特效包括基于虚拟形象的表征会话内容的至少一个表情图片、以及基于目标对象声音表征会话内容的文本的语音。
94.例如,特效包括表情特效,其中,表情特效包括基于虚拟形象的表征会话内容的多个静态表情图片,多个表情图片按先后顺序播放,即形成动态的表情特效。需要说明的是,表情特效不仅可以包括多个表情图片,还可以包括基于目标对象声音表征会话内容的至少部分文本的语音,即语音符合目标对象声音且能够表征会话内容的至少部分文本,例如语音能够保证会话内容中的关键字。
95.在一些实施例中,表情图片用于从以下维度至少之一表征会话内容:会话内容的关键字、会话内容携带的情感信息、会话内容所属的主题。
96.例如,表情图片可以通过会话内容的关键字(例如包括关键字的图片)来表征会话内容,例如会话内容中有关键字“拜拜”,则表情图片中可以通过“拜拜”文字表征会话内容,还可以通过“拜拜”手势表征会话内容;表情图片可以通过会话内容携带的情感信息(例如高兴、忧伤,即表征情感信息的面部表情或肢体动作)来表征会话内容,例如会话内容携带的高兴情感,则表情图片可以通过虚拟形象的面部表情或肢体动作表征会话内容携带的高兴情感;表情图片可以通过会话内容所属的主题来表征会话内容,例如会话内容所属的主题为旅游,则表情图片通过虚拟形象处于相应主题的背景(例如景点)表征旅游主题,或者,表情图片通过虚拟形象的表情、肢体动作(例如观看景点)与主题适配以表征旅游主题。
97.在一些实施例中,表情特效被设置有播放模式,播放模式包括:当表情特效被接收时自动播放任意一个表情图片,当表情特效被触发播放时切换播放多个表情图片,并同步播放语音。
98.如图8a所示,当会话消息接收方接收到表情特效后,可以在会话消息接收方的会话区域显示表情特效801中的任意一个表情图片,触发播放按钮802,则表情特效被触发播放,切换播放表情特效中的多个表情图片,并同步播放语音。
99.例如,当会话消息接收方接收到表情特效后,还可以在会话消息接收方的会话区域直接切换播放表情特效中的多个表情图片,并同步播放语音。
100.在一些实施例中,在会话区域中呈现基于目标对象的虚拟形象生成的特效,包括:播放基于目标对象的虚拟形象生成的视频特效,其中,视频特效包括基于虚拟形象的表征会话内容的多个视频帧、以及基于目标对象声音表征会话内容的文本的多个音频帧。
101.例如,特效包括视频特效,其中,视频特效包括基于虚拟形象的表征会话内容的多个是视频帧,多个视频帧按先后顺序播放,即形成动态的视频特效。需要说明的是,视频特效不仅可以包括多个视频帧,还可以包括基于目标对象声音表征会话内容的至少部分文本的多个音频帧,即多个音频帧符合目标对象声音且能够表征会话内容的至少部分文本,例如多个音频帧能够保证会话内容中的关键字。
102.需要说明的是,视频特效所承载的信息量大于表情特效所承载的信息量,因此视频特效的动效效果比表情特效的动效效果更好,但是视频特效所占用的存储空间比表情特效所占用的存储空间也更多。
103.在一些实施例中,视频特效被设置有播放模式,播放模式包括:当视频特效被接收时自动播放任意一个视频帧,当视频特效被触发播放时播放多个视频帧,并同步播放多个音频帧。
104.如图10所示,当会话消息接收方接收到视频特效后,可以在会话消息接收方的会话区域显示视频特效1001中的任意一个视频图片,触发播放按钮1002,则视频特效被触发播放,切换播放视频特效中的多个视频帧,并同步切换播放多个音频帧。
105.例如,当会话消息接收方接收到视频特效后,还可以在会话消息接收方的会话区域直接切换播放视频特效中的多个视频帧,并同步切换播放多个音频帧。
106.在一些实施例中,响应于针对会话内容的发送操作,在会话区域中呈现基于目标对象的虚拟形象生成的特效之前,在会话编辑区域呈现会话内容,并播放用于表征会话内容的特效的预览画面;呈现针对会话内容的发送入口;响应于针对预览画面的触发操作、且预览画面播放完成,在会话区域中呈现基于目标对象的虚拟形象生成的特效。其中,会话内容可以是文本消息,也可以是语音消息。
107.其中,预览画面包括表情特效中的至少部分表情图片(还可以同步播放至少部分语音)或者视频特效中的至少部分视频帧(还可以同步播放至少部分音频帧)。如图3c所示,在会话编辑区域呈现会话内容,并播放用于表征会话内容的特效的预览画面302,响应于针对预览画面的触发操作、且预览画面播放完成(即表情特效中的至少部分表情图片播放完成或者视频特效中的至少部分视频帧播放完成),执行发送特效,在会话区域中呈现特效303,并同步显示是否成功发送的状态(即当特效发送失败,则在会话界面呈现特效发送失败的提示信息),其中,本技术实施例对触发操作不做限定,例如点击或长按操作等。
108.在一些实施例中,特效的类型包括表情特效、视频特效;响应于针对会话内容的发送操作,在会话区域中呈现基于目标对象的虚拟形象生成的特效,包括:呈现针对表情特效的表情特效发送入口,响应于针对表情特效发送入口的触发操作,执行发送表情特效,并在会话区域中呈现基于目标对象的虚拟形象生成的表情特效;呈现针对视频特效的视频特效发送入口,响应于针对视频特效发送入口的触发操作,执行发送视频特效,并在会话区域中呈现基于目标对象的虚拟形象生成的视频特效。
109.如图3d所示,在会话编辑区域呈现会话内容,并在会话编辑区域呈现针对表情特效的表情特效发送入口304,响应于针对表情特效发送入口304的触发操作,执行发送表情特效,并在会话区域中呈现基于目标对象的虚拟形象生成的表情特效303;在会话编辑区域呈现会话内容,呈现针对视频特效的视频特效发送入口305,响应于针对视频特效发送入口305的触发操作,执行发送视频特效,并在会话区域中呈现基于目标对象的虚拟形象生成的视频特效,从而通过呈现特效的二级功能入口,以快速直观第选择需要发送的特效类型。
110.在一些实施例中,响应于针对会话内容的发送操作,在会话区域中呈现基于目标对象的虚拟形象生成的特效,包括:呈现针对会话内容的发送入口;响应于用于触发发送入口的发送操作,播放用于表征会话内容的特效的预览画面;响应于预览画面播放完成,执行发送特效,并在会话区域中呈现基于目标对象的虚拟形象生成的特效。
111.例如,用于触发发送入口的发送操作为第一触发操作,第一触发操作区别于第二触发操作,第二触发操作用于执行发送会话内容,例如第一触发操作为单击操作,第二触发操作为长按操作,响应于针对发送入口的单击操作,执行发送会话内容,并在会话区域中呈现基于目标对象的虚拟形象生成的特效,同步显示是否成功发送的状态;响应于针对发送入口的长按操作,播放用于表征会话内容的特效的预览画面,预览画面播放完成,执行发送特效,并在会话区域中呈现特效,同步显示是否成功发送的状态,从而通过复用发送入口实现播放特效的功能,以节约人机交互界面中功能入口的占用空间,相比于查找二级功能入口,能够提高交互效率。其中,本技术实施例并不限定于第一触发操作、第二触发操作的具体表现形式。
112.在一些实施例中,特效的类型包括表情特效、视频特效;当播放的用于表征会话内容的特效的预览画面来自第一类型特效时,响应于针对第一类型特效的切换操作,将第一类型特效切换为第二类型特效,并播放第二类型特效的预览画面;其中,第一类型特效是表情特效、视频特效中的任意一个,第二类型特效是表情特效、视频特效中的另一个。
113.例如,先在会话区域呈现表情特效的预览画面,响应于切换操作,将表情特效切换为视频特效的预览画面,或者,先在会话区域呈现视频特效的预览画面,响应于切换操作,将视频特效切换为表情特效的预览画面,从而通过切换操作选择合适的特效进行发送。
114.在一些实施例中,响应于针对第一类型特效的切换操作,将第一类型特效切换为第二类型特效,包括:呈现针对第一类型特效的预览画面的切换入口;响应于针对切换入口的触发操作,将呈现的第一类型特效切换为第二类型特效。
115.如图5所示,当呈现针对第一类型特效(即表情特效)的预览画面时,还呈现针对第一类型特效的预览画面的切换入口503,响应于针对切换入口的触发操作,将呈现的第一类型特效切换为第二类型特效(即视频特效),从而通过切换入口选择合适的特效进行发送。
116.作为示例,当呈现针对第一类型特效(即表情特效)的预览画面时,还可以响应于
针对发送入口的触发操作,将呈现的第一类型特效切换为第二类型特效(即视频特效),从而通过切换入口选择合适的特效进行发送。其中,本技术实施例对触发操作不做限定,例如点击或长按操作等。
117.在一些实施例中,特效的类型包括表情特效、视频特效;响应于用于触发针对发送入口的发送操作,播放用于表征会话内容的特效的预览画面,包括:响应于用于触发针对发送入口的触发操作,确定触发操作对应的参数,并播放与参数对应类型的特效的预览画面;其中,触发操作包括不同参数、且不同参数对应不同类型的特效,触发操作包括的参数包括以下至少之一:触发时间、触发动作方式。
118.例如,触发操作包括的参数为触发时间,特效的类型包括表情特效、视频特效,响应于按压发送入口并保持按压状态至第一设定时长后释放按压状态,播放表情特效的预览画面,响应于按压发送入口并保持按压状态至第二设定时长后释放按压状态,播放视频特效的预览画面,其中,第一设定时长不同于第二设定时长。
119.例如,触发操作包括的参数为触发动作方式(例如滑动,双击等),特效的类型包括表情特效、视频特效,响应于针对发送入口的双击操作,播放表情特效的预览画面,响应于针对发送入口的滑动操作,播放视频特效的预览画面。
120.在一些实施例中,当播放用于表征会话内容的特效的预览画面时,方法还包括:响应于针对特效的停止发送操作,停止播放特效的预览画面,并在会话区域呈现会话内容。
121.例如,在播放预览画面的过程中,用户不想发送特效,则可以响应于针对特效的停止发送操作,停止播放特效的预览画面,执行发送会话内容,并在会话区域呈现会话内容,同步呈现是否成功发送会话内容的状态。
122.在一些实施例中,响应于针对特效的停止发送操作,停止播放特效的预览画面,包括:在发送入口中呈现预览画面的播放倒计时控件;响应于针对播放倒计时控件的触发操作,停止播放特效的预览画面。
123.如图5所示,在播放预览画面的过程中,用户不想发送特效,在发送入口中呈现预览画面的播放倒计时控件,响应于针对播放倒计时控件的触发操作,触发停止发送操作,以停止播放特效的预览画面,执行发送会话内容,并在会话区域呈现会话内容,同步呈现是否成功发送会话内容的状态。
124.在一些实施例中,响应于针对特效的停止发送操作,停止播放特效的预览画面,包括:响应于按压发送入口并保持按压状态至设定时长后未释放按压状态,停止播放特效的预览画面。
125.例如,保持发送入口处于按压状态直至设定时长(例如5秒)还未释放按压状态,触发停止发送操作,以停止播放特效的预览画面,执行发送会话内容,并在会话区域呈现会话内容,同步呈现是否成功发送会话内容的状态。
126.在一些实施例中,当会话内容为语音消息时,响应于基于会话编辑区域的输入操作,获取输入操作形成的会话内容,包括:在会话编辑区域呈现录音入口;响应于按压录音入口并保持按压状态,获取在按压状态下针对语音输入操作所采集的语音消息;响应于针对会话内容的发送操作,在会话区域中呈现基于目标对象的虚拟形象生成的特效,包括:呈现特效发送入口;响应于按压状态下移动至特效发送入口后释放按压状态,在会话区域中呈现基于目标对象的虚拟形象生成的特效。
127.如图7所示,特效的类型包括表情特效、视频特效,特效发送入口包括表情特效发送入口、视频特效发送入口,响应于按压状态下移动至表情特效发送入口702后释放按压状态,在会话区域中呈现基于目标对象的虚拟形象生成的表情特效703,响应于按压状态下移动至视频特效发送入口704后释放按压状态,在会话区域中呈现基于目标对象的虚拟形象生成的视频特效705,响应于按压状态下移动至空白位置后释放按压状态,在会话区域中呈现内容。
128.在一些实施例中,在会话区域中呈现基于目标对象的虚拟形象生成的特效之前,基于目标对象的虚拟形象以及会话内容,确定用于表征会话内容的特效数据;基于会话内容,确定符合目标对象声音的语音数据;将特效数据与语音数据进行合成处理,得到基于目标对象的虚拟形象生成的特效。
129.例如,特效数据包括表情图片或视频帧,语音数据包括语音文件或音频帧,基于目标对象的虚拟形象以及会话内容,确定用于表征会话内容的多个表情图片,基于会话内容确定符合目标对象声音的语音文件,将多个表情图片与语音文件进行合成处理,得到基于目标对象的虚拟形象生成的表情特效;基于目标对象的虚拟形象以及会话内容,确定用于表征会话内容的多个视频帧,基于会话内容确定符合目标对象声音的多个音频帧,将多个视频帧与多个音频帧进行合成处理,得到基于目标对象的虚拟形象生成的视频特效。需要说明的是,当会话内容为语音消息时,可直接将语音消息作为语音数据。
130.在一些实施例中,确定用于表征会话内容的特效数据之前,获取目标对象的真实图像;基于真实图像调用虚拟形象生成模型,得到目标对象的虚拟形象。
131.如图4a所示,事先录入用户的个人形象信息(即真实图像)。点击虚拟形象生成入口401,以进入产品功能模块,以提示需要上传至少一个照片以生成虚拟形象,点击“上传照片”按钮402,从相册选择至少一张照片,或者实时拍摄至少一张照片,点击“上传照片”按钮403,以上传至少一张照片,基于上传的至少一张照片调用虚拟形象生成模型,得到用户的虚拟形象404(即目标对象的虚拟形象)。
132.在一些实施例中,基于真实图像调用虚拟形象生成模型,得到目标对象的虚拟形象,包括:通过虚拟形象生成模型执行以下处理:对真实图像进行主成分分析处理,得到对应目标对象的几何信息分布以及纹理信息分布;基于几何信息分布以及纹理信息分布进行形变处理,得到目标对象的虚拟形象。
133.例如,通过虚拟形象生成模型(例如三维变形模型)将多个真实图像(包括三维形状和颜色数据)进行对齐,将对齐后的真实图像利用主成分分析技术(pca,principal components analysis)从三维形状和颜色数据中,提取到更低维的子空间(即对应目标对象的几何信息分布以及纹理信息分布)。对这些子空间进行组合变形,以生成新的虚拟形象。
134.需要说明的是,在生成目标对象的虚拟形象前,可以选择虚拟形象风格(例如动漫、古风等),响应于虚拟形象风格的选择操作,生成符合选择的虚拟形象风格的虚拟形象,其中,不同的虚拟形象风格对应不同的虚拟形象生成模型。
135.在一些实施例中,基于会话内容,确定符合目标对象声音的语音数据,包括:对会话内容对应的文本信息进行文本分析处理,得到会话内容的上下文特征;基于目标对象声音对会话内容的上下文特征进行语音参数预测处理,所述会话内容对应的、且符合所述目
标对象声音的多个语音参数;对多个语音参数进行合成处理,得到符合目标对象声音的语音数据。
136.如图4b所示,事先录入用户的录入用户的真实声音(即目标对象声音),点击“开始录音”按钮406,录入用户的真实声音,通过目标对象声音训练隐马尔可夫模型,当输入的会话内容为文本消息时,对会话消息的文本信息进行文本分析处理,得到文本信息的上下文特征,通过训练后的隐马尔可夫模型对文本信息的上下文特征进行语音参数预测处理,得到会话内容对应的且符合目标对象声音的多个语音参数,对多个语音参数进行合成处理,得到符合目标对象声音的语音数据。
137.在一些实施例中,当会话内容为文本消息时,基于目标对象的虚拟形象以及会话内容,确定用于表征会话内容的特效数据,包括:对文本消息进行文本特征提取处理,得到文本消息的文本特征;基于文本特征对数据库中包含的多个候选特效数据进行匹配,将匹配到的候选特效数据作为用于表征会话内容的特效数据;其中,文本特征包括以下至少之一:文字、符号、表情图片。
138.其中,数据库的种类为多个,例如动作库、表情库等,动作库包括各种动作数据,例如包含“拜拜”的表情图片(即),表征“拜拜”的视频帧(即包含虚拟形象的“拜拜”动作的视频帧),表情库包括各种表情数据,例如包含“笑脸”的表情图片,表征“笑脸”的视频帧。例如,文本特征包括“拜拜”文字,则将匹配到的包含“拜拜”的表情图片或者表征“拜拜”的视频帧作为表征会话内容的特效数据;文本特征包括“:)”字符,则将匹配到的包含“笑脸”的表情图片或者表征“笑脸”的视频帧作为表征会话内容的特效数据;文本特征包括表情,则将匹配到的包含笑脸的表情图片或者表征笑脸的视频帧作为表征会话内容的特效数据。
139.在一些实施例中,当会话内容为语音消息时,基于目标对象的虚拟形象以及会话内容,确定用于表征会话内容的特效数据,包括:对语音消息进行格式转换处理,得到语音消息对应的文本消息;对文本消息进行文本特征提取处理,得到文本消息的文本特征;基于文本特征对数据库中包含的多个候选特效数据进行匹配,将匹配到的候选特效数据作为用于表征会话内容的特效数据。
140.例如,当会话内容为语音消息时,需要将语音消息转换为文本,并基于转换得到的文本进行特征提取,得到文本特征,基于文本特征对数据库中包含的多个候选特效数据进行匹配,将匹配到的候选特效数据作为用于表征会话内容的特效数据。
141.下面,将说明本技术实施例在一个实际的应用场景中的示例性应用。
142.相关技术中,采用文字、表情、纯语音、纯音频、纯视频等功能,实现即时通信的会话。
143.然而,相较于文字输入,通过拍摄精致录像的方式进行信息传递的门槛偏高。尤其是当用户所处环境条件不佳时,例如在赶路、光线昏暗、人多嘈杂的公共场景下,很难采用符合要求的音频、视频信息进行交互。在这样的情况下,用户会不得已使用文字以进行信息输出,而文字很难传递真实的场景、用户情绪等信息。
144.为了解决上述问题,本技术实施例提出一种基于虚拟形象的通讯方法(即一种会话处理方法),该方法可以让用户在不受场景、时间限制的情况下,通过文字、语音信息的输入就能够实现通过虚拟形象传递信息的作用。例如先记录用户形象、声音数据,在聊天通讯
时,可触发符合场景的惊喜表情、视频信功能,以此帮助用户便捷的传递情感信息,将虚拟形象融入用户社交场景,帮助用户进行自我呈现,更好地链接用户和好友的关系。
145.下面分场景具体说明本技术实施例提出的基于虚拟形象的通讯方法:
146.场景1、采集用户声音和形象信息
147.如图4a所示,事先录入用户的个人形象信息。点击虚拟形象生成入口401,以进入产品功能模块,以提示需要上传至少一个照片以生成虚拟形象,点击“上传照片”按钮402,从相册选择至少一张照片,或者实时拍摄至少一张照片,点击“上传照片”按钮403,以上传至少一张照片,则自动生成用户的虚拟形象404。
148.事先录入用户的声音信息。如图4a所示,在自动生成用户的虚拟形象404后,点击“下一步”按钮405,呈现如图4b所示的录音界面,点击“开始录音”按钮406,录入用户的真实声音,并点击“声音合成”按钮407,得到与个人声音相似的合成音频效果,可以试听合成音频,并在虚拟形象生成入口展示生成的用户的虚拟形象。
149.场景2、消息发布场景(文字发布)
150.如图5所示的一种发布方式,当在会话编辑区域501中完成文字编辑时,长按“发送”按钮(即发送入口)2秒,则触发惊喜表情功能,在会话界面预览惊喜表情502,并启动5秒功能倒计时,同时伴随依次手机振动,当5秒功能倒计时结束时,发送惊喜表情502;当5秒功能倒计时未结束时,点击惊喜表情502的切换按钮503,以切换发送方式,将惊喜表情502切换为视频信,并在会话界面预览视频信504,同样启动5秒功能倒计时,当5秒功能倒计时结束时,发送视频信504;当5秒功能倒计时未结束时,点击倒计时控件505,则取消虚拟形象发送方式,发送会话编辑区域501中的文字信息506。
151.如图6所示的另一种发布方式,当在会话编辑区域501中完成文字编辑时,长按“发送”按钮2秒,则触发虚拟形象惊喜表情功能,并松开“发送”按钮,则在会话界面预览惊喜表情502,同时伴随依次手机振动,当惊喜表情502的预览动画结束,则发送惊喜表情502。当触发虚拟形象惊喜表情功能,并未松开“发送”按钮,则继续计时,2秒后(累计时间为4秒)惊喜表情的动画消失,直到长按时间累计达到5秒,触发虚拟形象视频信功能,并松开“发送”按钮,则在会话界面预览视频信504,同时伴随依次手机振动,当视频信504的预览动画结束,则发送视频信504;当触发虚拟形象视频信功能后,并未松开“发送”按钮直到视频信504的预览动画结束,则取消虚拟形象发送方式,发送会话编辑区域中的文字信息。
152.场景3、消息发布场景(语音发布)
153.如图7所示,长按语音按钮701(即录音入口)可触发语音输入功能,当语音输入完毕,用户手指移动到左侧图标(icon)上,显示功能提示,例如当用户手指保持按压状态移动到惊喜表情图标702(即表情特效发送入口)上,并在惊喜表情图标702上松开手指,则触发惊喜表情的发送指令,在会话界面中显示惊喜表情703;当用户手指保持按压状态移动到视频信图标704上,并在视频信图标704(即视频特效发送入口)上松开手指,则触发视频信的发送指令,在会话界面中显示视频信705。当用户手指保持按压状态移动到空白位置706上,并在空白位置706上松开手指,则取消虚拟形象发送方式,发送输入的语音消息。
154.场景4、移动端消息接收场景(惊喜表情)
155.如图8a所示,消息发送方触发发送惊喜表情命令后,当移动端的消息接收方打开聊天窗口,默认展示惊喜表情的静态效果801,点击播放按钮802,可播放消息发送方声音,
并且触发表情动画。
156.如图8b所示,当输入文本消息中包括动作类型表情803时,在动作库中匹配到对应动作的标签804,并与虚拟形象合成展示表情动画;如图8c所示,当输入文本消息中包括物体类型表情805时,在物体库中匹配到对应物体的标签806,并与虚拟形象合成展示表情动画;如图8d所示,当输入文本消息中包括天气类型表情807时,在天气库中匹配对应天气的标签808,并与虚拟形象合成展示表情动画。
157.场景5、pc端消息接收场景(惊喜表情)
158.如图9所示,消息发送方触发发送惊喜表情命令后,当pc端的消息接收方打开聊天窗口,默认展示惊喜表情的静态效果901,点击播放按钮802,可播放消息发送方声音,并且触发惊喜表情。
159.场景6、移动端消息接收场景(视频信)
160.如图10所示的,消息发送方触发发送视频信命令后,当移动端的消息接收方打开聊天窗口,默认展示视频消息1001,点击播放按钮1002,可播放视频内容1003,同时播放消息发送方的声音。
161.场景7、pc端消息接收场景(视频信)
162.如图11所示的,消息发送方触发发送视频信命令后,当pc端的消息接收方打开聊天窗口,默认展示视频消息1101,点击播放按钮1102,可播放视频内容1103,同时播放消息发送方的声音。
163.下面结合如图12a-图12b所示的流程图,具体说明本技术实施例提出的基于虚拟形象的通讯方法:
164.如图12a所示,前端上传文本消息,并选择发送类型(即惊喜表情或视频信),后台接收到文本消息后,进行特征提取处理,得到文本特征,基于文本特征合成音频信息;当文本特征包括表情时,识别表情的标签信息(即类型),并基于表情进行数据库(例如虚拟形象表情库、虚拟形象动作库等)匹配,匹配到第一特效数据;当文本特征不包括表情时,基于文本特征中的文字进行数据库(例如虚拟形象表情库、虚拟形象动作库等)匹配,匹配到第二特效数据,基于第一特效数据以及第二特效数据合成虚拟形象的视频信息,基于音频信息以及视频信息合成最终的动画效果(即惊喜表情或视频信),以在前端呈现虚拟形象的最终效果。
165.如图12b所示,前端上传语音消息,并选择发送类型(即惊喜表情或视频信),后台接收到语音消息后,将语音消息转化为文本,并对文本进行特征提取处理,得到文本特征,基于文本特征中的文字进行数据库(例如虚拟形象表情库、虚拟形象动作库等)匹配,以基于匹配到特效数据合成虚拟形象的视频信息,基于语音消息以及视频信息合成最终的动画效果(即惊喜表情或视频信),以在前端呈现虚拟形象的最终效果。
166.需要说明的是,需要获取用户形象特征及声音特征,并基于此生成用户个性化的虚拟形象及声音样本。如图13所示,在前端上传用户的个人照片(该照片可以是实时拍摄得到的,也可以是从相册中获取的),后台接收到个人照片后,基于个人照片识别出形象特征,并基于形象特征合成用户虚拟形象,在前端上传声音样本(该照片可以是实时录音得到的,也可以是从预先存储的录音文件中获取的),后台接收到声音样本后,基于声音样本识别出声音特征,并基于声音特征合成用户声音样本。
167.下面基于具体的算法说明本技术实施例提出的基于虚拟形象进行通讯方法:
168.1)基于用户的个人照片生成虚拟形象
169.本技术实施例采用三维变形模型(3dmm,3d morphable models)技术实现2d照片生成3d虚拟形象。后台存有3d人脸模型数据库以生成人脸可形变模型,输入的2d图片经过人脸分析匹配到相应的3d人脸形变模型,再通过一定的调整生成3d虚拟形象。
170.3dmm可应用于人脸分析、模型拟合、图像合成等领域。对于人脸合成领域,首先利用高精度一起扫描多组人脸3d数据(包括三维形状和颜色数据),并进行对齐,之后利用主成分分析技术(pca,principal components analysis)从这些三维形状和颜色数据中,提取到更低维的子空间(即人脸的几何信息和人脸的纹理信息)。对这些pca子空间进行组合变形,将一个人脸的特性转移到另外一个人脸,以生成新的虚拟人脸。
171.其中,人脸的几何信息通过形状向量表示,人脸的纹理信息通过纹理向量表示。本技术实施例建立的三维形变的脸部模型由多个脸部模型组成,降数据集中的多个人脸模型进行加权组合,以得到新的脸部模型。
172.3dmm与人脸图像的匹配过程采用分析合成(analysis-by-synthesis)技术,先基于当前的模型参数对人脸进行初步的三维重建,映射到二维图像,与输入图像进行不断对比,基于残差信息更新参数,使得产生的二维图像与输入图片尽可能相似,并基于最终的结果可以对人脸进行一些属性进行调整,从而输出与用户输入图片相似的虚拟形象。
173.2)基于用户声音合成用户声音样本
174.通过对用户音频特征进行语音合成技术的声学特征学习,合成后的用户声音信息适用于上传文本消息的场景。
175.本技术实施例采用基于参数的语音合成方法,该方法运用统计模型随时生成语音参数,并将参数转化为声音波形。该过程是一个文本抽象成语音学特征,用统计学模型学习语音学特征与声学特征的对应关系后,再将预测出来的声学特征还原成波形(waveform)的过程。其中,用声码器(vocoder)生成波形,以实现特征到waveform。
176.如图14所示,基于语音库中的用户声音训练隐马尔可夫模型(hmm,hidden markov model),得到上下文相关的hmm模型,对输入文本消息进行文本分析,得到上下文特征,通过上下文相关的hmm模型结合上下文特征进行状态序列生成,以得到语音参数,并通过参数合成器进行合成,得到合成的用户声音样本(即表征输入文本消息的音频)。其中,本技术实施例可以存储合成的用户声音样本,以便后续直接调用。
177.需要说明的是,在语音库中获取语音信号后,需要进行音频特征提取,以获取音频特征(即梅尔频谱(melspectrogram)。梅尔倒谱系数(mfcc,mel-scale frequency cepstral coefficients)是一种音频特征,即一维的时域信号,直观上很难看出频域的变化规律,通过使用傅里叶变化,得到对应的频域信息,但是又丢失了时域信息,无法看到频域随时域的变化,这样就没法很好的描述声音,为了解决这个问题,本技术实施例采用使用短时傅里叶。
178.其中,短时傅里叶变换是对短时的信号(长时的信号分帧得来的)做傅里叶变化。把一段长信号分帧、加窗,再对每一帧做傅里叶变换(fft),最后将每一帧的结果堆叠起来,得到一幅二维信号(即声谱图)。声谱图往往是很大的一张图,为了得到合适大小的声音特征,将声谱图通过梅尔标度滤波器组(mel-scale filter banks),变换为梅尔频谱。在梅尔
频谱上做倒谱分析(即取对数、做dct变换)以得到梅尔倒谱。
179.在hmm的训练过程中,hmm的输出状态采用单高斯函数(gaussian)或混合高斯函数(gmm)表示,其参数生成算法的目标是在给定高斯分布序列的前提下,计算出具有最大似然函数的语音参数序列。
180.3)语音消息转换为文本
181.若用户输入的信息为音频(即语音消息),为了提取语音中用户的情感信息,需要针对文本进行文本特征提取,因此需要将音频转化为文本,即上传音频至服务器,服务器利用自动语音识别(asr,automatic speech recognition)技术将音频转化为文本信息。
182.如图15所示,对输入的语音消息进行特征提取,得到语音特征,并基于声学模型以及语言模型进行对语音特征进行解码处理,得到语音消息对应的文本信息。
183.其中,特征提取是从语音波形中提取出能反映语音特征的重要信息,去掉无关的信息(如背景噪声),并把这些信息转换为一组离散的参数矢量。
184.若语音消息中存在多个声音特征,同时进行说话人声分离,判断占比最高的声音特征,首先对语音消息进行预处理,通过对音频内容进行静音抑制(vad,voice activity detection)端点检测、分帧,得到声音波形图,然后通过傅里叶变化来完成时域到频域的转换,即对每一帧做傅里叶变化采用特征参数(即梅尔倒谱系数(mfcc,mel-scale frequency cepstral coefficients))进行表征,得到每一帧的频谱,以去除音频中的背景噪音、无关人声等。
185.特征提取完成之后,通过声学模型将语音分帧,处理发音相关的工作,以获取发声的基本音素状态和概率,识别语音中最小的音素,再由多个音素组成单词,再由单词组成文本句子。语言模型用于结合语义场景和上下文以生成连贯的、正确的文本。
186.4)文本信息提取
187.若用户输入的信息为文本消息,则直接进行文本特征提取,得到文本特征,其中,文本特征提取包括自动分词(word segmentation)、词性标注(part-of-speechtagging)、句法分析、音律预测等步骤。其中,句法分析用于确定句子的句法结构或者句子中词汇之间的依存关系。
188.其中,本技术实施例采用基于统计的分词方法。词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此与字相邻共现的频率或概率能够较好的反映成词的可行度。可以对文本中相邻共现的各个字的组合的频率进行统计,计算互现信息,例如计算字x和字y的互现信息为m(x,y)=log(p(x,y)/p(x)p(y))。其,p(x,y)表示字x和字y的相邻共现概率,p(x)表示字x在文本中出现的频率,p(y)表示字y在文本中出现的频率。互现信息体现了字之间结合的关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此相邻字(即字组)可能构成了一个词。这种方法只需对文本中的字组频度进行统计,不需要切分词典。
189.其中,词性标注(part-of-speech tagging)是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程,以辅助进行句法分析预处理。本技术实施例采用基于隐马尔可夫模型统计模型,该基于隐马尔可夫模型统计模型可以使用有标记数据的大型语料库进行训练,而有标记的数据则是指每一个词都分配了正确的词性标注的文本。
190.同时,提取的文本特征被用于匹配动作库、表情库、物体库、天气库等数据库,以合成虚拟形象的动态画面。
191.5)表情符号(即表情图片)的标签识别
192.表情符号的标签识别用于合成不同的虚拟形象动作,对于不同类型的表情符号包括以下几种处理方式:
193.1、动作类表情符号—查找动作库中近似的动作标签(例如动作表情或动作视频帧),并结合文本消息提取的文本特征优先匹配此类动作;
194.2、情绪表达类表情符号—查找表情库中近似的情绪标签(例如情绪表情或情绪视频帧),并结合文本消息提取的文本特征优先匹配此类表情;
195.3、物体类表情符号—在后台库中建立相关物体标签(例如物品表情或物品视频帧),特效合成时,物体标签按需要出现在虚拟形象背景中,还可以结合匹配的动作标签进行展示;
196.4、天气类表情符号—在后台库中建立相关天气标签(例如天气表情或天气视频帧),此类天气标签按需要出现在虚拟形象背景中。
197.6)动作匹配
198.通过对用户上传的文本消息或语音消息进行解析可获取文本特征中的文本信息,由此可筛选出相应动作库中的虚拟形象的动作。将动作传输至后台通过画面检索进行置信度匹配,结合表情符号的标签识别结果,确定出最适合的动作并绑定用户虚拟形象进行合成,得到虚拟形象动作(即表情图片或视频帧)。
199.综上,若用户输入的为文本消息,则将合成的音频和虚拟形象动作进行匹配,以合成惊喜表情或者视频信;若用户输入的为语音消息,则将用户输入语音消息和虚拟形象动作进行匹配,以合成惊喜表情或者视频信息。
200.因此,本技术实施例能够解决用户所处环境嘈杂、环境景色不够美观等问题导致的无法使用语言、视频沟通的问题,让用户用低成本的文字、语音输入方式,获得用户个性化虚拟形象视频信、语音表情的表达效果,更加便捷的增进人与人之间的情感联系。
201.至此已经结合本技术实施例提供的电子设备的示例性应用和实施,说明本技术实施例提供的会话处理方法,下面继续说明本技术实施例提供的会话处理装置555中各个模块(第一显示模块5551、获取模块5552、第二显示模块5553)配合实现会话处理的方案。
202.第一显示模块5551,用于呈现会话编辑区域;获取模块5552,用于响应于基于所述会话编辑区域的输入操作,获取所述输入操作形成的会话内容;第二显示模块5553,用于响应于针对所述会话内容的发送操作,在会话区域中呈现基于目标对象的虚拟形象生成的特效,其中,所述特效用于表征所述会话内容。
203.在一些实施例中,所述第二显示模块5553还用于播放基于目标对象的虚拟形象生成的表情特效,其中,所述表情特效包括基于所述虚拟形象的表征所述会话内容的至少一个表情图片、以及基于所述目标对象声音表征所述会话内容的文本的语音。
204.在一些实施例中,所述表情图片用于从以下维度至少之一表征所述会话内容:所述会话内容的关键字、所述会话内容携带的情感信息、所述会话内容所属的主题。
205.在一些实施例中,所述表情特效被设置有播放模式,所述播放模式包括:当所述表情特效被接收时自动播放任意一个所述表情图片,当所述表情特效被触发播放时切换播放
多个表情图片,并同步播放所述语音。
206.在一些实施例中,所述第二显示模块5553还用于播放基于目标对象的虚拟形象生成的视频特效,其中,所述视频特效包括基于所述虚拟形象的表征所述会话内容的多个视频帧、以及基于所述目标对象声音表征所述会话内容的文本的多个音频帧。
207.在一些实施例中,所述视频特效被设置有播放模式,所述播放模式包括:当所述视频特效被接收时自动播放任意一个所述视频帧,当所述视频特效被触发播放时播放所述多个视频帧,并同步播放所述多个音频帧。
208.在一些实施例中,所述第二显示模块5553还用于呈现针对所述会话内容的发送入口;响应于用于触发所述发送入口的发送操作,播放用于表征所述会话内容的特效的预览画面,其中,所述第一触发操作区别于第二触发操作,所述第二触发操作用于执行发送所述会话内容;响应于所述预览画面播放完成,发送所述特效,并在会话区域中呈现基于所述目标对象的虚拟形象生成的特效。
209.在一些实施例中,所述特效的类型包括表情特效、视频特效;所述第二显示模块5553还用于当所述播放的用于表征所述会话内容的特效的预览画面来自第一类型特效时,响应于针对所述第一类型特效的切换操作,将所述第一类型特效切换为第二类型特效,并播放所述第二类型特效的预览画面;其中,所述第一类型特效是所述表情特效、所述视频特效中的任意一个,所述第二类型特效是所述表情特效、所述视频特效中的另一个。
210.在一些实施例中,所述第二显示模块5553还用于呈现针对所述第一类型特效的预览画面的切换入口;响应于针对所述切换入口的触发操作,将呈现的所述第一类型特效切换为所述第二类型特效。
211.在一些实施例中,所述特效的类型包括表情特效、视频特效;所述第二显示模块5553还用于响应于用于触发针对所述发送入口的触发操作,确定所述触发操作对应的参数,并播放与所述参数对应类型的特效的预览画面;其中,所述触发操作包括不同参数、且所述不同参数对应不同类型的特效,所述触发操作包括的参数包括以下至少之一:触发时间、触发动作方式。
212.在一些实施例中,当播放用于表征所述会话内容的特效的预览画面时,所述第二显示模块5553还用于述会话区域呈现所述会话内容。
213.在一些实施例中,所述第二显示模块5553还用于在所述发送入口中呈现所述预览画面的播放倒计时控件;响应于针对所述播放倒计时控件的触发操作,停止播放所述特效的预览画面。
214.在一些实施例中,所述第二显示模块5553还用于响应于按压所述发送入口并保持按压状态至设定时长后未释放所述按压状态,停止播放所述特效的预览画面。
215.在一些实施例中,当所述会话内容为语音消息时,所述第二显示模块5553还用于在所述会话编辑区域呈现录音入口;响应于按压所述录音入口并保持按压状态,获取在所述按压状态下针对语音输入操作所采集的所述语音消息;呈现特效发送入口;响应于所述按压状态下移动至所述特效发送入口后释放所述按压状态,在会话区域中呈现基于目标对象的虚拟形象生成的特效。
216.在一些实施例中,所述特效的类型包括表情特效、视频特效,所述特效发送入口包括表情特效发送入口、视频特效发送入口;所述第二显示模块5553还用于响应于所述按压
状态下移动至所述表情特效发送入口后释放所述按压状态,在会话区域中呈现基于目标对象的虚拟形象生成的表情特效;响应于所述按压状态下移动至所述视频特效发送入口后释放所述按压状态,在会话区域中呈现基于目标对象的虚拟形象生成的视频特效。
217.在一些实施例中,所述在会话区域中呈现基于目标对象的虚拟形象生成的特效之前,所述装置还包括:处理模块5554,用于基于所述目标对象的虚拟形象以及所述会话内容,确定用于表征所述会话内容的特效数据;基于所述会话内容,确定符合所述目标对象声音的语音数据;将所述特效数据与所述语音数据进行合成处理,得到基于所述目标对象的虚拟形象生成的特效。
218.在一些实施例中,所述确定用于表征所述会话内容的特效数据之前,所述处理模块5554还用于获取所述目标对象的真实图像;基于所述真实图像调用虚拟形象生成模型,得到所述目标对象的虚拟形象。
219.在一些实施例中,所述处理模块5554还用于通过所述虚拟形象生成模型执行以下处理:对所述真实图像进行主成分分析处理,得到对应所述目标对象的几何信息分布以及纹理信息分布;基于所述几何信息分布以及所述纹理信息分布进行形变处理,得到所述目标对象的虚拟形象。
220.在一些实施例中,所述处理模块5554还用于对所述会话内容对应的文本信息进行文本分析处理,得到所述会话内容的上下文特征;基于所述目标对象声音对所述会话内容的上下文特征进行语音参数预测处理,所述会话内容对应的、且符合所述目标对象声音的多个语音参数;对所述多个语音参数进行合成处理,得到符合所述目标对象声音的语音数据。
221.在一些实施例中,当所述会话内容为文本消息时,所述处理模块5554还用于对所述文本消息进行文本特征提取处理,得到所述文本消息的文本特征;基于所述文本特征对数据库中包含的多个候选特效数据进行匹配,将匹配到的所述候选特效数据作为用于表征所述会话内容的特效数据;其中,所述文本特征包括以下至少之一:文字、符号、表情图片。
222.在一些实施例中,当所述会话内容为语音消息时,所述处理模块5554还用于对所述语音消息进行格式转换处理,得到所述语音消息对应的文本消息;对所述文本消息进行文本特征提取处理,得到所述文本消息的文本特征;基于所述文本特征对数据库中包含的多个候选特效数据进行匹配,将匹配到的所述候选特效数据作为用于表征所述会话内容的特效数据。
223.本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本技术实施例上述的会话处理方法。
224.本技术实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本技术实施例提供的会话处理方法,例如,如图3a示出的会话处理方法。
225.在一些实施例中,计算机可读存储介质可以是fram、rom、prom、eprom、eeprom、闪存、磁表面存储器、光盘、或cd-rom等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
226.在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
227.作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(html,hyper text markup language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
228.作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
229.以上所述,仅为本技术的实施例而已,并非用于限定本技术的保护范围。凡在本技术的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1