数据处理方法、装置及系统与流程

文档序号：14717996发布日期：2018-06-16 02:01阅读：144来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本申请涉及通信技术领域，尤其涉及一种数据处理方法、装置及系统。

背景技术：

在日益发达的互联网中，一些社交应用可以采用语音方式发送消息。语音消息其展现形式较为单一，互动效果差。

技术实现要素：

鉴于此，本申请提供一种数据处理方法、装置及系统，可以丰富即时通讯软件的交流方式。

为了实现上述目的，本申请提供了下述技术特征：

一种数据处理方法，包括：

获取用户语音数据以及用户文字数据；其中，所述用户语音数据与所述用户文字数据对应；

确定与用户文字数据对应的唇形图像集；

调整所述唇形图像集获得与人脸图像对应的唇形图像集，并合成人脸图像对应的唇形视频数据；

合成用户语音数据和唇形视频数据，获得用户视频数据。

可选的，所述获取用户语音数据以及用户文字数据，包括：

响应于用户输入的文字数据获得用户文字数据，基于文字数据转换为语音数据获得用户语音数据；或者，

响应于用户输入的语音数据获得用户语音数据，基于语音数据转换为文字数据获得用户文字数据。

可选的，所述确定与用户文字数据对应的唇形图像集，包括：

对用户文字数据进行语义分析并进行分词，获得多个分词以及对应的多个分词属性信息；

分别确定与多个分词对应的多个唇形图像；

基于分词属性信息对对应的唇形图像进行调整；

多个调整后的唇形图像组成唇形图像集。

可选的，所述分别确定与多个分词对应的多个唇形图像，包括：

在按韵母划分的多个唇形图像中，确定与分词韵母对应的唇形图像；

在按声母和韵母划分的多个唇形图像中，确定与分词的声母和韵母对应的唇形图像；

将声母和韵母输入至唇形图像模型，获得唇形图像模型输出的唇形图像。

可选的，所述调整所述唇形图像集获得与人脸图像对应的唇形图像集，包括：

调整人脸图像中的唇形特征，以使唇形特征与唇形图像中的唇形特征匹配；

将多幅调整后的人脸图像，确定为与人脸图像对应的唇形图像集。

可选的，所述合成用户语音数据和唇形视频数据，获得用户视频数据，包括：

确定用户语音数据的编码参数，获得编码后的语音文件；

确定唇形视频数据的编码参数，获得编码后的视频文件；

对编码后的语音文件和编码后的视频文件进行音视频同步，获得用户视频数据。

一种数据处理装置，包括：

获取数据单元，用于获取用户语音数据以及用户文字数据；其中，所述用户语音数据与所述用户文字数据对应；

确定图像集单元，用于确定与用户文字数据对应的唇形图像集；

调整单元，用于调整所述唇形图像集获得与人脸图像对应的唇形图像集，并合成人脸图像对应的唇形视频数据；

合成单元，用于合成用户语音数据和唇形视频数据，获得用户视频数据。

可选的，所述确定图像集单元，包括：

分词单元，用于对用户文字数据进行语义分析并进行分词，获得多个分词以及对应的多个分词属性信息；

确定唇形图像单元，用于分别确定与多个分词对应的多个唇形图像；

调整唇形图像单元，用于基于分词属性信息对对应的唇形图像进行调整；

组成单元，用于多个调整后的唇形图像组成唇形图像集。

可选的，所述调整单元包括：

调整单元，用于调整人脸图像中的唇形特征，以使唇形特征与唇形图像中的唇形特征匹配；

确定单元，用于将多幅调整后的人脸图像，确定为与人脸图像对应的唇形图像集。

一种数据处理系统，包括：

发送终端，用于确定需使用人脸图像并发送人脸图像至服务器；发送用户语音数据或用户文字数据至服务器；

服务器，用于接收并存储人脸图像，获取用户语音数据以及用户文字数据；其中，所述用户语音数据与所述用户文字数据对应；确定与用户文字数据对应的唇形图像集；调整所述唇形图像集获得与人脸图像对应的唇形图像集，并合成人脸图像对应的唇形视频数据；合成用户语音数据和唇形视频数据，获得用户视频数据；发送用户视频数据至接收终端；

接收终端，用于接收并显示用户视频数据。

通过以上技术手段，可以实现以下有益效果：

本申请可以基于用户语音数据，并结合人脸图像，在人脸图像上显示用于语音数据，以展示出以人脸图像展示用户语音数据的效果。这样可以丰富即时通讯软件的交流方式。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例公开的一种数据处理系统的结构示意图；

图1b为本申请实施例公开的一种数据处理方法的流程图；

图2为本申请实施例公开的一种数据处理方法的流程图；

图3为本申请实施例公开基于韵母划分的一些唇形的示意图；

图4a-4c为本申请实施例公开一些唇形的示意图；

图5为本申请实施例公开一些唇形特征点的示意图；

图6为本申请实施例公开的一种数据处理装置的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在即时通讯软件中的交流方式中，为了使得交流方式更加多样化，提供了针对语音数据进行视频化显示的方案，以及，针对文字数据进行视频化显示的方案。

根据本申请提供的一个实施例，提供了一种数据处理方法。参见图1a，包括：发送终端100、服务器200和接收终端300。

下面介绍数据处理方法的具体实现方式，参见图1b，包括以下步骤：

步骤S101：发送终端100确定使用的人脸图像，并发送人脸图像至服务器200。

步骤S102：发送终端100发送用户语音数据或用户文字数据至服务器200。

步骤S103：服务器200接收用户语音数据或用户文字数据，并获取用户语音数据以及用户文字数据；其中，所述用户语音数据与所述用户文字数据对应。

当发送终端100发送的是用户语音数据的情况下，服务器200响应于用户输入的文字数据获得用户文字数据，然后，基于文字数据转换为语音数据获得用户语音数据。

基于文字数据转换为语音数据的过程已为成熟技术，在此不再赘述。

当发送终端200发送的是用户文字数据的情况下，服务器200响应于用户输入的语音数据获得用户语音数据，然后，基于语音数据转换为文字数据获得用户文字数据。

基于语音数据转换为文字数据的过程已为成熟技术，在此不再赘述。

步骤S104：服务器200确定与用户文字数据对应的唇形图像集。

参见图2，本步骤具体包括：

步骤S201：对用户文字数据进行语义分析并进行分词，获得多个分词以及对应的多个分词属性信息。

根据用户文字数据的语言种类，对文字数据分词得到多个分词。例如，以用户文字数据为“Hello，大家好”为例，首选确定用户文字数据具有两种语音种类：英语和汉语。

对英语部分按照英语分词方式进行分词，例如每个单词为一个分词。对汉语部分按照汉语方式进行分词，例如一个汉字为一个分词。那么，对用户文字数据进行分词后得到：Hello、大、家、好。

步骤S202：分别确定与多个分词对应的多个唇形图像。

本步骤可以由三种实现方式：

第一种实现方式：基于韵母划分类别方式。

在分析大量唇形数据后发现，唇形主要取决于分词的韵母(例如，a、ang、ao等)。因此，可以基于韵母多个唇形类别，以及，与唇形类别对应的唇形图像。参见图3为基于韵母划分的一些唇形的示意。

因此在获得分词后，可以基于分词的韵母，查找得到与韵母对应的唇形图像。例如，以“大”为例，其韵母为“a”，则查找与韵母“a”对应的唇形图像。

第二实现方式：基于声母和韵母划分类别的方式。

唇形主要取决于分词的韵母，但是分词的声母也会对唇形产生一些差别，所以，可以基于分词的声母和韵母共同确定唇形图像。

因此在获得分词后，可以基于分词的声母和韵母，查找得到与声母和和韵母共同对应的唇形图像。例如，以“大”为例，其声母为“d”、韵母为“a”，则查找与声母和韵母“da”共同对应的唇形图像。

第三实现方式：基于唇形图像模型来确定唇形图像。

预先基于声母和韵母来训练唇形图像模型，关于唇形图像模型可以基于目前训练模型来训练大量词语的声母、韵母及其唇形数据，并得到训练完成后的唇形图像模型。

因此，在获得分析后可以获得分词的声母和韵母，并将其输入至唇形图像模型，经唇形图像模型计算后，获得与分词对应的唇形图像。

参见图4a-4c，分别为“大”“家”、“好”的唇形图像。

步骤S203：基于分词属性信息对对应的唇形图像进行调整。

分词的属性信息可以包括分词的情感信息和音量信息等属性信息。以情感信息为例，不同情感信息对应的唇形图像也有所不同。例如，情感信息为开心时，说“大家好”的唇形，与情感信息为怒气冲天时，说“大家好”的唇形是不一样的。

并且，唇形会随着音量的提高开合程度也会大，唇形随着音量的降低开合程度也会降低。因此，还可以基于词语的大小对唇形的开合程度进行调整。

可以预先获取大量的唇形样本，并获取样本的属性信息，以唇形样本的属性信息为输入、以唇形图像为输出，对训练模型进行训练。训练结束后得到以唇形样本的属性信息为输入、以唇形图像为输出的模型；该模型可以基于属性信息输出与属性信息对应的唇形图像。

步骤S204：多个调整后的唇形图像组成唇形图像集。

针对每个分词均执行上述过程中，得到多个分词对应的唇形图像。按用户文字数据分词后得到按用户文字数据中先后排列的多个分词。按分词的先后的顺序，确定与分词对应的唇形图像的顺序，将多个有序的唇形图像确定为唇形图像集。

接着返回图1b，进入步骤S105：调整所述唇形图像集获得与人脸图像对应的唇形图像集，并合成人脸图像对应的唇形视频数据。

发送终端预先上传人脸图像至服务器，因此，服务器获取与发送终端100对应的人脸图像。人脸图像上具有唇形图像。

下面以“大家好”为例，对本步骤进行说明。

第一过程：获得“大”的唇形图像。

A步骤：对人脸图像进行识别确定唇形特征矩阵1。

参见图5，唇形具有许多特征点：唇形外侧特征点m1-m10；唇形内侧特征点n1-n8。特征点可以按照一定组成方式生成特征矩阵。具体生成矩阵方式可以根据实际算法确定，在此不再赘述。

B步骤：对唇形图像集中“大”对应的唇形图像进行识别，确定唇形特征矩阵2。

C步骤：确定唇形特征矩阵1与唇形特征矩阵2之间的变换矩阵1。

D步骤：将唇形特征矩阵1与变换矩阵1乘积1，确定为具有唇形图像1的人脸图像1。

第二过程：基于“大”唇形基础上获得“家”的唇形图像。

A步骤：将唇形特征矩阵1与变换矩阵1乘积1，确定为唇形特征矩阵3。

B步骤：对唇形图像集中“家”对应的唇形图像进行识别，确定唇形特征矩阵4。

C步骤：确定唇形特征矩阵3与唇形特征矩阵4之间的变换矩阵2。

D步骤：将唇形特征矩阵3与变换矩阵2乘积2，确定为为具有唇形图像2的人脸图像2。

第三过程：基于“家”唇形基础上获得“好”的唇形图像。

A步骤：唇形特征矩阵3与变换矩阵2乘积2，确定为唇形特征矩阵5。

B步骤：对唇形图像集中“好”对应的唇形图像进行识别，确定唇形特征矩阵6。

C步骤：确定唇形特征矩阵5与唇形特征矩阵6之间的变换矩阵3。

D步骤：将唇形特征矩阵5与变换矩阵3乘积3，确定为具有唇形图像3的人脸图像3。

将具有唇形图像1的人脸图像1、具有唇形图像/2的人脸图像2以及具有唇形图像3的人脸图像3，确定为与人脸图像对应的唇形图像集。

将多幅人脸图像合成视频，获得人脸图像对应的唇形视频数据。

步骤S106：服务器200合成用户语音数据和唇形视频数据，获得用户视频数据。

服务器200确定用户语音数据的编码参数，获得编码后的语音文件；服务器200确定唇形视频数据的编码参数，获得编码后的视频文件；服务器200对编码后的语音文件和编码后的视频文件进行音视频同步，获得用户视频数据。

例如，唇形视频数据的编码参数可以选择H264进行编码，视频的帧率设成30帧；音频选择AAC编码声道数为1，采样率为44100，最终合成MP4格式。

步骤S107：服务器200发送用户视频数据至接收终端300。

通过上述内容，可以得到本申请具有以下有益效果：

参见图6，本申请提供了一种数据处理装置，包括：

获取数据单元31，用于获取用户语音数据以及用户文字数据；其中，所述用户语音数据与所述用户文字数据对应；

确定图像集单元32，用于确定与用户文字数据对应的唇形图像集；

调整单元33，用于调整所述唇形图像集获得与人脸图像对应的唇形图像集，并合成人脸图像对应的唇形视频数据；

合成单元34，用于合成用户语音数据和唇形视频数据，获得用户视频数据。

其中所述确定图像集单元32，包括：

分词单元321，用于对用户文字数据进行语义分析并进行分词，获得多个分词以及对应的多个分词属性信息；

确定唇形图像单元322，用于分别确定与多个分词对应的多个唇形图像；

调整唇形图像单元323，用于基于分词属性信息对对应的唇形图像进行调整；

组成单元324，用于多个调整后的唇形图像组成唇形图像集。

其中，所述调整单元33包括：

调整唇形单元331，用于调整人脸图像中的唇形特征，以使唇形特征与唇形图像中的唇形特征匹配；

确定单元332，用于将多幅调整后的人脸图像，确定为与人脸图像对应的唇形图像集。

上述方案的具体内容，可以参见图1b所示的实施例，在此不再赘述。

通过上述内容，可以得到本申请具有以下有益效果：

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张引;吴烁
技术所有人：北京搜狐新媒体信息技术有限公司
我是此专利的发明人

上一篇：像素电路及其驱动方法以及探测器与流程
上一篇：一种基于光纤传感的多路图像采集装置及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。