基于特征建模的极低码率下人脸视频编解码方法

文档序号:8302007阅读:327来源:国知局
基于特征建模的极低码率下人脸视频编解码方法
【技术领域】
[0001]本发明涉及计算机视觉和图像处理技术领域,具体涉及一种基于特征建模的极低码率下人脸视频编解码方法。
【背景技术】
[0002]随着社会经济的发展和人们日常生活水平的提高,使用手机、平板电脑等便携式通讯工具来进行视频聊天的方式正越来越被人们所青睐。然而,虽然无线互联网蓬勃发展,用户量与日俱增,但是由于目前的移动通讯网络速度较慢,影响了视频聊天业务的用户体验,也限制了用户实时视频聊天应用的发展。
[0003]现有的移动终端即时通讯软件,一般都是将视频数据压缩同步处理,然后通过网络传输后在另一客户端播放视频画面。但由于传输的数据始终是视频数据,数据传输流量较大,在移动通讯网络这种低码流网络下,视频易发生顿卡、跳帧,甚至无法实时显示,或者牺牲视频质量,造成视频聊天时糟糕的用户体验。目前,提出的技术方案非常少,大都是从改进移动通讯网络入手,升级3G、4G,但费用又相对昂贵,且不能从根本上解决低码率下视频聊天中出现的顿卡、无法实时显示和视频质量差等问题。

【发明内容】

[0004]为解决上述问题,本发明提供了一种基于特征建模的极低码率下人脸视频编解码方法,该方法能在极低码率的条件下,保证视频聊天的流畅,提高视频聊天业务的用户体验,同时为用户实时视频聊天应用提供新的应用前景。
[0005]为实现上述目的,本发明采用如下技术方案:
[0006]一种基于特征建模的极低码率下人脸视频编解码方法,包括以下步骤:
[0007]步骤1:接收方接收发送方视频聊天时传输来的第一帧全部视频信息,并对第一帧视频图像进行显著性区域检测,确定人脸主体的位置;
[0008]步骤2:发送方对确定的人脸主体的位置进行人脸建模和提取特征点,确定眼睛和嘴巴的位置,并将特征点及眼睛和嘴巴的位置信息传输至接收方的客户端;
[0009]步骤3:发送方利用第一帧已经提取出的特征点进行运动估计,对第二帧视频图像进行确定人脸主体的位置;
[0010]步骤4:利用第一帧已经提取出的特征点的运动估计进行人脸模型匹配,确定第二帧视频图像的特征点以及眼睛和嘴巴的位置,传送特征点及眼睛和嘴巴的位置信息,与第一帧视频信息进行匹配,合成第二帧视频图像;
[0011]步骤5:与第二帧视频图像合成方法类似,发送方传送之后的每一帧视频图像特征点及眼睛和嘴巴的位置信息,与其前一帧视频信息进行匹配,合成该帧视频图像,直至传输第i*n帧视频图像时,进入步骤6 ;其中,i = 1,2,3......,i为正整数;n彡3,η为正整数;
[0012]步骤6:当传送第i*n帧视频图像时,传输该帧全部视频信息,并对该帧视频图像进行显著性区域检测,确定人脸主体的位置和建立人脸模型,确定特征点以及眼睛和嘴巴的位置,并传输至接收方的客户端;当接收方接收后,返回至步骤5。
[0013]所述步骤3中确定人脸主体的位置的过程为:
[0014]选取不易被表情所影响的特征点进行估计,并估计其平移分量及旋转分量,得到头部的刚体运动参数,确定人脸的位置。
[0015]所述步骤4的具体过程为:
[0016]步骤4.1:利用第一帧已经提取出的特征点的运动估计进行人脸模型匹配,确定第二帧视频信息中的各特征点的坐标及幅值,确定眼睛和嘴巴的位置,对眼睛和嘴巴的区域进行DPCM差分编码;
[0017]步骤4.2:接收方收到第二帧的特征点的编码信息后,与第一帧视频信息进行匹配,来确定第二帧视频图像中人脸区域的位置与姿态,以及更新第二帧视频图像中的人脸表情;
[0018]步骤4.3:修补和填充第二帧视频图像中的背景区域,合成第二帧视频图像;
[0019]所述步骤I中的显著性区域检测算法采用基于布尔图的显著性检测模型,利用全局拓扑测度快速检测出视频聊天中最显著区域为人脸部分。
[0020]所述步骤2中建立人脸模型的算法为主动外观模型算法。
[0021 ] 所述步骤4.2的具体过程为:
[0022]利用第二帧中的模型特征点及眼睛和嘴巴区域的信息,与第一帧中的特征点及眼睛和嘴巴区域进行匹配,计算得到映射矩阵,将第一帧图像中的人脸区域映射到新一帧的图像中;
[0023]利用接收到的眼睛和嘴巴的编码信息解码出第二帧图像中的眼睛和嘴巴,并对第一帧图像中人脸区域中的眼睛与嘴巴区域进行更新。
[0024]所述步骤4.2中第二帧信息与第一帧信息匹配的过程为:
[0025]利用汉明距离计算特征点数据间的相似性,以近邻距离与次近邻距离的比值T来确定可能正确的匹配,判定当τ〈0.8时,最近邻距离对应的特征点为匹配点。
[0026]所述映射矩阵为:针对匹配特征点数据,使用随机抽样一致性算法计算得到映射矩阵,将第一帧图像中的人脸区域映射到新一帧的图像中。
[0027]所述步骤4.3的具体过程为:
[0028]除了人脸区域外,第二帧视频图像中的背景区域的像素值完全利用第一帧视频图像中的像素值,对于第二帧视频图像中由于人脸区域的位移而产生的背景空洞,利用基于块的纹理合成图像修补算法对其进行背景估计并填充,填充和修补之后显示第二帧视频图像。
[0029]所述基于块的纹理合成图像修补算法是指根据图像的自相似性,利用已知图像部分对不确定区域进行填充完整。
[0030]本发明的有益效果为:
[0031](I)本发明利用显著性区域检测,快速确定视频聊天中的人脸主体,利用主动外观模型中的建模思路对人脸进行建模,提取特征点,并利用直方图确定眼睛以及嘴巴的位置和尺度;
[0032](2)在实时视频聊天的过程中,基于特征对视频图像编码,只传输特征点的相关信息和眼睛、嘴巴区域的编码信息,然后在接收端合成出新一帧的视频图像,大大减少了需要移动网络传输的数据量,符合手机等便携式通讯工具的低码流传输环境的特点,保证实时视频聊天的流畅性。
【附图说明】
[0033]图1为本发明实现流程框图;
[0034]图2为视频聊天的某一帧图像;
[0035]图3为BMS显著性检测算法流程;
[0036]图4为视频图像显著性区域检测结果;
[0037]图5为由显著性区域检测确定的人脸区域;
[0038]图6为主动外观模型的形状建模后的模型结果;
[0039]图7为参考主动外观模型对人脸区域建模的结果。
【具体实施方式】
[0040]下面结合附图对本发明进行详细说明。
[0041]如图1所示,本发明的基于特征建模的极低码率下人脸视频编解码方法,包括以下步骤:
[0042]一种基于特征建模的极低码率下人脸视频编解码方法,包括以下步骤:
[0043]步骤1:接收方接收发送方视频聊天时传输来的第一帧全部视频信息,并对第一帧视频图像进行显著性区域检测,确定人脸主体的位置;
[0044]步骤2:发送方对确定的人脸主体的位置进行人脸建模和提取特征点,以及确定眼睛和嘴巴的位置,并将特征点及眼睛和嘴巴的位置信息传输至接收方的客户端;
[0045]步骤3:发送方利用第一帧已经提取出的特征点进行运动估计,对第二帧视频图像进行确定人脸主体的位置;
[0046]步骤4:利用第一帧已经提取出的特征点的运动估计进行人脸模型匹配,确定第二帧视频图像的特征点以及眼睛和嘴巴的位置,传送特征点及眼睛和嘴巴的位置信息,与第一帧视频信息进行匹配,合成第二帧视频图像;
[0047]步骤5:与第二帧视频图像合成方法类似,发送方传送之后的每一帧视频图像特征点及眼睛和嘴巴的位置信息,与其前一帧视频信息进行匹配,合成该帧视频图像,直至传输第i*n帧视频图像时,进入步骤6 ;其中,i = 1,2,3......,i为正整数;n彡3,η为正整数;
[0048]步骤6:当传送第i*n帧视频图像时,传输该帧全部视频信息,并对该帧视频图像进行显著性区域检测,确定人脸主体的位置和建立人脸模型,确定特征点以及眼睛和嘴巴的位置,并传输至接收方的客户端;当接收方接收后,返回至步骤5。
[0049]如图2所示,假设其为视频聊天时的第一帧,将第一帧视频图像完整的传输到接收端,并在发送端对第一帧视频图像进行显著性区域检测。显著性区域检测是将图像中对人类视觉系统而言最显著的区域快速检测出来。由于本发明主要针对视频聊天,所以最显著区域是人脸区域。使用显著性区域检测算法比使用人脸检测算法要快得多,更符合实时视频聊天的要求。
[0050]本实施例中的显著性检测方法为“a Boolean Map based Saliency model” (BMS)算法,能更好的分离前景目标和背景区域,检测结果如图3所示。
[0051]BMS算法的流程图如图4所示,
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1