低比特率视频通话中基于模型和对象的头肩图像重建方法

文档序号：9327869阅读：305来源：国知局

低比特率视频通话中基于模型和对象的头肩图像重建方法
【技术领域】
[0001] 本发明涉及视频传输领域，特别是在低比特率情况下的一种多媒体通信时人脸视频的头肩部分的图像重建方法。结合基于对象编码和基于模型编码二者的优点，提出的一种同时基于对象和模型的低比特率混合编码方法（Model-and-〇bject based Coding， MOBC)，它实现了头肩视频在低比特率中的传输，重建视频图像后仍有很好的体验效果，从而提高了通信资源的利用率。
【背景技术】
[0002] 近年来无线网络中的基于多媒体业务的数据流急速上升，诸如视频通话、视频会议等多媒体通信应用出现在大量的移动设备中。但是，传统的基于块的混合视频编码技术为了要达到较为满意的通话质量需要比较高的比特率，压缩效率较低，这使无线网络很难承载迅速增长的大量视频数据。由于无线链路的带宽资源成本非常高，因此，需要在保证较好的用户体验质量（Quality-of-Experience，QoE)同时，找到一种更有效的编码方法来减少移动视频传输所需要的带宽。
[0003] 目前已经有大量这方面的研究工作。为了克服传统的基于分块的编码方法的缺点，研究人员提出了基于兴趣区域的编码方法。基于兴趣区域的编码方式假设，为了提高用户体验，对用户感兴趣的视频区域的质量相对于视频其他区域的质量更加重要。对典型的多媒体通信视频电话和视频会议而言，说话者的头部和上身通常是观察者最感兴趣的。目前已有一种模型辅助方法，即先检测通信者的头肩部分，然后编解码调整比特分配方案，将更多的比特分配到头肩部分，从而在没有需要更多带宽的情况下提高了兴趣区域的视频质量。这些方法提供的视频压缩比率有限，特别的，对于可视电话应用，当脸部靠近相机时，人脸视频占据视频图像中的绝大部分，该方法不能对人脸视频有较好的压缩效果。
[0004] 不同于基于分块的混合编码，基于对象的编码（Object-based Coding，0BC)和基于模型的编码（Model-based Coding，MBC)技术能够利用所描述对象几何结构的先验知识，从而实现视频中的低比特率传输。这两种方法利用视频中外观和形状的连续性，跟踪外观边缘和内部的关键点，并对其进行编码；即使在建模过程中跟踪失败，进行自适应纹理更新的同时，被跟踪的形状也用于运动补偿（Motion Compensation，MC)。MBC在目标特征上更进一步，它需要一个目标对象优先的分析合成模型，用较少的模型参数表示这个模型对象的形状（和可能的外观），不需要传输全部的运动矢量。MBC虽然提供了一个更高的压缩比，但它的目标特征更有针对性，限制了它的适用范围。
[0005] 在视频电话和视频会议应用里，脸部都是观察者关注的中心，脸部表情也最丰富。 OBC和MBC都已经应用到这些场景并取得一定的成功。基于网格的OBC和MBC用来编码 QCIF(176xl44)，以12-16Kbps的速度，可以每秒传10帧的头肩图像。使用可变形的人脸模型和可降维子空间的方法，MBC也已经在面部的图像/视频压缩中被提出。MBC和OBC压缩效率较高但只能用于头部模型编码。目前，还有一些结合2D网格模型和3D模型的方法已被提出，其中脸部区域用3D模型编码，剩下的头肩的区域采用一个可变形的2D网格进行编码。3D人脸模型提高人脸区域的重建质量，但与二维网格兼容困难，同时模型也需要定义和初始化。另外，如果没有不断地更新纹理，一个粗糙的网格不能提供一个令人满意的纹理重建，会导致系统需要一个更高的比特率来传输图像。
[0006] 为了克服OBC和MBC编码方法的局限性，实现低的比特速率传输较高质量的视频，我们提出了一种针对头肩的部分的基于对象和模型的低比特率混合编码方法 (Model-and-〇bject based Coding，M0BC)。这种方法对人脸区域进行2D可变形模型自动训练，然后编码；对观察者不感兴趣的头肩区域，我们采用一个自动初始化的2D网格编码，这样2D人脸模型就可以无缝地嵌入网格形成整幅图像。这种方法更加实用，它可以在提高编码效率的同时，有较好的Q〇E。

【发明内容】
：
[0007] 针对现有技术的缺陷，本发明的目的在于提供一种在低比特率情况下的头肩视频编码传输。该系统主要进行头部人脸模型参数和网格顶点运动向量的参数传输，相对于传输整个头肩视频的数据，大大减少了传输中所需的数据量，从而实现了在低比特率情况下的视频传输，大大地增加了视频通话、视频会议的在无线多媒体通信中的应用范围，使得视频通话和视频会议可以更加普遍地应用到实际生活中。
[0008] 本发明中方法涉及到的步骤如下：先将训练好的主动外观AAM模型在发送端和接收端共享，在发送端进行头肩网格初始化，将对象网格和对象纹理经信道传输到接收端共享；进行人脸视频通话时，只需要传输主动外观AAM模型参数和网格顶点运动向量，不需要传输整个视频的数据量，从而实现低比特率的情况下的头肩视频编码传输。
[0009] 本发明提出的方法，其特征在于，是在由通信各方的移动设备借助基站构成的、供低比特率视频通话用的移动视频通信系统中依次按以下步骤实现的：
[0010] 视频图像发送端，以下简称发送端，依次执行以下步骤：
[0011] 步骤（1)，获取发送方的第一帧人脸视频，用Regularized Landmark Mean-Shift，简称RLMS的正则化的人脸关键坐标点定位方法进行人脸定位，得到估计的人脸关键坐标点位置Ii1= (Xl，yi)的最小边缘，称为脸矩形，X，y为人脸视频图像中关键坐标点的位置，i为关键坐标点的序号，总数共68个，h为坐标点，见"Deformable Model Fitting by Regularized Landmark Mean-Shift'，，Jason M. Saragih (2011)；
[0012] 步骤（2)，根据步骤（I)得到的脸矩形估计涵盖头部的头矩形和涵盖肩部的肩矩形：
[0013] 步骤（2. 1)，估计头矩形：
[0014] 将所述脸矩形的上缘向上提高一个脸矩形的高度，并将所述脸矩形的左缘和右缘各向左、右扩展一个所述脸矩形的宽度的一半，得到所述头矩形，
[0015] 步骤（2. 2)，估计肩矩形：
[0016] 以所述脸矩形的下缘为上缘，所述第一帧视频图像的下缘为下缘，并将所述头矩形的左缘和右缘各自向左、右两个方向扩展所述脸矩形宽度的一半，得到肩矩形，
[0017] 所述头矩形和肩矩形视为头肩可能存在的区域，
[0018] 步骤（3)，利用基于LO梯度最小化的图像平滑方法对所述第一帧视频图像，简称图像，进行平滑滤波，
[0019] 步骤（4)，以所述头肩可能存在的区域为初始区域，用Grabcut图像分割算法找到头肩区域的边界，同时，对所述图像进行JPEG2000压缩，得到对象纹理；
[0020] 步骤（5)，构建步骤（4)得到的所述头肩区域的三角形密集网格：
[0021] 步骤（5. 1)，以步骤（4)得到的所述头肩区域中的每一个像素点作为一个三角形网格的顶点，使用Delaunay算法对所述头肩区域进行三角剖分，生成密集的三角网格，
[0022] 步骤（5. 2)，用一个矩阵Tnx3表示所述的三角形密集网格，简称网格，其中：
[0023] N为顶点数，用顶点的坐标位置向量m = ((X1, Y1)，…，（xn，yn)，…，（xN，y N)}表示，在数值上N等于所述矩阵T的行数，
[0024] 每一行η的三个整数{a，b，c}代表序号为a，b，c的三个顶点在所述网格中组成一个子三角形，η = 1，2, · ·，N，
[0025] 步骤（6)，对所述网格进行网格迭代简化，使最终的网格顶点数少于100个：
[0026] 步骤（6. 1)，将所述网格中所有顶点标记为可以删除的顶点，
[0027] 步骤（6. 2)，网格边界上的顶点的简化：
[0028] 步骤（6.2. 1)，对于所述网格边界上相邻的任意三个点，按下式求得从中间一点 (Xi, yj到其余两点（Xi 1，yi 1)和（xi+i，yi+i)连成的直线y = kx+b的垂直距离d :
[0030] 步骤（6. 2. 2)，判断d是否彡1 :
[0031] 若：d彡1，且所述点（Xl，yi)标记为可以删除的顶点，则从所述网格中把所述点 (Xl，yi)删去，并将在所述网格中所有与所述点（Xl，yi)相连的其它所述网格顶点标记为不允许删除的点，
[0032] 若：d<l，则保留，
[0033] 步骤（6. 2. 3)，从网格边界上任选一点作为所述中间点开始

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陶晓明;卢继川;李扬;葛宁;陆建华;
技术所有人：清华大学;
我是此专利的发明人

上一篇：实现终端中水波纹模拟的方法和装置的制造方法
上一篇：差分像运动大气相干参数测试中的双像点质心提取方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。