会话视频中单摄像头眼神纠正方法

文档序号:9601138阅读:1303来源:国知局
会话视频中单摄像头眼神纠正方法
【技术领域】
[0001] 本发明涉及会话视频中的眼神校正技术领域,特别是在仅有单个普通摄像头情况 下的一种实现会话视频中的眼神纠正的方法。与传统的双摄像头图像合成方法,或者高成 本的深度摄像头方法进行眼神纠正的不同,本方法仅使用单个普通摄像头,利用现有的3D 模型实现眼神纠正,大大地减少了设备及算法复杂度和会话视频成本,从而提高了会话视 频的用户体验,有利于会话视频的推广和普及。
【背景技术】
[0002] 数字多媒体通信是当前通信技术众多领域中最具挑战性、发展最快、研究最活跃 的领域之一。自从二十世纪九十年代以来,从数字电视广播到无线多媒体通信等技术已在 世界各国陆续得到普遍应用。互联网的普及使得多媒体通信摆脱了电视的局限:Skype、 GoogleTalk等视频聊天软件的出现让人们可以通过电脑进行视频通话、远程会议等多媒 体通信。而今,随着智能手机的快速发展,移动终端上,例如Facetime和Tango等应用使得 多媒体通信在移动网络上普及,用户越来越多地期望得到方便、快捷、无所不在的多媒体通 信服务。
[0003] 互联网的普及和多媒体通信业务的发展带来了多媒体数据的急剧增长,对于现有 的移动网络提出了严峻挑战。其中,会话视频业务能够满足用户"不论身在何处,都能面对 面交流"的需要,其应用日益广泛。在如今众多视频业务中,会话视频通信占据愈发重要 的位置。PEW进行的统计研究表明,19%的美国用户曾经在线使用手机尝试过视频通话、聊 天、会议等会话视频服务,而40%的Skype通话都是视频通话。
[0004] 然而,在现有的会话视频系统中,比如Skype或者Facetime,一个重要的问题是缺 少与会者眼神的自然交互。它产生的主要原因是因为摄像头拍摄的方向和人眼注视的方向 不在同一条直线上,存在一个夹角。这样在交谈过程中,在已经注视的情况下,对方仍然感 觉不到对方正注视着自己,无法保证眼神的自然交流,从而大大地降低了用户体验。为了保 证眼神的自然交互,会话视频中需要进行眼神纠正,从而实现眼神交互。抛开纯审美学不 谈,眼神交流也是人们交流之间的不可或缺的组成部分。这个问题在高端的会话视频系统 中用特别的硬件设备是能解决的,但是因为其造价昂贵,很难进行推广和普及。
[0005]目前,已经有大量这方面的研究工作。眼神纠正需要知道图像的深度信息,在人脸 图像里,深度信息中包含了人脸上的每一点到摄像头的距离。眼神纠正问题可以看成是一 个新图像合成问题,合成的新图像能够很好的实现眼神交互。在眼神纠正中,图像上的每 个像素点会随着深度信息/距离的不同而进行不同的位移或者旋转,使其到达正确的位置 上。也就是说,缺少深度信息,而不使用其他辅助工具,单靠一幅普通的图像,是很难将眼神 纠正到正确的位置,实现眼神交互的效果。
[0006] 当前,进行眼神纠正的主要方法,总结起来分为两种,一种是多摄像头方法,另一 种是深度摄像头方法。多摄像头方法主要是利用在不同角度的两个摄像头同时拍摄一幅图 像,然后对这两幅图像进行一个图像合成来进行眼神纠正。深度摄像头方法主要是利用其 采集图像的深度信息,进行3D建模,然后旋转模型以达到眼神纠正。
[0007] 比较两种方法,使用多摄像头方法所需的设备复杂,在对图像预处理中需要摄像 头的标定和同步,使用的算法相对复杂一些,处理时间不能满足实时化视频的要求;而深度 摄像头价格昂贵,不利于会话视频的推广和普及。
[0008] 为了能够降低设备的复杂度,同时也能有较高的性价比,我们使用了一种能够同 时达到两方面效果的方法。该方法使用单个普通摄像头实现眼神纠正,在增强用户体验的 情况下,能够降低设备的复杂度,性价比更高,有利于会话视频的推广和普及。

【发明内容】

[0009] 针对现有技术的缺陷,本发明的目的是为了能够在会话视频中使用一个普通的摄 像头实现眼神校正,提高用户体验。该系统主要是利用人脸跟踪得到头部角度姿态,利用该 角度对现有人脸头部模型进行旋转从而达到眼神校正的目的,从而实现单个普通摄像头的 眼神纠正,大大增加了会话视频的推广和普及,使得会话视频更加普遍滴应用到实际生活 中。
[0010] 本发明的优点是用简单的设备解决了互联网视频通话和移动视频通话时的眼神 纠正问题,而且也包含了原图里的背景。
[0011] 本发明中方法涉及到的步骤如下:先由人脸跟踪得到视频图像的脸部特征点和 角度姿态,然后利用脸部特征点对头部3D模型进行变形,将其变行成跟视频图像中的脸部 形状基本一致,接着进行模型贴图,将视频图像通过3D渲染贴在模型上,利用角度姿态对 其进行3D旋转实现眼神校正得到校正后的模型图像,最后找出模型图像与原图像的脸部 最佳边缘,将模型图像中的最佳边缘的里面部分嵌合到原图像中,最终得到含有背景的并 进行眼神校正后的图像,完成眼神校正的全过程,见附图1、图2和图4。
[0012] 本发明提出的方法,其特征在于,它包含:Laplace网格变形,纹理贴图,姿态角度 旋转,最佳边缘化,其中:
[0013] Laplace网格变形,它的输入信息是人脸头部网格模型和通过人脸跟踪得出的脸 部特征点,输出变形后的网格模型;
[0014] 纹理贴图,它的输入端是网格模型经过映射后的2D点和网格模型的3D点,输出端 是含有图像的网格模型,即模型图像;
[0015] 姿态角度旋转,它的输入端是模型图像和人脸跟踪得到的角度姿态,输出端是经 过旋转校正以后的模型图像;
[0016] 最佳边缘化:它的输入端是校正以后的模型图像和原图像,输出端是最佳边缘化 以后的含有原图像背景的图像。
[0017] 会话视频中单摄像头眼神纠正方法,其特征在于所述的方法是按照以下步骤实现 的:
[0018] 1、手动从网格模型上找到人脸定位特征点所对应的位置序号,作为图像特征点在 网格模型中对应的点;
[0019] 2、输入三张图像,一张是会话者的人脸图像L,一张是眼睛在某位置正视摄像头 拍出的图像12,另一张是眼睛在相同位置看屏幕上某点时摄像头拍摄的图像I(即为需要纠 正的图像),分别对其进行人脸跟踪,得出图像L的脸部3d特征点,图像12的姿态3D向量, 图像I的姿态3D向量、尺度因子和位移向量;
[0020] 3、利用图像L的脸部3d特征点对网格模型进行变形;
[0021] 4、利用图像I的姿态向量得到旋转矩阵、尺度因子和位移向量,从而求出纹理映 射点,利用纹理映射点和图像I对变形后的网格模型进行映射纹理贴图;
[0022] 5、利用正视图像12的姿态3D向量,对贴图的网格模型进行脸部姿态角度旋转,实 现眼神纠正,并输出旋转后的网格模型图像Γ;
[0023] 6、计算出网格模型图像Γ和图像I的最佳匹配边缘,并将图像r边缘及其内部嵌 合至图像12,完成眼神纠正。
[0024] 其中,一直使用该网格模型,所以手动操作只要进行一次。手动从网格模型 上找到人脸定位特征点所对应的位置序号,作为图像特征点在网格模型中对应的点 { (f。,C。),· · ·,(f6S,C6S) },其中,(f。,· · ·,f6S)和(C。,· · ·,C6S)分别表示跟踪图像特征点和网 格模型上的点的序号;
[0025] 同时,在网格变形中,由于人脸定位算法得到的3D特征点仅与脸部形状有关,针 对同一个人只要一次网格变形。
[0026] 其中,网格模型变形模块是采用比较简单的Laplace网格变形方法,其方法步骤 如下:
[0027]用AAM模型的人脸定位方法,以下简称AAM定位,从图像中得到VpPi、(xDirection ,yDirection,zDirection)、scale,以及xT和yT。其中,Vi表示的 68 个 3D特征点,p;表示 与Vi对应的2D特
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1