基于口型识别的视频编排方法

文档序号：6551911阅读：248来源：国知局

基于口型识别的视频编排方法
【专利摘要】本发明公开了一种基于口型识别的视频编排方法。本发明根据彩色图像中色调(H)、饱和度(S)、亮度(V)分量在唇色和肤色区域分布的差异，选择3个颜色特征向量，利用Fisher分类器分类并阈值分割后的二值图像进行滤波和区域连通处理；将嘴唇特征与素材库中动画图片嘴唇特征相匹配；最后通过图像插值合成两帧之间过渡图像，以实现视频的自动编排。本发明合理选择HSV颜色空间中的颜色信息构建Fisher分类器，从而获得更多的信息量对唇色和肤色区域进行分割，增强了在复杂环境下嘴部匹配特征提取的可靠性和自适应性。并且，采用图像插值技术，生成两幅匹配视频帧画面之间的过渡图像，增强了视频编排的灵敏度与可观赏性，使视频内容更流畅与完整。
【专利说明】基于口型识别的视频编排方法

【技术领域】
[0001] 本发明涉及图像处理以及计算机视觉领域。具体来说，通过对面部嘴唇进行分割，提取匹配特征，从而对输出图像进行重新编排，达到输出图像嘴部运动与实际检测人物嘴部运动相一致的效果。

【背景技术】
[0002] 随着图像处理技术以及视频编排技术的发展，研究者将图像分割技术应用到视频画面编排中，为观众提供了更真实生动的观赏体验。
[0003] 在动画视频中，动画人物需要与真实人类高度协调一致，无论是面部表情，肢体动作抑或是发声方式。其中，动画人物发声时的口型动作，也需要与真实人类相一致，而不是简单的张开闭合。传统的制作方法，以普通话为例，根据其声母、韵母的发声方式，分别总结出与26个字母相对应的嘴唇动作特征，再按照各自特征进行嘴唇模型的绘制。这种方式确保了动画人物发声时嘴部动作与发声的高度一致，十分逼真。但是，这种方式重复作业量大，即使是相同场景相同人物相同发音，只要时间不同，都需要重新绘制。再加上观众对嘴部动作的区分度主要表现在嘴唇的张开闭合尺度上，对其向两侧拉伸情况，内部舌头运动等要求不高，因此本发明引入嘴唇分割技术来实现视频编排，在保证逼真度的基础上，提高视频画面的反复利用，大大提升了工作效率，降低了资源浪费。
[0004] 图像分割就是把图像分成若干个特定的、具有独特性质的区域，并提出感兴趣目标的过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分为以下几类：基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。图像分割后提取出的目标可以用于目标跟踪、图像搜索、图像语义识别等多个领域。
[0005] 目前，嘴唇分割技术主要分为2类：一类是基于灰度图像的方法；而另一类是基于彩色图像的方法。前者比较常用的是基于Snake模型的嘴部边缘提取算法，但其计算复杂度高，容易受到嘴部周围胡须组织的干扰，且在光照变化的情况下，常造成嘴部边缘缺失和梯度较弱的缺陷。后者由于彩色图像能够提供更丰富、全面的信息，已越来越受到人们的重视。如Alan等提出利用CIELAB颜色空间和模糊聚类的方法对嘴唇区域进行分割；张志文等利用直方图分析R、G、B色度分量在肤色和唇色中的分布特性，提供了一种唇部检测算法。但是，它们仅使用色度差异颜色特征向量，其适应能力和鲁棒性均较差。此外，视频编排领域对实时性要求较高，输出画面稍有延时即会造成不好的观赏体验。
[0006] 基于上述情况，亟需一种算法简单，实时性强、准确性高的嘴唇分割技术用于视频编排中。

【发明内容】

[0007]本发明目的在于解决以上问题，提供了一种基于口型识别的视频编排方法，提高嘴唇检测的自适应性和鲁棒性，满足视频编排对实时性的要求。方法根据彩色图像中色调 (Η)、饱和度（S)、亮度（V)分量在唇色和肤色区域分布的差异，选择3个颜色特征向量，利用Fisher分类器进行阈值分类；将分类得到的二值化图像进行滤波和区域连通处理，通过设置flag值确定嘴唇边界，从而提取嘴唇匹配特征；然后将嘴唇匹配特征值与素材库中动物视频图像嘴唇特征相匹配；最后通过图像插值技术实现视频图像自动编排。
[0008]本申请提供的基于口型识别的视频编排方法，包括步骤：（D采集原始图像；(2) 获取视频信息的当前帧；（3)人脸检测；(4)根据先验知识框选出嘴唇感兴趣区域（ROI); (5)在ROI基础上进行嘴唇区域检测；( 6)确定嘴唇边界并确定检测图像与视频编排图像的匹配特征；(7)采用图像插值技术，插值出两幅图像中间的过渡图像并输出，以此实现视频自动编排；其中嘴唇区域检测进一步包括创建基于HSV空间模型的图像，运用基于HSV颜色空间模型来训练Fisher分类器，基于训练好的Fisher分类器对ROI逐像素进行阈值分类。 [0009]所述的视频编排方法，其中原始图像采集是利用direct show下的CCameraDS类进行的，采集步骤还包括获取摄像头数目，并为系统分配相应内存。
[0010]所述的视频编排方法，在采集原始图像的步骤之后，还包括获取所有摄像头名称，并通过窗口显示，以及通过设置错误返回，检测摄像头是否正常工作的步骤。
[0011]所述的视频编排方法，在上述检测摄像头的步骤后还包括打开第一个摄像头，弹出属性选择窗口，进行视频编码以及视频压缩率设置的步骤。
[0012]所述的视频编排方法，在获取视频信息的当前帧的步骤之后，还包括创建 CvVideoWriter对象，为其分配内存空间，以及保存视频编码的步骤；保存的文件大小为摄像头视频大小，帧频率为32帧/秒。
[0013] 所述的视频编排方法，在人脸检测中调入detect_and_draw()函数，具体步骤为：首先创建单通道、8位数灰度图像，图像的宽度、高度与待检测图像一致；再创建缩放比例为原图的1/1.3倍的小图smalljmg，在创建小图的过程中，引入cvRoundO函数，实现对一个double型数值的四舍五入，并输出整数型数值；将待检测图像转换为灰度图，调用cvResizeO函数，利用双线性插值法，经过缩放变换，将待检测图像所生成灰度图匹配成小图small_img ;对小图small jmg进行均衡化处理，增强图像亮度以及对比度；创建 cvHaarDetectObjects 序列检测人脸。
[0014] 所述的视频编排方法，调用OnSkincolorDetectionO函数在R0I基础上进行嘴唇区域检测，嘴唇区域检测还包括创建肤色图cvCreateO。
[0015] 所述的视频编排方法，在利用Fisher分类器进行阈值分类后，还包括对图像进行二值化的步骤，然后对二值化图像进行平滑滤波以及膨胀处理，获取二值化图像最大连通域的步骤，以更好地去除椒盐噪声的干扰。
[0016] 所述的视频编排方法，其中确定嘴唇边界并确定图像匹配特征的步骤，具体包括：遍历二值化图像，检测上嘴唇上边缘以及下嘴唇下边缘像素点，提取高度差作为图像匹配特征，并与素材库中视频画面进行匹配，作为图像插值前后帧。
[0017] 所述的视频编排方法，其中确定嘴唇边界的步骤具体为：首先定义标记变量 flag，并赋初值为0,用以标识边缘像素点；由左上角至右下角按列逐个遍历每个像素点；若像素值由255变为0则flag置为1，由此确定上边缘点以及左边缘点；若像素值由〇变为255则flag置为0,由此确定下边缘点以及右边缘点。
[0018] 本发明对比现有技术，具有如下有益效果：本发明基于唇色和肤色分布差异，考虑周围关系干扰，合理选择HSV颜色空间中的颜色信息构建Fisher分类器，从而获得更多的信息量，以对唇色和肤色区域进行分割，增强了在复杂环境下嘴唇特征匹配的自适应性和鲁棒性；以及采用图像插值技术，生成两幅匹配视频图像之间的过渡图像，增强了视频编排的灵敏度与可观赏性，使视频内容播放更流畅与完整。

【专利附图】

【附图说明】
[0019] 下面结合附图对本发明的【具体实施方式】作进一步详细地说明，其中：
[0020] 图1示例性的示出了本发明的整体流程；
[0021] 图2-a示例性的示出了人脸检测并确定R0I感兴趣区域算法流程图；
[0022] 图2-b示例性的示出了嘴部感兴趣区域；
[0023] 图3示例性的示出了利用Fisher分类器进行唇色与肤色分类，并二值化检测图像算法流程图；
[0024]图4_a示例性的示出了嘴唇边界确定算法流程图；
[0025]图4_b示例性的示出了获取最大连通域前后的二值化图像效果比对图；
[0026]图5-a示例性的示出了根据匹配特征进行视频图像输出算法流程图；
[0027]图5-b示例性的示出了树懒运动视频提取画面；
[0028]图6-a示例性的示出了通过图像插值技术合成过渡图像并合成最终效果算法流程图；
[0029] 图6_b示例性的示出了单特征线对的图像变形；
[0030] 图6-c示例性的示出了生成过渡图像效果对比图；
[0031]图7示例性的示出了本发明在视频编排中的输出效果展示。

【具体实施方式】
[0032] 下面结合附图和实施例对本发明作进一步的描述。
[0033] 本发明提供了一种基于HSV颜色空间Fisher分类器的嘴唇分割算法并利用其进行视频编排的方法，图1所示为整体流程图。
[0034] 本实施例中，在系统启动以后，首先在步骤S101中采用direct show的CCameraDS 类进行原始图像采集，获取摄像头数目，并为系统分配相应内存空间。若存在摄像头，则进入步骤S102打开第一个摄像头，弹出属性选择窗口，进行视频编码以及视频压缩率设置；否则，若摄像头数目为〇，则错误返回，程序终止。
[0035] 在步骤S103中，首先获取摄像头获得视频信息的当前帧，创建cvVideoWriter对象并分配内存空间，保存文件名为"camera, avi"，文件大小为摄像头视频大小，帧率为32帧 /秒。然后判断视频帧是否写入成功，若成功则返回1，并将当前帧作为待检测变量进入步骤 S104。
[0036] 在步骤S104中调用detect_and_draw()函数进行人脸检测，并框选感兴趣区域。其中通过训练和加载级联"haarcascade_frontalface_alt2x. ml〃分类器进行人脸检测，再根据先验知识，在人脸检测基础上，在检测图像面部区域框选出嘴唇分割感兴趣区域 R0I，并通过cvSetlmageROI ()设置选框属性。
[0037] 随后，在步骤S105中，以R0I为待检测图像，调用OnSkincolorDetectionO函数进行嘴唇分割，并生成二值化图像。这里运用基于HSV颜色空间模型来训练Fisher分类器，能更好的区分肤色和唇色区域。
[0038]生二值化图像确定后，进入步骤S106,确定嘴唇边界，并通过上嘴唇上边缘与下嘴唇下边缘高度差，确定检测图像与视频编排图像的匹配特征。在步骤S107中，对手动标记好的视频编排图像进行查找选择并输出。
[0039]最后在步骤S108中，将在步骤Sl〇7中获得的匹配图像作为前后插值图像帧，利用图像插值算法生成中间过渡图像并输出，完成视频图像的自动编排。
[0040]图2-a示例性的示出了人脸检测并确定R0I感兴趣区域算法流程图。其中，步骤S201读取当前视频帧，步骤S2〇la将待检测图像转化为灰度图，步骤S201b调用 cvResize()函数，利用双线性插值法，经过缩放变换，将待检测图像所生成灰度图按原比例匹配为1/1. 3倍的小图small jmg。随后在步骤S202中，对小图进行均衡化处理，增强图像売度以及对比度。步骤S2〇3中首先载入'Tiaarcascade_fromalface_alt2x.ml"分类器，再创建cvHaarDetectObjects序列进行人脸检测：
[0041] CvSeq*objects = cvHaarDetectObjects(small_img，cascade, storage，1· 1，2， 0, cvSize(30,30))〇
[0042] 其中，cascade为分类器级联的内部标识形式；storage用来存储检测到的一序列候选目标矩形的内存区域；"1. 1"用来设置在前后两次相继扫描中搜索窗口的比例系数，具体表示将搜索窗口依次扩大1〇%;"2"构成检测目标的相邻矩形的最小个数（缺省-1)，如果组成检测目标的小矩形的个数和小于"min_neighbors-1"则都会被排除，若min_ neighbors为0,则函数不做任何操作就返回所有的被检测候选矩形框，这种设定值一般用在用户自定义对检测结果的组合程序上；"0"代表操作方式，当前唯一可以定义的操作方式是CV_HAAR_D0_CANNY_PRUNING，函数利用Canny边缘检测器来排除一些边缘很少或者很多的图像区域，因为这样的区域一般不含被检测目标，人脸检测中通过设定阈值使用了这种方法，并提高了检测速度；cvSizeO函数用来设置检测窗口的最小尺寸，缺省的情况下被设为分类器训练时采用的样本尺寸。
[0043] 步骤S204中，假定脸部图像的坐标原点A在左上角，根据嘴部区域在人脸几何分布上的先验知识，在人脸检测的基础上，将式（1)确定的检测区域EFGH作为嘴部的感兴趣区域，并将EFHG区域用绿色框框选出来，如图2-b所示。
[0044]

【权利要求】
1. 基于口型识别的视频编排方法，其特征在于，包括以下步骤：（1)采集原始图像；（2) 获取视频信息的当前帧；（3)人脸检测；（4)根据先验知识框选出嘴唇感兴趣区域（ROI); (5)在ROI基础上进行嘴唇区域检测；(6)确定嘴唇边界并确定检测图像与视频编排图像的匹配特征；（7)采用图像插值技术，插值出两幅图像中间的过渡图像并输出，以此实现视频自动编排；其中嘴唇区域检测进一步包括创建基于HSV空间模型的图像，运用基于HSV颜色空间模型来训练Fisher分类器，基于训练好的Fisher分类器对ROI逐像素进行阈值分类。
2. 根据权利要求1所述的视频编排方法，其特征在于，图像采集步骤还包括获取摄像头数目，并为系统分配相应内存。
3. 根据权利要求1所述的视频编排方法，其特征在于，在采集原始图像的步骤之后，还包括获取所有摄像头名称，并通过窗口显示，通过设置错误返回，检测摄像头是否正常工作的步骤。
4. 根据权利要求3所述的视频编排方法，其特征在于，在检测摄像头的步骤之后，还包括打开第一个摄像头，弹出属性选择窗口，进行视频编码以及视频压缩率设置的步骤。
5. 根据权利要求1所述的视频编排方法，其特征在于，在获取视频信息的当前帧的步骤之后，还包括创建CvVideoWriter对象，为其分配内存空间，以及保存视频编码的步骤；保存的文件大小为摄像头视频大小，帧频率为32帧/秒。
6. 根据权利要求1所述的视频编排方法，其特征在于，人脸检测中调入deteCt_and_ draw〇函数，人脸检测的具体步骤为：首先创建单通道、8位数灰度图像，图像的宽度、高度与待检测图像一致；再创建缩放比例为原图的1/1. 3倍的小图small_img ;将待检测图像转换为灰度图，调用cvResizeO函数，利用双线性插值法，经过缩放变换，将待检测图像所生成灰度图匹配成小图small_img ;对小图small_img进行均衡化处理，增强图像亮度以及对比度；仓ll建cvHaarDetectObjects序列检测人脸。
7. 根据权利要求1所述的视频编排方法，其特征在于，嘴唇区域检测还包括创建肤色图 cvCreate ()。
8. 根据权利要求1所述的视频编排方法，其特征在于，在利用Fisher分类器进行阈值分类后，对图像进行二值化，再对二值化图像进行平滑滤波以及膨胀处理，获取二值化图像最大连通域。
9. 根据权利要求1所述的视频编排方法，其特征在于，确定嘴唇边界并确定图像匹配特征具体包括步骤：遍历二值化图像，检测上嘴唇上边缘以及下嘴唇下边缘像素点，提取高度差作为图像匹配特征，并与素材库中视频画面进行匹配，作为图像插值前后帧。
10. 根据权利要求1所述的视频编排方法，其特征在于，确定嘴唇边界的步骤具体为：首先定义标记变量flag，并赋初值为0,用以标识边缘像素点；由左上角至右下角按列逐个遍历每个像素点；若像素值由255变为0则flag置为1,由此确定上边缘点以及左边缘点；若像素值由〇变为255则flag置为0,由此确定下边缘点以及右边缘点。
【文档编号】G06K9/46GK104298961SQ201410310093
【公开日】2015年1月21日申请日期:2014年6月30日优先权日:2014年6月30日
【发明者】徐品, 蓝善祯, 张岳, 王爽, 张宜春申请人:中国传媒大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐品;蓝善祯;张岳;王爽;张宜春
技术所有人：中国传媒大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。