一种基于视频解译的交互式视频风格化渲染方法

文档序号：6567224阅读：126来源：国知局

专利名称：一种基于视频解译的交互式视频风格化渲染方法
技术领域：
本发明是一种基于视频解译的交互式视频风格化渲染方法，属于基于视频解译的交互式视频风格化渲染方法的改造技术。
背景技术：
随着计算机、数码相机和数码摄像机大范围的普及，人们对于影音娱乐方面的制作需求越来越高。随之引发的是家庭数字娱乐领域的蓬勃发展。越来越多的人开始尝试当起了业余“导演”，热衷于制作和编辑各种的普通写实视频。最近几年，各种风格化的视频逐步被人们所接受，并成为流行元素，尤其是在动画视频和网游制作等方面。例如手工绘制的油画短片《老人与海》和水墨画视频《小蝌蚪找妈妈》等都引起人们的广泛专注，前者还获得奥斯卡短片等一系列奖项。视频风格化渲染不仅需要专业技术，而且还需要大量人力财力支撑，传统的视频风格化技术是通过逐帧绘制方法来实现风格化渲染。虽然以这种制作模式完成的作品每帧图像的视觉效果可以手工控制，但连续播放则由于缺少帧间的一致性而导致了视频画面存在较大的抖动现象，而且这些方法制作周期长、成本高，不利于批量制作。比如，上文提到的《老人与海》的油画短片，虽然时长只有22分钟，可是制作周期却长达近3年之久。

发明内容
本发明的目的在于考虑上述问题而提供一种制作周期短、成本低，利于批量制作的基于视频解译的交互式视频风格化渲染方法。本发明的技术方案是本发明基于视频解译的交互式视频风格化渲染方法，包括有交互式视频语义分割模块、视频风格化模块，交互式视频语义分割模块的分割方法包括如下步骤1)关键帧图像的交互式分割和自动识别；2)关键帧之间稠密特征点的匹配；3)区域竞争分割算法；视频风格化模块的风格化方法包括如下步骤4)基于语义解析的关键帧非真实感绘制；5)序列帧的笔触传播方法；6)用于防抖的阻尼笔刷系统。对视频的风格化将依次使用这两个模块。即首使用交互式语义分割模块对视频进行语义分割。再使用视频风格化模块对分割后的视频进行风格化渲染。上述步骤1)的关键帧图像的交互式分割和自动识别方法如下将分割的语义区域根据其不同的材质属性将他们分成了十二类，包括天空/云、山脉/陆地，岩石/建筑物、树叶/树丛、头发/毛发、花/水果、皮肤/皮革、树干/树枝、抽象化背景、木头/塑料、水、衣服；
实际操作中，采用了纹理、颜色分布、位置信息这三个主要特征进行训练和识别，给定一个区域图像X，定义其类别C的条件概率为IogP(χ|Χ, θ ) =ΣX ； θ ψ) + π (Ci，X ； θ π) + λ (Ci，X ； θ J-logZ( θ，Χ) ㈩式中后四项分别是纹理势能函数，颜色势能函数，位置势能函数和归一化项。纹理势能函数定义为Wi(Ci，Χ; θ ψ) = IogP (Ci IX, i)，P(Ci|X，i)是由 Boost 分类器给定的一个归一化的分布函数；颜色势能函数定义为π (ci;X； θ J = log Σ ken(Ci，k)P(k|Xi)，用 CIELab颜色空间中的高斯混合模型(Gaussian Mixture Models =GMMs)来表示颜色模型，对给定图像中的一个像素颜色X，其条件概率为Ph.':: u.其中“和乙k分别表示第k个颜色聚类的均值和方差；位置势能函数定义为λ (Ci，χ； θ λ) = loge A(Ci, i)，相对于前面两个势能函数而言，位置势能函数相对较弱，在这个函数定义中，图像像素的类别标号仅仅与在图像中的绝对位置相关；利用此方法针对12类材质进行训练，然后采用上面的公式*计算给定一个图像区域中每个像素的对于各个类别的概率，最后统计区域中所有像素，采用投票的方式决定每个区域的类别；在风格化渲染过程中，画刷的选择由物体区域识别出的材质决定，为实现自动渲染打下了基础。上述步骤2、的关键帧之间稠密特征点的匹配方法如下在得到关键帧上的语义信息之后，综合线描特征，纹理和颜色混合图像模板特征，为图像匹配问题提供丰富的特征集合与表达；11)线描特征由Gabor基表示为Fsk(Ii) = I |<υ_,χ,0>| |2+| |<Ii，Gsin,x,0>| |2，Gsin,x,0 和 Gc。s,x,0 分别表示在位置χ处方向为θ的正弦和余弦Gabor基。其特征概率分布表示为
Jt^ 1 S I' JtS μ Λ ^3 IJLk1·Il
Γ 1 ι ■ ··^ * ' h {' t "ih t · ——q:TtT— 二 . ρτ^Φ. Λ 11 11' .iMJiΛ- ) 0表示参数θ i，hsk是一个sigmoid函数，Ζ: .，:ι是标准化约束。这样模型将鼓励比背景分布具有更强相应的边缘；12)纹理特征用一个简化的梯度方向直方图(HOG)来对纹理特征建模，6个特征维度分别表示不同的梯度方向；表示HOG的第j个方向，而F=V.)表示第i个特征Ii对应的描述子；h:::F二J ；=—在所有正样本上的均值。本发明将特征的概率模型表示为是参数Θ”可以看出模型鼓励响应相对比较集中的特征图像块的集合；13)颜色特征是以简单的像素亮度作为描述，Ff· = 1;； >)是在位置χ上的滤波器。本发明量化像素亮度值到每个统计区间，那么模型可以简化为Pl B ■ O ι 1‘ T' '^^^expf) 4 1 丨[F^I1)!:通过组合相似的图像小特征，就可以获到局部具有强判别力的特征组合，首先对图像进行过分割，得到图像中一些细小的图像块，从小图像块中提取出能描述线描，纹理，颜色的统计特征，为了能够有效获得特征组合，采用迭代的区域增长和模型学习算法，通过不断更新特征模型，迭代增长特征组合区域，最终得到局部具有强判别力的特征组合；在此表达基础上，把运动目标在时域和空域上的匹配问题建模为在图表示上的分层图匹配框架，提取的混合图像模板特征作为图节点，在帧之间构建图结构，图节点之间的边连接关系可以基于特征之间的相似度、空间位置，以及特征所属物体类型来定义；以Is，It表示原图和目标图，U、V分别表示Is，It中混合模板特征集合，对每个特征点u e U'，有两个标记层次标记I(u) e {1，2，...，K}和匹配候选标记如、"V · P)。以原图中每个特征点匹配度较高的候选集C，建立图结构的顶点集合，以E = E+U Ε—构建边集合。用负边表示连接的候选者相互排斥，且定义其“排斥力”为
权利要求
1.一种基于视频解译的交互式视频风格化渲染方法，其特征在于包括有交互式视频语义分割模块、视频风格化模块。交互式视频语义分割模块的分割方法包括如下步骤.1)关键帧图像的交互式分割和自动识别；.2)关键帧之间稠密特征点的匹配；.3)区域竞争分割；视频风格化模块的风格化方法包括如下步骤.1)基于语义解析的关键帧非真实感绘制；.2)序列帧的笔触传播；.3)用防抖的阻尼笔刷系统处理。对视频的风格化将依次使用交互式视频语义分割模块与视频风格化模块这两个模块，即先使用交互式视频语义分割模块对视频进行语义分割，再使用视频风格化模块对分割后的视频进行风格化渲染。
2.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法，其特征在于上述步骤的关键帧图像的交互式分割和自动识别方法如下将分割的语义区域根据其不同的材质属性将他们分成了十二类，包括天空/云、山脉/ 陆地，岩石/建筑物、树叶/树丛、头发/毛发、花/水果、皮肤/皮革、树干/树枝、抽象化背景、木头/塑料、水、衣服；实际操作中，采用了纹理、颜色分布、位置信息这三个主要特征进行训练和识别，给定一个区域图像X，定义其类别c的条件概率为
3.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法，其特征在于上述步骤幻的关键帧之间稠密特征点的匹配方法如下在得到关键帧上的语义信息之后，综合线描特征，纹理和颜色混合图像模板特征，为图像匹配问题提供丰富的特征集合与表达；11)线描特征由Gabor基表示为Fsk(Ii) = I Kli, Gcos,χ, θ> |2+| <Ii; Gsin,x, 0，Gi 和6。分别表示在位置 χ 处方向为的正弦和余弦Gabor基。其特征概率分布表示为
4.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法，其特征在于上述步骤3)的区域竞争分割方法如下在得到帧间稳定的匹配关系的基础上，通过挖掘区域竞争机制的在视频分割中的优势，利用分层图结构的图像匹配算法，可以确定前一帧和当前帧特征之间的匹配关系，这样前一帧的语义信息就传播到当前帧中，然后根据各匹配区域的特征信息利用区域竞争分割算法，将当前帧分割为多个语义区域；给定图像I，相应的图像分割解定义如下 W = ((R1, R2,... Rn), (θ” θ2, ... , ΘΝ), (I1, I2,... , ΙΝ)}其中，Ri表示分割出的具有同一特性的区域，R:. — P- =。L'；=-. = Ui表示区域Ri 相应的特征概率分布模型的参数，Ii表示区域氏相应的标记；根据前后帧中特征的匹配关系，可以确定分割区域个数N。设各区域所对应的特征小区域集合S = (S1, S2, ... ,、}，对于各区域氏，根据特征所占有的小区域Si估计出模型的初始参数θ i，得到初始后验概率P ( θ i 11 (χ，y))。根据MDL原则，将后验概率转化为求解能量函数最小问题，得到
5.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法，其特征在于上述视频风格化模块(2)的风格化方法步骤4)视频风格化以交互式的视频语义分割模块为基础，画刷的选择仅由识别出的物体区域所对应的材质决定；上述画刷都是基于专业画家在纸上绘制大量典型笔触，然后进行扫描和参数化，最后建立笔触库，对于每一个图像区域绘制，首先采用大刷子进行打底，然后逐渐减少刷子尺寸和不透明度以对物体的细节部分进行精细刻画，绘制时，采用先边缘后内部的绘制策略每一层图像的绘制本发明首先从边缘开始，沿着线描的边缘首先进行绘制，并根据流场对笔刷进行对齐；在视频渲染中，为了保证画刷在时域上的连续性和稳定性，采用薄板样条插值技术来进行笔触的传播，另外，笔触在传播过程中，还通过计算笔触区域的面积，设计了笔触删减和增添机制；并利用模拟阻尼弹簧系统，降低渲染结果的“抖动”效应。
6.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法，其特征在于上述视频风格化模块(2)的风格化方法步骤5)的基于语义解析的关键帧非真实感绘制方法如下如何设计不同艺术风格笔触模型是视频风格化关注的焦点之一，不同艺术表现形式的作品，在笔触表达上各具特色，在视频风格化中的基本绘制策略是基于图像内容选取合适笔触进行绘制，笔触库是基于专业画家在纸上绘制大量典型笔触，然后进行扫描和参数化，最后完成建立的，对于将要绘制的画刷t包含如下信息笔刷的类别信息Ia ,摆放区域范围 Λλ ,颜色映射Ca，透明度场的aa，高度以及控制点PrJ,即有
7.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法，其特征在于上述视频风格化模块(2)的风格化方法步骤5)序列帧的笔触传播方法如下非关键帧的渲染通过关键帧的渲染结果“传播”得到，传播的依据是解译区域的时空对应关系，在传播过程中，随着解译区域的变化越来越大，笔触可能会逐渐泄露到区域外部，而同时区域中会出现为被渲染的空隙，所以，在传播笔触图中，必须同时考虑笔触的添加与删减机制，否则，渲染结果会出现的抖动现象；笔触的传播、添加与删减机制如下笔触传播令表示视频t时刻关键帧的某个解译区域，R.:〔t表亍在t+Ι时刻对应的区域，它们的图像区域分别以、 “表示；以、P:办表示、&在时域上的稠密匹配点(在视.Λ,. 11, [Χ频解译过程中计算出)；假设R:〔t表可以通过:表的非刚性变换得到；当笔触传播时，本发明希望上的匹配点能够映射到第t+Ι帧中新的图像区域4 ^的匹配点^t ,基于以上考虑，本发明选用薄板样条插值模型(Thin-plate Spline, TPS)，它可以把中关键点映射到的匹配点^0 ,而对于中其余非关键点的像素点，TPS通过最小化能量函数，使的像素网格发生弹性(非刚性)变形而扭曲；笔触删减由于画刷在视频中传播后或发生了遮挡关系或者笔触传播帧数太多时，某些画刷所对应的区域会变得越来越小，因此，本发明要剔除这些画刷当它们对应的区域面积小于某个给定的阈值时，同样，当传播的画刷落在对应的区域边界外时也要删除；笔触增添，当出现新的语义区域或已存在的语义区域变得越来越大时(比如衣服的展开)，本发明必须增加新的画笔来覆盖这些新出现的区域，而且为了填充画笔间的空隙，本发明只需简单地变动相邻画笔的大小以及位置即可，如果未被画刷覆盖的区域越变越大并超过了某个给定的阈值时，系统会自动地创建新的画刷来覆盖它；尽管如此，本发明仍然不可能在空隙第一次出现时立刻给它画上一笔；于是，本发明设置了相对来说比较高的阈值，并延迟渲染新出现的区域直到它们增长到足够大时；接着，本发明采用通用的画刷摆放算法来填充达到阈值的足够大的空隙，最后再反向地传播和变换这些新画刷去填充先前出现的但未渲染的空隙区域；向后填充画刷的过程能够避免频繁地变换画笔，同时又能把较小的零碎的一些画笔链接为较大的画笔，从而减少闪烁效应以及其他不合需要的人为造成的视觉效果；同样，由于本发明是在最底层添加新的画笔，所以它们是画在已经存在的画笔下面，这进一步减少了视觉上的闪烁效应。
8.根据权利要求1所述的基于视频解译的交互式视频风格化渲染方法，其特征在于上述视频风格化模块(2)的风格化方法步骤6)中用于防抖的阻尼笔刷系统如下对视频进行风格化渲染的最后一步是防抖操作，对时域和空域中相邻的画刷用弹簧进行连接，来模拟阻尼系统；通过最小化该系统的能量，就可以达到去除抖动的效果；对于t时刻的第i个画刷，本发明用A:, t = fx,,,表示其中心坐标和大小的几何属性，且将其初始值记为t ；阻尼笔刷系统的能量函数定义如下
9.根据权利要求8所述的基于视频解译的交互式视频风格化渲染方法，其特征在于上述》4 2,8 J A- — 1,1。
全文摘要
本发明是一种基于视频解译的交互式视频风格化渲染方法。包括有交互式视频语义分割模块、视频风格化模块,交互式视频语义分割模块的分割方法包括如下步骤1)关键帧图像的交互式分割和自动识别；2)关键帧之间稠密特征点的匹配；3)区域竞争分割;视频风格化模块的风格化方法包括如下步骤4)基于语义解析的关键帧非真实感绘制；5)序列帧的笔触传播方法；6)用于防抖的阻尼笔刷系统。本发明是一种制作周期短、成本低，利于批量制作的基于视频解译的交互式视频风格化渲染方法。
文档编号G06T13/00GK102542593SQ20111030205
公开日2012年7月4日申请日期2011年9月30日优先权日2011年9月30日
发明者刘树郁, 张新楠, 江波申请人:中山大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘树郁;张新楠;江波
技术所有人：中山大学
我是此专利的发明人

上一篇：一种医学图像目标区域勾画方法
上一篇：一种利用xbrl进行的企业数据存储的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。