基于图像语义注释的视频浓缩对象检索方法

文档序号:10687150阅读:163来源:国知局
基于图像语义注释的视频浓缩对象检索方法
【专利摘要】本发明公开一种基于图像语义注释的视频浓缩对象分类方法及方法。它是利用码本模型运动检测检测出运动对象,使用GrabCut分割出运动对象,然后通过分析对象的类型、颜色、运动特征,经约简后给予对象语义注释,这使得视频浓缩对象的检索条件更加丰富,提高了检索目标的效率。
【专利说明】基于图像语义注释的视频浓缩对象检索方法 所属技术领域
[0001] 本发明涉及一种视频浓缩方法,尤其涉及一种是基于图像语义注释的视频浓缩对 象检索方法。
【背景技术】
[0002] 目前,公知的视频浓缩对象检索可分为颜色、类型、运动方向,但是视频浓缩结果 中的对象颜色并不是单一的,运动方向也是多角度的,因此在组合条件和具体条件下检索 视频浓缩对象时,检索结果有遗漏和偏差。
[0003] CN104699810A中提出的目标分类,其中颜色分类为目标主色的RGB值。该方法只针 对目标的主色,而本方法基于目标颜色占比综合主色和次色来对目标的颜色分类。这样能 更精准地根据目标的颜色特征来检索出所要查找的目标。
[0004] 基于图像语义注释的视频浓缩对象分类方法它是利用码本模型运动检测检测出 运动对象,使用GrabCut分割出运动对象,然后通过分析对象的类型、颜色、运动特征,经约 简后给予对象语义注释,这使得视频浓缩对象的检索条件更加丰富,提高了检索目标的效 率。
[0005] 为了解决视频浓缩结果检索时分类不准确、存在遗漏的问题,本发明对视频浓缩 中的运动对象进行语义注释,丰富了对象特征的类别,支持更丰富的检索条件,使视频浓缩 技术应用更广泛。
[0006] -种基于语义图像检索的视频浓缩对象检索方法包括:运动目标的检测计算单 元;运动目标的提取计算单元;对于运动对象进行语义注释的计算单元;对运动对象进行语 义检索的计算单元。
[0007] 优选的,在上述的一种基于语义图像检索的视频浓缩对象检索方法,所述的对于 运动对象进行语义注释的计算单元:对运动对象外形特征分类的分类器计算单元;对运动 对象颜色特征分类的分类器计算单元;对运动对象运动特征分类的分类器计算单元。
[0008] 优选的,在上述的一种基于语义图像检索的视频浓缩对象检索方法,其特征在于, 包括如下步骤:
[0009] A.数据矢量量化编码;
[0010] B.码本模型运动检测;
[0011] C.对运动对象进行语义注释;
[0012] D.对运动对象进行语义检索。
[0013] 优选的,在上述的一种基于语义图像检索的视频浓缩对象检索方法,所述步骤A包 括如下步骤:
[0014] A1.对原始数据分割成大小相同的块,每个小块包含了许多像素;
[0015] A2.形成由左至右、由上而下地串成一个向量;
[0016] A3.收集具有代表性的向量制作出码本,找出其中跟此小块最接近的码字的索引 值代替此小块,组成一张索引表;将此作为原始数据压缩的结果。
[0017] 优选的,在上述的一种基于语义图像检索的视频浓缩对象检索方法,所述步骤B包 括如下步骤:
[0018] B1.在视频帧的每一个像素位置,为该位置建立了包含了一个或多个码字的码本; 视频序列中一个像素点的训练序列为乂={>1,^一別},该像素对应的码本为0={(31,(^--cl},每个码字Ci为二元组结构ci =〈vi,Ui>;v:i: = <R,G,B>,vi对应该码字的累积RGB三通道的 平均颜色值;U;二fi( I),其中各个参数分别表示码字对应像素的最小、最大亮度值,码 字出现的字数,码字在训练中未出现的最大间隔时间以及第一次和最后一次访问的时间;
[0019] B2.检测像素运动情况;对于t时刻待检测的像素,将当前像素值Xt与对应的码本 进行比较,如果没有相匹配的码字,则创建一个新的码字UL =〈I,I,l,t_l,t,t>添加到其码 本中;如果匹配的码字有多个,则根据颜色相似度和亮度范围确定匹配最好的码字并更新 码本,公式如下
[0020] itm = {min{ 1,1 t}, max{l,lt},fm + l, max{Ymft -
[0021] B3.当训练结束后,为每个码字Cl更新未访问的最大时间间隔1^为
[0022] T i=max{ T i,N_qi+pi_l}。
[0023] 优选的,在上述的一种基于语义图像检索的视频浓缩对象检索方法,所述的步骤C 包括如下分类:
[0024] C1:运动对象的外形特征注释;
[0025] C2:运动对象的颜色特征注释;
[0026] C3:运动对象的运动特征注释;
[0027]优选的,在上述的一种基于语义图像检索的视频浓缩对象检索方法,所述的C1运 动对象的外形特征注释,选择面积、宽高比、占空比和第1、2个Hu不变矩,作为提取的对象的 特征,包括如下步骤:
[0028]步骤一:对对象区域的面积、对象区域的宽高比、对象区域的占空比、Hu不变矩中 第1、2个Hu不变矩定义,假设存在对象区域,(x,y)表示像素点的坐标;
[0029]对象区域的面积定义为:R中的像素点总数,公式如下:
[0031]即对象区域的零阶矩;
[0032]对象区域的宽高比定义为:
[0034] 其中,
[0035] RW=max{x | (x,y) GR}_min{x | (x,y) GR}
[0036] RH=max{y | (x,y) GR}-min{y | (x,y) GR}
[0037] 对象区域的占空比,即对象区域的面积与外接矩形面积之比,可表示为:
[0039] Hu不变矩中第1、2个Hu不变矩定义如下:
[0040] <}) i=n2〇+n〇2
[0041 ] #2 = (jj20 + ?|02)2 + 4?!^
[0042] 完成定义。
[0043]步骤二:采用支持向量机(SVM)分类器进行视频对象分类,以验证选择的对象特征 的有效性;在训练集线性可分情形下,构造一个最优超平面(? x)+b = 0,使这个超平面满 足约束条件yi[( w ? x)+b]彡 1,i = l,2,'" ? 1;
[0044]同时使下面的函数取得最小值
[0046] 通过求解最优化问题可得最优超平面的形式如下:
[0048]其中SV是支持向量,af是拉格朗日乘子,bo为最优超平面的偏置;在训练集线性不 可分时,我们引进松弛因子L彡〇及惩罚参数C;在约束yi [ ( ? ? x) +b ]多1,i = 1,2,….1下最 小化函数
[0050]可得最优超平面,有了最优超平面,分类规则或分类函数只要取
[0052]即可。
[0053]优选的,在上述的一种基于语义图像检索的视频浓缩对象检索方法,所述的C2运 动对象的颜色特征注释,利用了图像的颜色矩、基于灰度共生矩阵的纹理特征和形状的七 阶不变距来提取图像的底层视觉特征,结合粗糙集对生成的特征进行选择,根据颜色特征 并以纹理特征辅助,对目标进行语义注释,包括如下步骤:
[0054] 步骤一:颜色特征提取,采用颜色的一阶中心距、二阶中心距、三阶中心距表达图 像颜色的分布,公式如下:
[0055] 一阶距:

[0061]其中,P0是第i个像素的某个颜色分量;一阶距定义了每个颜色分量的平均强度, 二阶和三阶距分别定义了颜色分量的方差和偏斜度;
[0062]步骤二:纹理特征提取,采用灰度共生矩阵方法来表示纹理特征,构造一个基于像 素间方向和距离的共生矩阵,来提取能量、熵、惯性矩、相关性等统计量作为图像的纹理特 征,灰度共生矩阵表示为口(1,」,(1,0),它描述了在0方向上,相隔(1个像素的距离,灰度值分 别为i和j的像素对数量;
[0063]能量:
[0065] 当p(i,j)的数值分布较集中于主对角线附近时,对应的ASM值较大;否则,ASM的值 较小;
[0066] 熵:
[0068]当图像纹理比较粗糙时,各p(i,j)的值较集中并且相差较大,当图像纹理比较细 时,各的值较集中并且相差较大,当图像纹理比较细时,各P( i,j)的值比较分散且相差不 大;
[0069] 惯性矩:
[0071]由于p(i,j)主要集中在主对角线附近,所以对于粗纹理來说i-j的值较小,因此对 应的C0N值比较小;相反,细纹理的C0N比较大;
[0072] 相关性:
[0074]当矩阵像元值相差很大时,则相关值小;反之,当矩阵元素均匀相等时,相关值就 大;
[0075]步骤三:形状特征提取,采用不变距作为基于区域的形状特征,以兼顾整个形状区 域内的所有像素;通过变换不敏感的几个矩来说明区域的固有特征,七个不变距来描述形 状的特征,定义如下:
[0076] <}) i = li2.o+li〇.2
[0077] <}) 2= (ii2.〇-y〇.2)2+4lii.i2
[0078] <}> 3= (ii3.〇-3lil.2)2+(ii〇.3-3li2.l)2
[0079] <}> 4= (ii3.0+iil.2)2+(y〇.3+ii2.l)2
[0080] <}> 5 = (ii3.0_3lil.2) (ii3.0+iil.2) [ (ii3.0+iil.2)2-3(li2.1+ii0.3)2] + (3li2.1-ii〇.3) (ii2.1+y〇.3) [3 (y3.0+yi.2)2-(y2.i+y0.3)2]
[0081 ] <}> 6= (y2.〇-y〇.2) [ (y3.0+yi.2)2-(y0.3+y2.i)2]+4iii.i(ii3.〇+yi.2) (y〇.3+ii2.1)
[0082] <}> 7 = (3li2.1-y〇.3) (ii3.0+yi.2) [ (ii3.0+yi.2)2-3(li0.3+y2.1)2] + (3li2.1-y〇.3) (ii2.1+y〇.3) [3 (y3.0+yi.2)2-(y2.i+y0.3)]
[0083] 其中yP,q= S (x,y)eR(x-xc)p(y-yc) q; (xc,yc)是对象的中心;
[0084] 步骤四:使用粗糙集约简,降低样本维数,减少样本个数,降低后期语义识别的复 杂度;
[0085]通过原始数据集建立系统决策表,S=(U,A,V,f)其中C为条件属集;D为决策属性 集;
[0086] 通过K均值聚类的离散化方法对原始数据中连续型数据离散化,得到样本决策表;
[0087] 利用基于属性重要性的属性约简方法来对样本决策表进行约简,得出最终的约简 结果;
[0088] 先统计未约简前由训练样本构成的分类模型对预测样本的准确率,在用约简后的 条件属性直接作为训练样本和预测样本再一次构造一个分类模型,计算出分类的准确率;
[0089] 通过实验验证选择径向基核函数,对约简后的样本集利用网格搜索法和粒子群优 化算法两种方法来确定最优的优化算法和核函数的参数(C,Y );
[0090] 用约简后的样本、核函数及其最优参数来构造分类面,通过分类模型来实现对测 试集的准确分类;
[0091] 统计约简后的准确率和用网格搜索法和粒子群优化算法对参数优化后的准确率, 对两者进行比较。
[0092] 优选的,在上述的一种基于语义图像检索的视频浓缩对象检索方法,所述的C3运 动对象的运动特征注释,使用运动矢量直方图来提取局部运动特征,步骤如下:
[0094] 先从运动估计的全局运动模型中计算出每一像素点的全局运动矢量,再与当前的 局部运动矢量合并,作为下一次迭代的初始值输入;得到相邻帧的局部运动矢量场后,取一 个运动矢量幅度阈值T m,大于此阈值的像素点定为运动像素点;然后将运动矢量的可能方 向量化为n个等间距的间隔,对于每一个运动像素点,根据它的运动矢量方向找到对应的方 向量化间隔,然后把该量化间隔的计数器加1;最后得出局部运动特征;
[0095] 上式中,g(x,y,t)表示t时刻在(x,y)点的灰度值
分别表示灰度图像和沿x 和y方向的梯度,2"和%表示第n次迭代后运动矢量在一个小邻域内的平均值,通过对邻近 点的插值来得到沒(X + t + 1)的计算;
[0096] 本方法的运动特征分类标准为运动角度每5度为一个单位,针对不同角度的运动 特征建立标准运动特征直方图;在得出运动目标的运动特征后,使用SVM分类器对目标运动 特征直方图和标准直方图匹配,通过计算目标运动特征直方图和标准直方图的相似度,进 行不同运动方向上的分类。
[0097] 优选的,在上述的一种基于语义图像检索的视频浓缩对象检索方法,所述的D对运 动对象进行语义检索包括如下分类:
[0098] D1.目标类型检索:根据目标的类型特征分为人、车、非机动车、其他四类;基于检 索选定的条件,输出高于检索条件阈值的目标;
[0099] D2.目标颜色检索:目标颜色检索可设定主色和次色;因为目标颜色不一定是单一 的,检索其中一种不能准确输出整体相似度较高的目标;所以目标颜色检索过程结合粗糙 集和目标各种颜色的权重来综合检索,将检索条件和目标的语义注释进行比对得出结果;
[0100] D3.目标运动特征检索:定义两个相同长度直方图序列的相似度是它们各个对应 直方图的相似度之和,当目标视频片段和标准运动特征直方图的原始视频片段长度不同 时,分别为N和M,设N>M,则先将较短的序列{hKN)}与长序列{hKM)}中取不同时间起点的同 长度序列计算相似度,然后求所有相似度的最大值,如下式
[0102 ]上式得出了两个不同长度序列的相似度,而且计算出短序列与长序列中最相似运 动的对应位置;
[0103] 根据检索条件得出类型、颜色、运动方向、运动速度的各项分值后,根据各项所占 权重,求出加权分数。
【附图说明】
[0104] 图1是矢量量化编码示意图;
[0105] 图2是码本模型检测流程图;
[0106] 图3是GrabCut算法前景背景分割效果图;
[0107]图4是提取视频中的运动目标和SVM的原理图;
[0108] 图5是对运动对象颜色特征分类的计算流程图;
[0109] 图6是对运动对象运动特征分类效果图;
[0110] 图7是对于运动对象特检索分数计算单元流程图;
[0111] 图8是系统整体流程图。
【具体实施方式】
[0112] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0113] 本发明公开一种基于语义图像检索的视频浓缩对象检索方法包括:运动目标的检 测计算单元;运动目标的提取计算单元;对于运动对象进行语义注释的计算单元;对运动对 象进行语义检索的计算单元。
[0114] 其中,上述的一种基于语义图像检索的视频浓缩对象检索方法,包括:对于运动对 象进行语义注释的计算单元:对运动对象外形特征分类的分类器计算单元;对运动对象颜 色特征分类的分类器计算单元;对运动对象运动特征分类的分类器计算单元。
[0115] 如图8所示,本发明公开的一种基于语义图像检索的视频浓缩对象检索方法,首先 对像素进行矢量量化编码;然后利用码本模型检测出运动目标;通过GrabCut分离前景背 景;分析运动对象的特征,对运动对象进行语义注释;按照检索条件完成视频浓缩对象的检 索。
[0116] 如图1所示,对像素进行矢量量化编码,把原始数据分割成大小相同的块,每个小 块包含了许多像素;形成由左至右、由上而下地串成一个向量;收集具有代表性的向量制作 出码本,找出其中跟此小块最接近的码字的索引值代替此小块,组成一张索引表;将此作为 原始数据压缩的结果。
[0117] 如图2所示,在上述的运动目标的检测计算单元,利用码本模型检测出运动目标, 在视频帧的每一个像素位置,为该位置建立了包含了一个或多个码字的码本;
[0118] 视频序列中一个像素点的训练序列为乂={^,^~別},该像素对应的码本为0 = {ci,C2…cl},每个码字Ci为二元组结构c.i =〈Vj.UiK'Vi .=. <R,dvi对应该码字的累积RGB三 通道的平均颜色值。% =其中各个参数分别表示码字对应像素的最小、最大亮 度值,码字出现的字数,码字在训练中未出现的最大间隔时间以及第一次和最后一次访问 的时间。
[0119] 检测像素运动情况;对于t时刻待检测的像素,将当前像素值Xt与对应的码本进行 比较,如果没有相匹配的码字,则创建一个新的码字UL =〈I,I,l,t_l,t,t>添加到其码本 中;如果匹配的码字有多个,则根据颜色相似度和亮度范围确定匹配最好的码字并更新码 本,公式如下
[0120] um = {min{l, lt}, max{l, lt}, fm + 1, max{Ym, t - qm}, pm, t)
[0121] 当训练结束后,为每个码字Cl更新未访问的最大时间间隔1^为
[0122] T i=max{ T i,N_qi+pi_l}。
[0123] 如图3中(a)所示,使用GrabCut算法分割前景背景,该算法利用了图像中的颜色信 息和边界信息,只要少量的用户交互操作即可得到比较好的分割结果。如图3中(b)所示,在 通过深度学习算法训练后,可更完整体提取出目标和背景相似的部分。
[0124] GrabCut 函数说明:
[0125] 函数原型:
[0126] void cv::grabCut(const Mat&img,Mat&mask,Rect rect,
[0127] Mat&bgdModel,Mat&fgdModel,
[0128] int iterCount,int mode)
[0129] 其中:
[0130] img一一待分割的源图像,必须是8位3通道(CV_8UC3)图像,在处理的过程中不会 被修改;
[0131] mask一一掩码图像,如果使用掩码进行初始化,那么mask保存初始化掩码信息;在 执行分割的时候,也可以将用户交互所设定的前景与背景保存到mask中,然后再传入 GrabCut函数;在处理结束之后,mask中会保存结果。mask只能取以下四种值:
[0132] GCD_BGD(=0),背景;
[0133] GCD_FGD( = 1),前景;
[0134] GCD_PR_BGD(=2),可能的背景;
[0135] GCD_PR_FGD(=3),可能的前景。
[0136] 如果没有手工标记⑶或者(X:D_FGD,那么结果只会有GCD_PR_B⑶或GCD_PR_ FGD;
[0137] rect一一用于限定需要进行分割的图像范围,只有该矩形窗口内的图像部分才被 处理;
[0138] bgdModel--背景模型,如果为null,函数内部会自动创建一个bgdMode 1 ; bgdMode 1必须是单通道浮点型(CV_32FC1)图像,且行数只能为1,列数只能为13x5;
[0139] f gdModel--前景模型,如果为null,函数内部会自动创建一个f gdMode 1 ; fgdModel必须是单通道浮点型(CV_32FC1)图像,且行数只能为1,列数只能为13x5;
[0140] iterCount--迭代次数,必须大于0;
[0141] mode--用于指示grabCut函数进行什么操作,可选的值有:
[0142] GC_INIT_WITH_RECT( =0),用矩形窗初始化GrabCut;
[0143] GC_INIT_WITH_MASK( = 1),用掩码图像初始化GrabCut;
[0144] GC_EVAL(=2),执行分割。
[0145] 完成目标与背景的分离。
[0146] 对运动目标进行语义注释分为三类:运动对象的外形特征注释;运动对象的颜色 特征注释;运动对象的运动特征注释。
[0147] 如图4所示,在上述的运动对象的外形特征注释,选择面积、宽高比、占空比和第1、 2个Hu不变矩,作为提取的对象的特征,包括如下步骤:
[0148] 步骤一:对对象区域的面积、对象区域的宽高比、对象区域的占空比、Hu不变矩中 第1、2个Hu不变矩定义,假设存在对象区域,(x,y)表示像素点的坐标;
[0149] 对象区域的面积定义为:R中的像素点总数,公式如下:
[0151] 即对象区域的零阶矩;
[0152] 对象区域的宽高比定义为:
[0154] 其中,
[0155] RW=max{x | (x,y) GR}-min{x | (x,y) GR}
[0156] RH=max{y | (x,y) GR}-min{y | (x,y) GR}
[0157] 对象区域的占空比,即对象区域的面积与外接矩形面积之比,可表示为:
[0159] Hu不变矩中第1、2个Hu不变矩定义如下:
[0160] <}> i=n2〇+n〇2
[0161 ] ^>2 = (?/20 + %2)2 + 4?/^
[0162] 完成定义,结果如图4中(a)所示。
[0163] 步骤二:如图4中(b)所示,采用支持向量机(SVM)分类器进行视频对象分类,以验 证选择的对象特征的有效性;在训练集线性可分情形下,构造一个最优超平面(《? x)+b = 〇,使这个超平面满足约束条件71[(?*1)+13]彡1,1 = 1,2,~.1;
[0164] 同时使下面的函数取得最小值
[0166] 通过求解最优化问题可得最优超平面的形式如下:
[0168]其中SV是支持向量,a丨;5是拉格朗日乘子,bo为最优超平面的偏置;在训练集线性不 可分时,我们引进松弛因子L彡〇及惩罚参数C;在约束yi [ ( ? ? x) +b ]多1,i = 1,2,….1下最 小化函数
[0170]可得最优超平面,有了最优超平面,分类规则或分类函数只要取
[0172] 即可。
[0173] 如图5所示,在上述的运动对象的颜色特征注释,利用了图像的颜色矩、基于灰度 共生矩阵的纹理特征和形状的七阶不变距来提取图像的底层视觉特征,结合粗糙集对生成 的特征进行选择,根据颜色特征并以纹理特征辅助,对目标进行语义注释,包括如下步骤:
[0174] 步骤一:颜色特征提取,采用颜色的一阶中心距、二阶中心距、三阶中心距表达图 像颜色的分布,公式如下:
[0175] -阶距:
[0181]其中,po是第i个像素的某个颜色分量;一阶距定义了每个颜色分量的平均强度, 二阶和三阶距分别定义了颜色分量的方差和偏斜度;
[0182]步骤二:纹理特征提取,采用灰度共生矩阵方法来表示纹理特征,构造一个基于像 素间方向和距离的共生矩阵,来提取能量、熵、惯性矩、相关性等统计量作为图像的纹理特 征,灰度共生矩阵表示为口(1,」,(1,0),它描述了在0方向上,相隔(1个像素的距离,灰度值分 别为i和j的像素对数量;
[0183]能量:
[0185] 当p(i,j)的数值分布较集中于主对角线附近时,对应的ASM值较大;否则,ASM的值 较小;
[0186] 熵:
[0188] 当图像纹理比较粗糙时,各p( i,j )的值较集中并且相差较大,当图像纹理比较细 时,各的值较集中并且相差较大,当图像纹理比较细时,各P( i,j)的值比较分散且相差不 大;
[0189] 惯性矩:
[0191] 由于p(i,j)主要集中在主对角线附近,所以对于粗纹理來说i-j的值较小,因此对 应的C0N值比较小;相反,细纹理的C0N比较大;
[0192] 相关性:
[0194] 当矩阵像元值相差很大时,则相关值小;反之,当矩阵元素均匀相等时,相关值就 大;
[0195] 步骤三:形状特征提取,采用不变距作为基于区域的形状特征,以兼顾整个形状区 域内的所有像素;通过变换不敏感的几个矩来说明区域的固有特征,七个不变距来描述形 状的特征,定义如下:
[0196] <}) l = li2.0+li〇.2
[0197] 2= (ii2.〇-y〇.2)2+4lil.l2
[0198] 3= (ii3.〇-3lil.2)2+(y〇.3-3li2.1)2
[0199] 4= (y3.〇+yi.2)2+(y〇.3+y2.i)2
[0200] 5 = (ii3.〇-3lil.2) (ii3.0+yi.2) [ (ii3.0+yi.2)2-3(li2.1+y0.3)2] + (3li2.1-y〇.3) (ii2.1+y〇.3) [3 (y3.0+yi.2)2-(y2.i+y0.3)2]
[0201 ] 6= (ii2.〇-y〇.2) [ (y3.0+yi.2)2-(y0.3+ii2.1)2]+4lil.l(li3.0+yi.2) (y〇.3+ii2.1)
[0202] 7 = (3li2.1-y〇.3) (ii3.0+yi.2) [ (ii3.0+yi.2)2-3(li0.3+y2.1)2] + (3li2.1-y〇.3) (ii2.1+y〇.3) [3 (y3.0+yi.2)2-(y2.i+y0.3)]
[0203] 其中yp,q= E(x,y)eR(x-xc)p(y-yc) q; (xc,yc)是对象的中心;
[0204] 步骤四:使用粗糙集约简,降低样本维数,减少样本个数,降低后期语义识别的复 杂度;
[0205] 通过原始数据集建立系统决策表,S=(U,A,V,f)其中C为条件属集;D为决策属性 集;
[0206] 通过K均值聚类的离散化方法对原始数据中连续型数据离散化,得到样本决策表;
[0207] 利用基于属性重要性的属性约简方法来对样本决策表进行约简,得出最终的约简 结果;
[0208] 先统计未约简前由训练样本构成的分类模型对预测样本的准确率,在用约简后的 条件属性直接作为训练样本和预测样本再一次构造一个分类模型,计算出分类的准确率;
[0209] 通过实验验证选择径向基核函数,对约简后的样本集利用网格搜索法和粒子群优 化算法两种方法来确定最优的优化算法和核函数的参数(C,Y );
[0210] 用约简后的样本、核函数及其最优参数来构造分类面,通过分类模型来实现对测 试集的准确分类;
[0211] 统计约简后的准确率和用网格搜索法和粒子群优化算法对参数优化后的准确率, 对两者进行比较。
[0212 ]如图6所示,在上述的运动对象的运动特征注释,使用运动矢量直方图来提取局部 运动特征,步骤如下:
[0214] 先从运动估计的全局运动模型中计算出每一像素点的全局运动矢量,再与当前的 局部运动矢量合并,作为下一次迭代的初始值输入;得到相邻帧的局部运动矢量场后,取一 个运动矢量幅度阈值T m,大于此阈值的像素点定为运动像素点;然后将运动矢量的可能方 向量化为n个等间距的间隔,对于每一个运动像素点,根据它的运动矢量方向找到对应的方 向量化间隔,然后把该量化间隔的计数器加1;最后得出局部运动特征;
[0215] 上式中,g(x,y,t)表示t时刻在(x,y)点的灰度值,
别表示灰度图像和沿x 和y方向的梯度,和4表示第n次迭代后运动矢量在一个小邻域内的平均值,通过对邻近 点的插值来得到PO + j +馬,t + 1)的计算;
[0216] 本方法的运动特征分类标准为运动角度每5度为一个单位,针对不同角度的运动 特征建立标准运动特征直方图;在得出运动目标的运动特征后,使用SVM分类器对目标运动 特征直方图和标准直方图匹配,通过计算目标运动特征直方图和标准直方图的相似度,进 行不同运动方向上的分类。
[0217] 如图7所示,在上述对运动对象进行语义检索包括如下分类:
[0218] 1.目标类型检索:根据目标的类型特征分为人、车、非机动车、其他四类;基于检索 选定的条件,输出高于检索条件阈值的目标;
[0219] 2 .目标颜色检索:目标颜色检索可设定主色和次色;因为目标颜色不一定是单一 的,检索其中一种不能准确输出整体相似度较高的目标;所以目标颜色检索过程结合粗糙 集和目标各种颜色的权重来综合检索,将检索条件和目标的语义注释进行比对得出结果;
[0220] 3.目标运动特征检索:定义两个相同长度直方图序列的相似度是它们各个对应直 方图的相似度之和,当目标视频片段和标准运动特征直方图的原始视频片段长度不同时, 分别为N和M,设N>M,则先将较短的序列{hKN)}与长序列{hKM)}中取不同时间起点的同长 度序列计算相似度,然后求所有相似度的最大值,如下式
[0222 ]上式得出了两个不同长度序列的相似度,而且计算出短序列与长序列中最相似运 动的对应位置;
[0223]根据检索条件得出类型、颜色、运动方向、运动速度的各项分值后,根据各项所占 权重,求出加权分数,按分数排序结果并输出。
【主权项】
1. 一种基于语义图像检索的视频浓缩对象检索方法,其特征在于,包括:运动目标的检 测计算单元;运动目标的提取计算单元;对于运动对象进行语义注释的计算单元;对运动对 象进行语义检索的计算单元。2. 基于权利要求1所述的一种基于语义图像检索的视频浓缩对象检索方法,其特征在 于,所述的对于运动对象进行语义注释的计算单元:对运动对象外形特征分类的分类器计 算单元;对运动对象颜色特征分类的分类器计算单元;对运动对象运动特征分类的分类器 计算单元。3. 基于权利要求1所述的一种基于语义图像检索的视频浓缩对象检索方法,其特征在 于,包括如下步骤: A. 数据矢量量化编码; B. 码本模型运动检测; C. 对运动对象进行语义注释; D. 对运动对象进行语义检索。4. 基于权利要求3所述的一种基于语义图像检索的视频浓缩对象检索方法,其特征在 于,所述步骤A包括如下步骤: A1.对原始数据分割成大小相同的块,每个小块包含了许多像素; A2.形成由左至右、由上而下地串成一个向量; A3.收集具有代表性的向量制作出码本,找出其中跟此小块最接近的码字的索引值代 替此小块,组成一张索引表;将此作为原始数据压缩的结果。5. 基于权利要求3所述的一种基于语义图像检索的视频浓缩对象检索方法,其特征在 于,所述步骤B包括如下步骤: B1.在视频帧的每一个像素位置,为该位置建立了包含了一个或多个码字的码本;视频 序列中一个像素点的训练序列为)(={^1,12一幼},该像素对应的码本为(:={〇 1,〇2一(^},每 个码字ci为二元组结构Ci = <Vi,Ui>; Vi = ,Vi对应该码字的累积RGB三通道的平均颜 色值;Ui =〈Hfi.Yi》,其中各个参数分别表示码字对应像素的最小、最大亮度值,码字出现 的字数,码字在训练中未出现的最大间隔时间以及第一次和最后一次访问的时间; B2.检测像素运动情况;对于t时刻待检测的像素,将当前像素值Xt与对应的码本进行比 较,如果没有相匹配的码字,则创建一个新的码字ul =〈I,1,1,t-l,t,t>添加到其码本中; 如果匹配的码字有多个,则根据颜色相似度和亮度范围确定匹配最好的码字并更新码本, 公式如下B3.当训练结束后,为每个码字Cl更新未访问的最大时间间隔Y :为 y i=max{ y i,N_qi+pi_l} 〇6. 基于权利要求3所述的一种基于语义图像检索的视频浓缩对象检索方法,其特征在 于,所述的步骤C包括如下分类: C1:运动对象的外形特征注释; C2:运动对象的颜色特征注释; C3:运动对象的运动特征注释。7.基于权利要求6所述的一种基于语义图像检索的视频浓缩对象检索方法,其特征在 于,所述的C1运动对象的外形特征注释,选择面积、宽高比、占空比和第1、2个Hu不变矩,作 为提取的对象的特征,包括如下步骤: 步骤一:对对象区域的面积、对象区域的宽高比、对象区域的占空比、Hu不变矩中第1、2 个Hu不变矩定义,假设存在对象区域,(x,y)表示像素点的坐标; 对象区域的面积定义为:R中的像素点总数,公式如下:即对象区域的零阶矩; 对象区域的宽高比定义为:其中, Rff=max{x | (x ,y) G R}-min{x | (x ,y) G R} RH=max{y| (x,y) GR}-min{y | (x,y)GR} 对象区域的占空比,即对象区域的面积与外接矩形面积之比,可表示为:Hu不变矩中第1、2个Hu不变矩定义如下: i=n2〇+n〇2 中2 =(心)+ %2)2 + 丄 完成定义; 步骤二:采用支持向量机(SVM)分类器进行视频对象分类,以验证选择的对象特征的有 效性;在训练集线性可分情形下,构造一个最优超平面(《 ? x)+b = 0,使这个超平面满足约 束条件yi[(w ?x)+b]彡l,i = l,2,"、l; 同时使下面的函数取得最小值通过求解最优化问题可得最优超平面的形式如下:其中SV是支持向量,af是拉格朗日乘子,bQ为最优超平面的偏置;在训练集线性不可分 时,我们引进松弛因子L彡〇及惩罚参数C;在约束yi [ ( ? ? x) +b]多1,i = 1,2,….1下最小化 函数可得最优超平面,有了最优超平面,分类规则或分类函数只要取即可。8.基于权利要求6所述的一种基于语义图像检索的视频浓缩对象检索方法,其特征在 于,所述的C2运动对象的颜色特征注释,利用了图像的颜色矩、基于灰度共生矩阵的纹理特 征和形状的七阶不变距来提取图像的底层视觉特征,结合粗糙集对生成的特征进行选择, 根据颜色特征并以纹理特征辅助,对目标进行语义注释,包括如下步骤: 步骤一:颜色特征提取,采用颜色的一阶中心距、二阶中心距、三阶中心距表达图像颜 色的分布,公式如下:其中,P〇是第i个像素的某个颜色分量;一阶距定义了每个颜色分量的平均强度,二阶和 三阶距分别定义了颜色分量的方差和偏斜度; 步骤二:纹理特征提取,采用灰度共生矩阵方法来表示纹理特征,构造一个基于像素间 方向和距离的共生矩阵,来提取能量、熵、惯性矩、相关性等统计量作为图像的纹理特征,灰 度共生矩阵表示为?(^(1,0),它描述了在0方向上,相隔(1个像素的距离,灰度值分别为1 和j的像素对数量; 能量:当P( i,j)的数值分布较集中于主对角线附近时,对应的ASM值较大;否则,ASM的值较 小; 熵:当图像纹理比较粗糙时,各P(i,j)的值较集中并且相差较大,当图像纹理比较细时,各 的值较集中并且相差较大,当图像纹理比较细时,各P( i,j)的值比较分散且相差不大; 惯性矩: 由于P(i,j)主要集中在主对角线附近,所以对于粗纹理來说i-j的值较小,因此对应的 CON值比较小;相反,细纹理的CON比较大;相关性:当矩阵像元值相差很大时,则相关值小;反之,当矩阵元素均匀相等时,相关值就大; 步骤三:形状特征提取,采用不变距作为基于区域的形状特征,以兼顾整个形状区域内 的所有像素;通过变换不敏感的几个矩来说明区域的固有特征,七个不变距来描述形状的 特征,定义如下: l = li2.0+li〇.2 伞 2= (y2.〇-y〇.2)2+4iii.i2 伞 3= (ii3.〇-3lil.2)2+(y〇.3-3li2.1)2 <i>4= (y3.〇+yi.2)2+(y〇.3+y2.i)2 伞 5= (ii3.〇-3lil.2) (ii3.0+yi.2) [ (ii3.0+yi.2)2-3(li2.1+y〇.3)2] + (3li2.1-y〇.3) (ii2.1+y〇.3) [3(ii3.0 +yi.2)2-(y2.i+y〇.3)2] 6 = (ii2.〇-y〇.2) [ (y3.0+yi.2)2-(y〇.3+ii2.1)2]+4lil.l(li3.0+yi.2) (y〇.3+ii2.1) 7 = (3ii2.1-y〇.3) (ii3.0+yi.2) [ (ii3.0+yi.2)2-3(li〇.3+y2.1)2] + (3li2.1-y〇.3) (ii2.1+y〇.3) [3(ii3.0 +yi.2)2-(y2.i+y〇.3)] 其中yp,q= E(x,y)eR(x-xc)p(y-yc) q; (xc,yc)是对象的中心; 步骤四:使用粗糙集约简,降低样本维数,减少样本个数,降低后期语义识别的复杂度; 通过原始数据集建立系统决策表,S = (U,A,V,f)其中C为条件属集;D为决策属性集; 通过K均值聚类的离散化方法对原始数据中连续型数据离散化,得到样本决策表; 利用基于属性重要性的属性约简方法来对样本决策表进行约简,得出最终的约简结 果; 先统计未约简前由训练样本构成的分类模型对预测样本的准确率,在用约简后的条件 属性直接作为训练样本和预测样本再一次构造一个分类模型,计算出分类的准确率; 通过实验验证选择径向基核函数,对约简后的样本集利用网格搜索法和粒子群优化算 法两种方法来确定最优的优化算法和核函数的参数(c,Y ); 用约简后的样本、核函数及其最优参数来构造分类面,通过分类模型来实现对测试集 的准确分类; 统计约简后的准确率和用网格搜索法和粒子群优化算法对参数优化后的准确率,对两 者进行比较。9.基于权利要求6所述的一种基于语义图像检索的视频浓缩对象检索方法,其特征在 于,所述的C3运动对象的运动特征注释,使用运动矢量直方图来提取局部运动特征,步骤如 下:先从运动估计的全局运动模型中计算出每一像素点的全局运动矢量,再与当前的局部 运动矢量合并,作为下一次迭代的初始值输入;得到相邻帧的局部运动矢量场后,取一个运 动矢量幅度阈值1,大于此阈值的像素点定为运动像素点;然后将运动矢量的可能方向量 化为n个等间距的间隔,对于每一个运动像素点,根据它的运动矢量方向找到对应的方向量 化间隔,然后把该量化间隔的计数器加1;最后得出局部运动特征; 上式中,g(x,y,t)表示t时刻在(x,y)点的灰度值,分别表示灰度图像和沿x和y 方向的梯度,《^和%表示第n次迭代后运动矢量在一个小邻域内的平均值,通过对邻近点的 插值来得到沒(x +五n.,y十&,:t +丄)的计算; 本方法的运动特征分类标准为运动角度每5度为一个单位,针对不同角度的运动特征 建立标准运动特征直方图;在得出运动目标的运动特征后,使用SVM分类器对目标运动特征 直方图和标准直方图匹配,通过计算目标运动特征直方图和标准直方图的相似度,进行不 同运动方向上的分类。10.基于权利要求3所述的一种基于语义图像检索的视频浓缩对象检索方法,其特征在 于,所述的D对运动对象进行语义检索包括如下分类: D1.目标类型检索:根据目标的类型特征分为人、车、非机动车、其他四类;基于检索选 定的条件,输出高于检索条件阈值的目标; D2.目标颜色检索:目标颜色检索可设定主色和次色;因为目标颜色不一定是单一的, 检索其中一种不能准确输出整体相似度较高的目标;所以目标颜色检索过程结合粗糙集和 目标各种颜色的权重来综合检索,将检索条件和目标的语义注释进行比对得出结果; D3.目标运动特征检索:定义两个相同长度直方图序列的相似度是它们各个对应直方 图的相似度之和,当目标视频片段和标准运动特征直方图的原始视频片段长度不同时,分 别为N和M,设N>M,则先将较短的序列{lu (N)}与长序列{lu (M)}中取不同时间起点的同长度 序列计算相似度,然后求所有相似度的最大值,如下式上式得出了两个不同长度序列的相似度,而且计算出短序列与长序列中最相似运动的 对应位置; 根据检索条件得出类型、颜色、运动方向、运动速度的各项分值后,根据各项所占权重, 求出加权分数。
【文档编号】G06F17/30GK106055653SQ201610381555
【公开日】2016年10月26日
【申请日】2016年6月1日
【发明人】夏春秋
【申请人】深圳市唯特视科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1