基于协同学涨落力的图像理解方法

文档序号:6458685阅读:212来源:国知局
专利名称:基于协同学涨落力的图像理解方法
技术领域
本发明涉及图像理解、计算机视觉和协同学领域,特别是一种基于协同学 涨落力的图像理解方法。
背景技术
近年来计算机视觉技术发展迅速,场景描述和场景中目标识别是图像理解 中的核心任务,让计算机识别判断场景中有什么物体,在哪儿,解决
"what-where"问题。
在图像理解中,场景解释和场景中目标识别是重点,很多研究者都致力于 场景解释和场景中目标识别方法的研究。传统的场景解释方法主要有两大块, 一是集中于视觉心理学和生理学研究,主要研究快速场景感知的心理和生理机 理;二是研究场景分类的计算模型,通过建立简单统计计算模型实现几类场景
(室内/室外等)的判断。而传统的场景中目标识别方法主要是两大类 一是将 不同尺度的窗口遍历滑动整个图像区域,采用统计、匹配、相关等方法判断指 定窗口区域的类别或背景;二是通过统计目标间出现的可能性,构建目标间的 共生关系,对目标的表示、位置以及尺度进行鲁棒估计,完成具有上下文关系 的目标位置及类别的强预测。基于此的现有图像理解方法存在如下问题如何 用场景信息指导目标的选择注意;如何构建场景的先验信息来指导场景中的目 标识别;如何将目标识别结果构建场景描述,形成可进一步进行场景中目标识 别与场景理解的先验信息。
协同学中,系统中结构的演化并不是靠外界特定方式所规定的,系统形成 其新结构是靠自组织,而达到自组织的四个基本特点是开放性、非线性、存
在涨落力、随机性。在传统协同学竞争的过程中,当目标实体的序参量落入吸 引域中,学习即收敛结束,对于其它目标需要再重新进行学习,因此系统为 "Winner Takes All"的系统;函数F(/)表示来自系统内部或外部的各种涨落 力,但在一般情况下,涨落力被忽略。
总之,现有的图像理解方法存在难以利用先验知识提高理解准确性,在复杂场景中,无法对多个目标同时进行学习、分析和理解,针对目标的二义和多 义问题难以进行有效判断决策等不足之处。而基于协同学涨落力的图像理解方 法通过引入势函数动力学方程涨落力有效利用先验知识以及完善侧抑制项和添 加一项语义多义性注意参数项解决多目标问题和二义性目标解决相关问题。

发明内容
本发明的目的在于提供基于协同学涨落力的图像理解方法,基于协同学原 理对场景和场景中目标进行解释的方法,对场景进行描述和对场景中的目标进 行识别。
本发明的技术方案如下
一种基于协同学涨落力的图像理解方法,其特征在于它包括以下步骤
(1) 引入场景和目标先验知识涨落力的势函数构建;
(2) 动力学方程中完善侧抑制项;
(3) 在上述势函数与动力学方程基础上,实现图像理解算法。
所述的一种基于协同学涨落力的图像理解方法,其特征在于在所述的步 骤(2)、 (3)之间增加步骤(3A):动力学方程中添加语义多义性注意参数项。
所述的一种基于协同学涨落力的图像理解方法,其特征在于步骤(l)中, 在传统协同学中一般忽略F,但是由于F代表来自系统内部或外部的作用力, 通过势函数中F的使用,将场景和目标的先验知识融入到图像理解的过程中, 故先验知识可视为一种结构选择函数尸=^(力+ 6;9(力+ £70), a、 b、 c为控制 参数,其取值为0或1,场景分类中,aO)表示目标对场景的驱动,jc表示输 入的是经过语义编码的目标先验知识向量,此时由目标先验知识中目标间的关 系对场景分类进行指导;在场景中的目标识别中,-(力表示场景对目标的指导, y表示输入为经过语义编码的场景先验知识向量,y(Z)表示目标之间关系,先 验知识中已有场景分类指导目标识别同时目标之间的关系也刺激目标识别;相 应序参量的动力学方程和势函数分别如下所示
在图像理解动力学方程中,,是原型向量,《为原型向量的伴随向量,序参量&是待理解图像中场景或目标的特征,待识别模式《为输入的待理解图像 中的场景或目标,/^为注意参数,5为各原型模式吸引域之间边界的参数,C 为限制项参数;
<formula>formula see original document page 6</formula>
所述的一种基于协同学涨落力的图像理解方法,其特征在于步骤(2)中, 在传统协同学学习的过程中,为"赢者全胜"的系统,动力学方程(1)中的第三 项一侧抑制项,可以通过涨落力F,即引入的场景和目标的先验知识,改写该 侧抑制项为(D + F)Z《&, Z)-B + C,使系统成为"各取各位"的系统,而不
是"赢者全胜"网络中只有一个获胜者,通过势函数的动力学方程中的涨落力F , 融合了场景和目标的先验知识中场景对目标的指导,增加与之相关的场景或目 标的注意参数々,而降低与之关联性不大的场景或目标的注意参数,同时在改
写后的侧抑制项中,根据场景和目标的先验知识中目标间的关系,起到同样的 激励或抑制作用,最后学习的结果为多个场景或目标的序参量同时落入已知的 吸引域中,使系统的序参量层最后有多个合适序参量能够获胜,具有一定的容 错性。
所述的一种基于协同学涨落力的图像理解方法,其特征在于步骤(3A) 中,对于场景中包含具有二义性的目标,需势函数和演化系统共同作用进行场 景和目标的解释,当势函数演化时,由于先验知识的作用促进某些目标序参量 的同时抑制了某些目标序参量,使具有多义性的目标很难被识别出来,因此对 动力学方程添加一项语义多义性注意参数项,动力学方程变为
<formula>formula see original document page 6</formula>其中G-eH'ii,、,为动力学演化过程中得到的语义编码,在势函数演化
过一次后,识别出符合场景对目标指导及目标间关系的目标后,语义多义性注 意参数再发生作用,增加那些被抑制的目标序参量注意参数值,同时调用多义性目标原型向量,完成对多义性目标物体的识别,即首先识别同样场景中目标, 再识别多义性场景中目标。
与其他图像理解方法相比,本发明提出的协同图像理解方法具有以下不同 之处
*采用协同学的方法研究图像理解中的学习问题;
*建立基于图像理解先验知识涨落力的势函数演化方程;
建立具有多目标及二义性目标识别的势函数演化方程。
本发明通过改造序参量的动力学方程中的传统协同学一般忽略的涨落力F 以及势函数动力学方程中的侧抑制项,体现场景与场景中目标互为指导、互为 驱动的关系,并使系统成为"Everyone Takes Own Site"(各取各位),而不再 是"Winner Takes All"(赢者全胜)系统中只有一个获胜者,完成场景解释和 场景中的目标识别。
本发明的优点在于引入先验知识,使用传统协同学一般忽略的涨落力, 有利于图像理解过程,同时可以对多目标及二义性目标进行学习。
协同图像理解方法包括建立具有协同与竞争双重特性的势函数方程和具有 场景指导、目标驱动的势函数演化控制方法,进行场景解释和场景中的目标识 别。


图1和图2是本发明基于协同学涨落力的图像理解方法的处理流程示意图。 图3为协同图像理解过程图。
具体实施例方式
下面结合附图和具体实施方式
对本发明作进一步描述。基于协同涨落力的常规图像理解方法
势函数是动力学演化的主体,表征了模式演化的过程。协同学的主要内容 就是用演化方程来研究协同系统的各种非平衡定态和不稳定性,而图像理解的 过程是对视觉信息和知识信息的处理分析过程,对场景和目标的表示具有全局 和局部的关系。图像理解的过程对应于一个动力学过程;序参量<formula>formula see original document page 8</formula>则相应序参量的动力学方程和势函数分别如公式(l)-(3)所 示
<formula>formula see original document page 8</formula>
在图像理解中,v^是原型向量,《为原型向量的伴随向量,序参量&是待 理解图像中场景或目标的特征,待识别模式《为输入的待理解图像中的场景或 目标,A为注意参数,5为各原型模式吸引域之间边界的参数,C为限制项参 数;F称为涨落力,在传统协同学中一般忽略F,但是因为F代表来自系统内 部或外部的作用力,因此本发明通过引入F,将场景和目标的先验知识融入到 图像理解的过程中。
而图像理解的过程是场景中目标之间竞争与协同的过程,场景中目标之间 的竞争与协同构成场景与场景、目标与目标、场景与目标之间的关系,构成目 标、场景先验知识,将目标、场景先验知识经过编码成为包含语义编码的向量, 成为目标向量、场景向量,这些先验知识是进行图像理解的重要内容,故先验 知识可视为一种结构选择函数F-aa(Jc) + 6风力+ cKz), a、 b、 c为控制参数, 当进行场景分类时,a赋值为l, b和c赋值为0;当进行目标识别时,a赋值 为0, b和c赋值为l,反应外界对系统内部的作用力;
在场景分类中,a(x)表示目标对场景的驱动,x表示输入的是经过语义编 码的目标先验知识向量,忽略结构选择函数F的后两项,此时由目标先验知识 中目标间的关系对场景分类进行指导,a(x)可写为阈值选择函数形式 Z《^(jc)-S^A(x),包括类别正例项和负例项,K(x)和A(x)可设置为近似 ri值选择的Sigmoid函数且互为反函数,加权系数《和^.用于控制函数的项数 即场景分类的项数,从而形成目标驱动机制;先验知识中,当输入的目标向量 出现在某类场景概率较大时,则正例项增加;当输入的目标向量不可能出现在 某类场景概率较大时,则负例项增加<formula>formula see original document page 8</formula>在场景中的目标识别中,力表示场景对目标的指导,少表示输入为经过
语义编码的场景先验知识向量,H》表示目标之间关系,忽略结构选择函数尸
的第一项,先验知识中已有场景分类指导目标识别同时目标之间的关系也刺激 目标识别,风力=2>,^(力为一个累加函数,根据输入的场景x,每一个K(力
为阈值选择函数对ik一个经过语义编码的目标向量,输入为场景先验知识,若 该函数代表的目标属于此场景,则输出结果,若不属于,则不输出结果,权重《 表示场景指导的力度。y(z)的构造类似,z表示经过语义编码的目标间关系的 先验知识向量,如共生关系,空间关系以及姿势,则根据相应关系增加或减少
目标序参量的注意参数A值;
其中,基于协同学涨落力的图像理解方法的算法实现如下
1) 根据图像识别的需要,建立图像库,选取具有代表性的图像样本,对图像进 行预处理,获取图像中场景和场景中目标的原型向量^;
2) 求出原型向量^的伴随向量《,并存储伴随向量矩阵,从而获得网络输入 层到中间层的连接权值,完成网络学习;
3) 待识别图像向量化,计算出输入模式向量《(0);
4) 由输入模式向量《(0)和伴随向量《,求出序参量的初始值&(0);
5) 各序参量根据动力学方程(3)竞争演化,直到所有序参量稳定于某些原型 模式,待识别场景或场景中目标归入原型模式所代表的类别,从而完成对图 像的理解。基于协同涨落力的包含多目标及二义性目标图像理解方法
图像理解的过程对应于一个动力学过程;序参量<formula>formula see original document page 9</formula>则相应
序参量的动力学方程和势函数分别如公式(5) _ (7)所示
<formula>formula see original document page 9</formula>
在图像理解中,、是原型向量,《为原型向量的伴随向量,序参量&是待理解图像中场景或目标的特征,待识别模式《为输入的待理解图像中的场景或 目标,^为注意参数,5为各原型模式吸引域之间边界的参数,C为限制项参 数;F称为涨落力,在传统协同学中一般忽略F,但是因为F代表来自系统内 部或外部的作用力,因此本专利通过引入F,将场景和目标的先验知识融入到 图像理解的过程中。
而图像理解的过程是场景中目标之间竞争与协同的过程,场景中目标之间 的竞争与协同构成场景与场景、目标与目标、场景与目标之间的关系,构成目 标、场景先验知识,将目标、场景先验知识经过编码成为包含语义编码的向量, 成为目标向量、场景向量,这些先验知识是进行图像理解的重要内容,故先验 知识可视为一种结构选择函数^ = 0"(" + &/ (力+ 7(力,a、 b、 c为控制参数, 当进行场景分类时,a赋值为l, b和c赋值为0;当进行目标识别时,a赋值 为O, b和c赋值为l,反应外界对系统内部的作用力;
在场景分类中,"O)表示目标对场景的驱动,c表示输入的是经过语义编 码的目标先验知识向量,忽略结构选择函数,的后两项,此时由目标先验知识 中目标间的关系对场景分类进行指导,a(x)可写为阈值选择函数形式 i;^^00-Z^A(",包括类别正例项和负例项,W,Oc)和A(Jc)可设置为近似 ri值选择的Sigmoid函数且互为反函数,加权系数《和^.用于控制函数的项数 即场景分类的项数,从而形成目标驱动机制;先验知识中,当输入的目标向量 出现在某类场景概率较大时,则正例项增加;当输入的目标向量不可能出现在 某类场景概率较大时,则负例项增加;
在场景中的目标识别中,"oo表示场景对目标的指导,^表示输入为经过 语义编码的场景先验知识向量,w》表示目标之间关系,忽略结构选择函数F 的第一项,先验知识中已有场景分类指导目标识别同时目标之间的关系也刺激
目标识别,风力=5>^,00为一个累加函数,根据输入的场景;c,每一个K(力 为阈值选择函数对ik一个经过语义编码的目标向量,输入为场景先验知识,若 该函数代表的目标属于此场景,则输出结果,若不属于,则不输出结果,权重《 表示场景指导的力度。Kz)的构造类似,z表示经过语义编码的目标间关系的先验知识向量,如共生关系,空间关系以及姿势,则根据相应关系增加或减少 目标序参量的注意参数^值;
图像理解中场景与目标的协同分析具有相对独立性,体现了场景分类和目 标分析的并行过程;图像理解中场景与场景中的目标的包含关系,体现了场景 分类和目标分析的层次过程;同时,图像理解过程中的场景与目标互为驱动、 共同驱动的支配原理通过不同势函数的动力学特性和行为表现。
当输入待识别模式为整幅场景的特征,即序参量初始值对应于场景特征时, 而势函数的各个吸引域对应于经过语义编码的已知场景分类,即各个原型模式 为语义网络的场景模式。由于势函数是一个非线性动力学方程,按照动力学方 式运行,直到达到稳定状态,落入某个吸引域中,该稳定状态即为该层势函数 的输出,即该序参量投影到某个原型参量的投影轴上,完成分类学习任务。如 在场景分类学习过程中,由于全局场景的特征向量的不同,可根据每种已知场 景分类,设置关于々和B的非线性函数(如均方函数或指数函数)调节吸引域 的广度和深度,以达到更好的分类效果。同样地,当输入待识别模式为场景中 目标,即序参量初始值对应于目标提取特征时,原型模式为经过语义编码的已 知目标分类进行学习;最后,输入待识别模式为语义网络定义的视觉特征,而 原型模式为经过语义编码的特征分类,体现了层次性的竞争学习过程。
在传统协同学竞争的过程中,当目标实体的序参量落入吸引域中,学习即 收敛结束,对于其它目标需要再重新进行学习,因此系统为"Winner Takes All" (赢者全胜)的系统。通过修改势函数的动力学演化方程,融合了先验知识中 场景对目标的指导,增加与之相关实体的注意参数,而降低与之关联性不大的 实体注意参数,同时在改写后的侧抑制项中,根据先验知识中目标间的关系, 起到同样的激励或抑制作用,最后学习的结果为多个实体的序参量落入已知的 吸引域中,使系统的序参量层最后有多个合适序参量能够获胜,具有一定的容 错性。
<formula>formula see original document page 11</formula>(10)
对于动力学方程中的第三项为侧抑制项,可以通过涨落力F,即系统的先验知识,改写该侧抑制项为<formula>formula see original document page 12</formula> , D = B+ C使系统成为"Everyone Takes Own Site"(各取各位),而不是WTA (赢者全胜)网络中只有一个获胜 者。
现实中会有很多目标出现在不同类别的场景中,需势函数和演化系统共同 作用进行场景和目标的解释,当势函数演化时,由于先验知识的作用促进某些 目标序参量的同时抑制了某些目标序参量,使具有多义性的目标很难被识别出 来,因此对动力学演化方程添加一项语义多义性注意参数项,演化方程变为<formula>formula see original document page 12</formula>(11)
<formula>formula see original document page 12</formula> (12)
其中<formula>formula see original document page 12</formula>,VKC1为动力学演化过程中得到的语义编码,在势函数演
化过一次后,识别出符合场景对目标指导及目标间关系的目标后,语义多义性 注意参数再发生作用,增加那些被抑制的目标序参量注意参数值,同时调用多 义性目标原型向量,完成对多义性目标物体的识别。即首先识别同样场景类中 目标,再识别多义性场景中目标,不仅节约了运行时间,也提高了识别效率, 势函数演化方程的作用正体现了系统协同与竞争的机制。
其中,基于协同学涨落力的图像理解方法的算法实现如下
1) 根据图像识别的需要,建立图像库,选取具有代表性的图像样本,对图像进 行预处理,获取图像中场景和场景中目标的原型向量^;
2) 求出原型向量v^的伴随向量《,并存储伴随向量矩阵,从而获得网络输入 层到中间层的连接权值,完成网络学习;
3) 待识别图像向量化,计算出输入模式向量《(0);
4) 由输入模式向量《(0)和伴随向量《,求出序参量的初始值&(0);
5) 各序参量根据动力学方程(10)竞争演化,直到所有序参量稳定于某些原型 模式,待识别场景或场景中目标归入原型模式所代表的类别,从而完成对图 像的理解。
6) 各序参量根据动力学方程(12)竞争演化,直到系统稳定于某原型模式,待 识别场景或场景中目标归入该原型模式所代表的类别,完成对图像理解。
权利要求
1.一种基于协同学涨落力的图像理解方法,其特征在于它包括以下步骤(1)引入场景和目标先验知识涨落力的势函数构建;(2)动力学方程中完善侧抑制项;(3)在上述势函数与动力学方程基础上,实现图像理解算法。
2. 根据权利要求1所述的一种基于协同学涨落力的图像理解方法,其特征 在于在所述的步骤(2)、 (3)之间增加步骤(3A):动力学方程中添加语义 多义性注意参数项。
3. 根据权利要求1或2所述的一种基于协同学涨落力的图像理解方法,其 特征在于步骤(1)中,在传统协同学中一般忽略F,但是由于F代表来自 系统内部或外部的作用力,通过势函数中F的使用,将场景和目标的先验知识 融入到图像理解的过程中,故先验知识可视为一种结构选择函数 i^aa(jc) + ^00 + c^(z), a、 b、 c为控制参数,其取值为0或1,场景分类中,表示目标对场景的驱动,;c表示输入的是经过语义编码的目标先验知识向 量,此时由目标先验知识中目标间的关系对场景分类进行指导;在场景中的目 标识别中,-(力表示场景对目标的指导,^表示输入为经过语义编码的场景先 验知识向量,y(z)表示目标之间关系,先验知识中已有场景分类指导目标识别 同时目标之间的关系也刺激目标识别;相应序参量的动力学方程和势函数分别 如下所示在图像理解动力学方程中,K是原型向量,《为原型向量的伴随向量,序 参量&是待理解图像中场景或目标的特征,待识别模式《为输入的待理解图像 中的场景或目标,^为注意参数,5为各原型模式吸引域之间边界的参数,C 为限制项参数;&=;i^—c《—(5+c)JX2^ (1)<formula>formula see original document page 3</formula>
4.根据权利要求l、 2或3所述的一种基于协同学涨落力的图像理解方法, 其特征在于步骤(2)中,在传统协同学学习的过程中,为"赢者全胜"的系统, 动力学方程(1)中的第三项一侧抑制项,可以通过涨落力F,即引入的场景和 目标的先验知识,改写该侧抑制项为(Z) + F)Z《4 , "-B + C,使系统成为"各取各位"的系统,而不是"赢者全胜"网络中只有一个获胜者,通过势函数的动力 学方程中的涨落力F,融合了场景和目标的先验知识中场景对目标的指导,增 加与之相关的场景或目标的注意参数々,而降低与之关联性不大的场景或目标 的注意参数,同时在改写后的侧抑制项中,根据场景和目标的先验知识中目标 间的关系,起到同样的激励或抑制作用,最后学习的结果为多个场景或目标的 序参量同时落入已知的吸引域中,使系统的序参量层最后有多个合适序参量能 够获胜,具有一定的容错性。
5.根据权利要求2所述的一种基于协同学涨落力的图像理解方法,其特征 在于步骤(3A)中,对于场景中包含具有二义性的目标,需势函数和演化系 统共同作用进行场景和目标的解释,当势函数演化时,由于先验知识的作用促 进某些目标序参量的同时抑制了某些目标序参量,使具有多义性的目标很难被 识别出来,因此对动力学方程添加一项语义多义性注意参数项,动力学方程变为& =仏-C《(4)其中G = v^,为动力学演化过程中得到的语义编码,在势函数演化过一次后,识别出符合场景对目标指导及目标间关系的目标后,语义多义性注 意参数再发生作用,增加那些被抑制的目标序参量注意参数值,同时调用多义 性目标原型向量,完成对多义性目标物体的识别,即首先识别同样场景中目标, 再识别多义性场景中目标。
全文摘要
本发明公开了一种基于协同学涨落力的图像理解方法,利用协同学解决图像理解中相关问题。本发明-基于协同学涨落力的图像理解方法通过引入势函数动力学方程涨落力有效利用先验知识以及完善侧抑制项和添加一项语义多义性注意参数项解决多目标问题和二义性目标解决相关问题,体现场景与场景中目标互为指导、互为驱动的关系,并使系统成为“Everyone Takes Own Site”,而不再是“Winner Takes All”系统中只有一个获胜者,完成场景解释和场景中的目标识别。
文档编号G06K9/64GK101315662SQ20081002237
公开日2008年12月3日 申请日期2008年6月28日 优先权日2008年6月28日
发明者冯文刚, 吴克伟, 张旭东, 昭 谢, 隽 高 申请人:合肥工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1