基于深度玻尔兹曼机的协同目标分割与行为识别方法与流程

文档序号:17851008发布日期:2019-06-11 22:12阅读:272来源:国知局

本发明涉及计算机视觉技术领域,特别是一种基于深度玻尔兹曼机的协同目标分割与行为识别方法。



背景技术:

人类可以在混乱的场景中实现目标的分割、识别和行为理解,但这对于计算机视觉系统却是一个严峻的挑战。主要原因之一是目标的分割、识别和行为理解分别处于图像抽象的底层、中层和高层。处于底层的分割是从图像的数据信息中提取出人们感兴趣的目标,而中层和高层的任务则是根据先验信息识别图像目标,并根据上下文信息分析和理解目标行为。近年来的许多研究表明,目标行为推理过程应该包含目标分割与识别问题,准确的目标分割可以提供完整的目标特征信息供高层分析,而且分割与识别是相互作用同时进行。通过结合高层的先验知识,自上而下来辅助图像分割就变得尤为重要。对于识别和分析熟悉的目标行为,利用目标的先验形状是一种有效的方法。F.Lecumberry等人将多类的先验形状以高阶多模板方式嵌入水平集函数实现同时目标分割与分类。C.Yuan等人通过稀疏字典学习行为特征的方法,结合信息最大化原理实现行为识别。M.Cheng等人把低维流形的学习与动态HMMs模型的训练有机地结合在一起,用于人体姿态估计。L.Gui等人提出基于水平集分割和HMMs相结合的实现从下而上与从上而下的协同推理方法。当面对大量的样本数据,这类方法存在分割精度低,识别稳定性弱等不足,同时由于各种干扰因素的存在,比如噪声、遮挡、背景混乱等,使得这类问题更具有挑战性。



技术实现要素:

本发明的目的在于提供一种克服上述现有技术不足的基于深度玻尔兹曼机的协同目标分割与行为识别方法。

为实现上述目的,本发明的技术方案是:一种基于深度玻尔兹曼机的协同目标分割与行为识别方法,按以下步骤实现:

步骤S1:建立目标的先验行为训练库S,记为S={(Q1,l1),(Q2,l2),…,(Qn,ln)};其中,n为样本个数,Q为目标的行为,l为行为的标记;一个目标行为由T个连续形状构成,即Q={q1,…,qT};形状q采用概率的方式定义,q:Ω→[0,1],其中Ω为图像的定义域,任意x∈Ω,q(x)表示x属于形状的概率;定义Ω中q(x)≥0.5的区域为目标区域,剩余区域为背景区域;假设目标的行为分为K类,用K维向量表示,记为l=(l1;l2;…;lK);

步骤S2:利用深度玻尔兹曼机对目标行为训练库构建学习模型,其中最底层是目标的多张形状,最高层是行为标签;为相应形状q1,…,qT的第一隐含层表示,h2为行为的隐含层表示;通过隐含层构建底层与高层的协同合作;令为学习模型的参数,其中表示qi与之间的权值,W2与W3分别表示与h2、h2与l之间的权值,a2、a3和bi分别为h2、l和qi所在层的偏值;标签层采用softmax分类方法,训练模型的能量方程定义为

步骤S3:以底层多张图像分割为出发点,根据贝叶斯推理,将目标分割看作最大化条件概率Ρ(q1,…,qT|I1,…,IT),即从给定的多张图像I1,…,IT中估计出最佳的目标形状向量q1,…,qT;假设多张图像之间相互独立,利用贝叶斯推理可得

最大化条件概率转换为最小化

上式右边第一项称为先验形状约束项,记为Es(q1,…,qT)=-logP(q1,…,qT),第二项为数据项

步骤S4:根据非参数灰度模型,计算数据项Ed(q1,…,qT);假设每张图像中像素之间是相互独立的;从图像It中估计形状qt,表示为

logP(It|qt)=∫ΩqtlogPin(It)+(1-qt)logPout(It)dx

上式qt表示目标形状,1-qt表示背景;概率Pin(It(x))表示每个像素点属于目标的概率,Pout(It(x))表示每个像素点属于背景的概率;如果以一维方式表示It∈Rm×1和qt∈Rm×1,m为图像的像素点个数,记那么,

通常待分割的目标在不同图像中会呈现不同的姿态,引入循环移位的思想解决分割过程中目标出现的形变;

步骤S5:由于目标行为的各个动作之间存在相关性,假设服从玻尔兹曼分布P(q1,…,qT)∝exp(-EDBM(q1,…,qT)),那么

Es(q1,…,qT)=-logP(q1,…,qT)=EDBM(q1,…,qT)

采用目标形状信息作为底层、中层和高层连接的纽带,利用深度玻尔兹曼机学习得到的模型作为高层先验项,合并底层数据项得到总的计算模型

步骤S6:以上模型包含四类未知参数,采用交替迭代和近似推理的方法求解,具体求解方程如下:

(1)

(2)

(3)

(4)

(5)

在本发明一实施例中,所述步骤S4中,引入循环移位的思想解决分割过程中目标出现的形变,具体方式为:假设qt为先验形状,为位移循环元,循环移位用卷积表示,采用来表示目标的形状,解决目标位移对齐问题;同理,将形状的直角坐标转换为极坐标,坐标变换记为Γ,为旋转循环元,在极坐标下用循环移位来表示目标形状解决目标旋转对齐问题。

相较于现有技术,本发明具有以下有益效果:

1)利用深度玻尔兹曼机有效捕捉先验知识(行为与动作)的层次结构信息,采用目标形状信息作为底层变分图像分割、中层目标识别和高层行为理解的纽带,通过推理和产生机理实现底层、中层和高层的协同合作;

2)建立统一的计算模型,通过变分法,使得目标分割与行为理解变成求解能量最小值的问题。在图像质量较差或者有干扰的情况下,可以有效获取目标特征信息,从而提高目标分割与识别的精度和行为理解的准确性。

附图说明

图1为本发明中基于四层玻尔兹曼机的学习模型。

图2为本发明中基于深度玻尔兹曼机的协同目标分割与行为识别方法的流程图。

图3为10个手拼单词(Chile,China,Congo,Egypt,Haiti,India,Italy,Kenya,Libya,Sudan)的样本形状,一行对应一个单词的手势形状。

图4为本发明实施例中目标分割的效果图。

具体实施方式

下面结合附图,对本发明的技术方案进行具体说明。

如图1-4所示,本发明的一种基于深度玻尔兹曼机的协同目标分割与行为识别方法,按以下步骤实现:

步骤S1:建立目标的先验行为训练库S,记为S={(Q1,l1),(Q2,l2),…,(Qn,ln)};其中,n为样本个数,Q为目标的行为,l为行为的标记;一个目标行为由T个连续形状构成,即Q={q1,…,qT},如手指拼写一个单词CHINA(行为),由5个字母手势(动作)构成;形状q采用概率的方式定义,q:Ω→[0,1],其中Ω为图像的定义域,任意x∈Ω,q(x)表示x属于形状的概率;定义Ω中q(x)≥0.5的区域为目标区域,剩余区域为背景区域;假设目标的行为分为K类,用K维向量表示,记为l=(l1;l2;…;lK);

步骤S2:利用深度玻尔兹曼机对目标行为训练库构建学习模型,其中最底层是目标的多张形状(以四层为例,见图1),最高层是行为标签;为相应形状q1,…,qT的第一隐含层表示,h2为行为的隐含层表示;通过隐含层构建底层与高层的协同合作;令为学习模型的参数,其中表示qi与之间的权值,W2与W3分别表示与h2、h2与l之间的权值,a2、a3和bi分别为h2、l和qi所在层的偏值;标签层采用softmax分类方法,训练模型的能量方程定义为

步骤S3:以底层多张图像分割为出发点,根据贝叶斯推理,将目标分割看作最大化条件概率Ρ(q1,…,qT|I1,…,IT),即从给定的多张图像I1,…,IT中估计出最佳的目标形状向量q1,…,qT;假设多张图像之间相互独立,利用贝叶斯推理可得

最大化条件概率可以转换为最小化

上式右边第一项称为先验形状约束项,记为Es(q1,…,qT)=-logP(q1,…,qT),第二项为数据项

步骤S4:根据非参数灰度模型,计算数据项Ed(q1,…,qT);假设每张图像中像素之间是相互独立的;从图像It中估计形状qt,可以表示为

logP(It|qt)=∫ΩqtlogPin(It)+(1-qt)logPout(It)dx

上式qt表示目标形状,1-qt表示背景;概率Pin(It(x))表示每个像素点属于目标的概率,Pout(It(x))表示每个像素点属于背景的概率;如果以一维方式表示It∈Rm×1和qt∈Rm×1,m为图像的像素点个数,记那么,

通常待分割的目标在不同图像中会呈现不同的姿态,可以引入循环移位的思想解决分割过程中目标会有形变,如位移、旋转等情况;假设qt为先验形状,为位移循环元,循环移位可以用卷积表示,采用来表示目标的形状,解决目标位移对齐问题;同理,将形状的直角坐标转换为极坐标,坐标变换记为Γ,为旋转循环元,在极坐标下用循环移位来表示目标形状可以解决目标旋转对齐问题;以先位移后旋转为例,形变后的形状可以表示为

步骤S5:由于目标行为的各个动作之间存在相关性,假设服从玻尔兹曼分布P(q1,…,qT)∝exp(-EDBM(q1,…,qT)),那么

Es(q1,…,qT)=-logP(q1,…,qT)=EDBM(q1,…,qT)

采用目标形状信息作为底层、中层和高层连接的纽带,利用深度玻尔兹曼机学习得到的模型作为高层先验项,合并底层数据项得到总的计算模型

步骤S6:以上模型包含四类未知参数,可以采用交替迭代和近似推理的方法求解,具体求解方程如下:

(1)

(2)

(3)

(4)

(5)

以下为本发明的具体实施过程。

如图2所示,本发明的基于深度玻尔兹曼机的协同目标分割与行为识别方法,具体实现步骤如下:

1、构造一个目标行为的训练库,包含10种行为,分别对应10个手拼单词(Chile,China,Congo,Egypt,Haiti,India,Italy,Kenya,Libya,Sudan),每个单词包含5个手拼字母图像,每个图像大小为50*50。训练库包含500个行为,部分样本集数据如附图3所示。

2、构建四层深度玻尔兹曼机,其中第一隐含层有5个分支,每个分支的结点数为300,第二隐含层的结点数为1200,最高层为标签层,标签层的维数为10。每层的迭代次数为500.

3、输入测试图像I1,…,I5,并转换为一维表示。

4、初始化形状序列q1,…,q5为先验形状的平均形状,并转换为一维表示。

5、得到每张图像的目标区域与背景区域,并计算Pin(It)和Pout(It),t=1,…,5。

6、采用循环移位的方法计算形变项解决位移和旋转变换。

7、根据底层图像I1,…,I5和q1,…,q5,计算e1,…,e5。

8、计算隐含层

9、计算隐含层

10、计算标签层

11、计算隐含层

12、计算目标形状

13、重复步骤5)-12)直至满足迭代次数要求。

14、转换q1,…,q5至二维形状,即为目标的形状序列,l为目标行为标签。

图4是上述目标分割与行为识别实例的效果图,实验图像的分辨率为50×50,图4第1行为原始图像,显然原始图像由于光照、噪声、阻挡(第二幅图像)等因素影响,手目标的特征并不明显。图4第2行、第3行、第4行、第5行、第6行图像分别对应为该算法1,3,5,7,20次迭代得到的结果(迭代次数和识别结果见图的左上角),分割结果中形状轮廓线为红色部分,识别结果为2对应训练类别里面的第2个单词(China)。从图4可以看到,本实施例中算法得到的目标轮廓与真实图像的吻合程度较高,结合高层先验行为和底层灰度特征,并利用循环移位捕捉手的位置,从而提高了目标分割的精度确。

以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1