基于图像与文字的无监督联合视觉概念学习系统及方法与流程

文档序号:13760490阅读:194来源:国知局
本发明涉及一种计算机视觉领域的视觉概念方法,具体是一种基于图像与文字的无监督联合视觉概念学习系统及方法。
背景技术
:在计算机视觉领域,传统的图像分类与目标检测方法或多或少地依赖于人工标注,如图像级别的或图像示例级别的标签。近年来随着计算机技术的发展与大数据的出现,大规模的视觉概念学习成为一个新兴研究热点,而人工标注百万甚至千万级别的数据决非易事,因此利用无监督学习来进行大规模的视觉概念学习正是时下需求。由于单从图片本身来学习视觉概念尤为困难,现有的方法多借助监督或弱监督来完成。现有的视觉概念学习方法主要分为两类:基于搜索引擎与基于社交资源的方法。基于搜素引擎的方法利用BINGAPI等输入关键查找词来搜集训练图片,再将关键词作为视觉概念的类别标签;而基于社交资源的方法直接利用社交平台的图片与相关文字描述进行联合视觉概念学习。Chen等人在2013年的《IEEEInternationalConferenceonComputerVision》(IEEEICCV)会议上发表的“Neil:Extractingvisualknowledgefromwebdata”一文中提出了一种基于搜索引擎的视觉概念学习方法,它先对每一个概念搜集一部分图片,然后迭代地挖掘图片中各示例的常识关系(如位置关系等),再用搜索得到的结果不断精细化视觉概念的检测器。然而这种基于搜索引擎的方法需要手工设置视觉概念的种类,由于数量庞大在实际应用中并不可行;并且搜索得到的图像比自然图像要简单得多,也就不能学习到各物体的多样性。Socher等人在2013年的《NIPSDeepLearningWorkshop》会议上发表“Groundedcompositionalsemanticsforfindinganddescribingimageswithsentences”一文中提出了一种基于社交网络资源的视觉概念学习方法。这种方法利用Flickr网站上的用户上传的图片及带噪声的图片标签来训练概念检测器。这种方法没有利用人工输入的标签,但是没有考虑到概念之间的相似性(如“ship”与“sailboat”都属于“boat”),这会造成视觉概念的冗余,不能得到鲁棒的物体检测与分类器。技术实现要素:本发明针对现有技术中的缺陷,提供了一种基于图像与文字的无监督联合视觉概念学习系统及方法,利用无监督的自动学习可以有效解决大规模数据下人工标定的实现繁复问题。根据本发明的第一目的,提供一种基于图像与文字的无监督联合视觉概念学习方法,包括:文字解析步骤:对于给定的句子描述利用文字解析工具提取相应的名词,对句中的每个词进行词性标注并提取出单数和复数名词作为基数示例学习模块的标签;除了名词本身,还提取名词对应基数即数量作为基数示例学习的附加约束信息;基数示例学习步骤:首先提取句子描述所对应图像中的显著区域,再利用文字解析步骤中提取到的基数信息引导多示例学习的分类器训练每个视觉概念,即对每幅图像提取基数相应数量的物体个数来提高视觉概念学习的分类准确性,得到视觉概念分类器;该步骤训练所得的每个视觉概念分类器将作为文字解析步骤的输入;多任务聚类步骤:将基数示例学习步骤训练得到的视觉概念分类器利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念来处理概念间的多样性,以获得更加紧致和鲁棒的视觉概念。优选地,所述文字解析步骤中:对名词基数的提取分为“准确”和“大致”两种,“准确”的基数由名次前面的数量修饰词决定,而“大致”的复数名词基数定义为“2”,因为至少有两个物体对应图中。优选地,所述基数示例学习步骤,是针对图像区域块级别做处理而不是整幅图像级别,因为一幅自然图像往往包含多个物体。优选地,所述基数示例学习步骤,其中图像不包含对应示例,则称为“负包”,图像至少含有一个对应示例,则称为“正包”,每一个“负包”的分类误差是包中所有示例分数的最大值,每一个“正包”的分类误差是相应基数个示例的误差平均;最终分类误差函数为所有“正包”与“负包”分类误差之和。更优选地,所述基数示例学习步骤,相比于一个包只提取一个正例的方法,能够提取图像中的更多示例,获得泛化性能更强的分类器。更优选地,所述基数示例学习步骤,其中分类误差函数利用随即梯度下降法来训练直至网络收敛。优选地,所述多任务聚类步骤,其目标函数由聚类误差和正则化误差两项组成。更优选地,所述正则化误差为:衡量权重量级的惩罚函数与衡量类内与类间相似度的正则函数。根据本发明的第二目的,提供一种基于图像与文字的无监督联合视觉概念学习系统,包括:文字解析模块、基数示例学习模块和多任务聚类模块,所述文字解析模块,对于给定的句子描述利用文字解析工具提取相应的名词,对句中的每个词进行词性标注并提取出单数和复数名词作为基数示例学习模块的标签;除了名词本身,还提取名词对应基数即数量作为基数示例学习模块的附加约束信息;所述基数示例学习模块,首先提取句子描述所对应图像中的显著区域,再利用上一模块中提取到的基数信息引导多示例学习的分类器训练每个视觉概念,即对每幅图像提取基数相应数量的物体个数来提高视觉概念学习的分类准确性,得到视觉概念分类器;该模块训练所得的每个视觉概念分类器将作为下一模块的输入;所述多任务聚类模块,将基数示例学习模块训练得到的视觉概念分类器利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念来处理概念间的多样性,以获得更加紧致和鲁棒的视觉概念。优选地,所述文字解析模块,除了单数和复数名词本身可以作为视觉概念的标签,还提取名词对应基数作为下一模块的附加约束信息。优选地,所述文字解析模块名词基数的提取分为“准确”和“大致”两种,“准确”的基数由名次前面的数量修饰词决定,而“大致”的复数名词基数(如“some”)我们定义为“2”因为至少有两个物体对应图中,名词基数的提取能为下一模块提供信息,增进场景理解。所述基数示例学习模块,首先提取每幅图像中的显著区域,再利用基数信息引导多示例学习的分类器训练每个视觉概念,即对每幅图像提取基数相应数量的物体个数,相较于常规多示例学习的一个包只提取一个正例,本系统能提取场景描述所对应数量的正例提高视觉概念学习的分类准确性。优选地,所述基数示例学习模块针对图像区域块级别做处理而不是整幅图像级别,因为一幅自然图像往往包含多个物体(如“蓝天”,“沙滩”和“游客”),若用传统图像分类的方法将整幅图像作为输入,则会导致很差的目标检测结果。优选地,所述基数示例学习模块利用多示例学习训练上一模块提取到的每个视觉概念的分类器。多示例学习这一模块与传统分类器训练的不同之处在于,每个正包中所含示例并不均为正例,而是至少含有一个;而负包中所含均为负例。优选地,对所述基数示例学习模块的每一个“负包”(即该幅图像不包含该示例)的分类误差是包中所有示例分数的最大值;每一个“正包”(即该幅图像至少含有一个对应示例)的分类误差是相应基数个示例的误差平均。优选地,所述基数示例学习模块相比于一个包只提取一个正例的方法,能够提取图像中的更多示例,获得泛化性能更强的分类器,从而增进场景理解与目标检测的能力优选地,所述基数示例学习模块的误差函数利用随机梯度下降法来训练直至网络收敛。所述多任务聚类模块,处理概念间的多样性,比如“girl”和“policeman”均指代“people”,因此为了获得更加鲁棒的分类器,利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念。优选地,由于提取名词的多样性,比如“girl”和“policeman”均指代“people”,因此为了获得更加鲁棒的分类器,利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念。优选地,所述多任务聚类模块的目标函数由聚类误差和正则化误差两项组成。更优选地,所述正则化误差为:衡量权重量级的惩罚函数与衡量类内与类间相似度的正则函数。与现有技术相比,本发明具有如下的有益效果:现有大规模数据下人工标定的实现繁复:现有基于搜索引擎的方法需要手工设置视觉概念的种类,且搜索得到的图像过于简单,不具有多样性;现有非基于引擎搜索的方法没有考虑概念之间的相似性会造成视觉概念的冗余,不能得到鲁棒的物体检测与分类器。本发明针对上述问题,采用上述无监督视觉概念学习的技术方案,利用自然语言处理与显著区域提取,提出一个基数导向的多示例学习方法,训练每个视觉概念的分类器。同时,提出多任务聚类的方法将指代相似的名词聚集到一类以获得更加鲁棒的视觉概念分类。最终能很好的解决现有大规模数据下人工标定的实现繁复的问题。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:图1为本发明一实施例中方法流程图;图2为本发明一实施例中系统的结构框图。具体实施方式下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。如图1所示,本发明针对大规模数据下人工标定的实现繁复问题,提出了一种基于图像与文字的无监督联合视觉概念学习方法:文字解析步骤:对于给定的句子描述利用文字解析工具提取相应的名词,对句中的每个词进行词性标注并提取出单数和复数名词作为基数示例学习模块的标签;除了名词本身,还提取名词对应基数即数量作为基数示例学习的附加约束信息;基数示例学习步骤:首先提取句子描述所对应图像中的显著区域,再利用文字解析步骤中提取到的基数信息引导多示例学习的分类器训练每个视觉概念,即对每幅图像提取基数相应数量的物体个数来提高视觉概念学习的分类准确性,得到视觉概念分类器;该步骤训练所得的每个视觉概念分类器将作为文字解析步骤的输入;多任务聚类步骤:利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念来处理概念间的多样性,以获得更加紧致和鲁棒的视觉概念。上述各步骤具体实现的技术参见以下系统实施例对应模块的描述。如图2所示,为对应于上述方法,实现上述方法的基于图像与文字的无监督联合视觉概念学习方法的结构框图,所述系统包括:文字解析模块,基数示例学习模块和多任务聚类模块,其中:所述文字解析模块,对于给定的句子描述利用文字解析工具提取相应的名词,对句中的每个词进行词性标注并提取出单数和复数名词作为基数示例学习模块的标签;除了名词本身,还提取名词对应基数即数量作为基数示例学习模块的附加约束信息;所述基数示例学习模块,首先提取句子描述所对应图像中的显著区域,再利用上一模块中提取到的基数信息引导多示例学习的分类器训练每个视觉概念,即对每幅图像提取基数相应数量的物体个数来提高视觉概念学习的分类准确性,得到视觉概念分类器;该模块训练所得的每个视觉概念分类器将作为下一模块的输入;所述多任务聚类模块,利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念来处理概念间的多样性,以获得更加紧致和鲁棒的视觉概念。本实施例中,所述的文字解析模块名词基数的提取分为“准确”和“大致”两种,“准确”的基数由名次前面的数量修饰词决定,而“大致”的复数名词基数(如“some”)定义为“2”因为至少有两个物体对应图中。因此,每幅图中的基数向量表示可表示为N={n1,n2,...,nK},如果列表中的第k个名词在该图中没有提到,则nk=0,否则nk等于该名词提取到的基数。本实施例中,所述的基数示例学习模块利用多示例学习训练每个视觉概念的分类器。将第k个分类器在显著区域块x上获得的分数定义为:gk(x;wk,Γ)=wkTΓx,k=1,...,K---(1)]]>Γ是将原始d维特征映射至由所有分类器共享的h维的h×d矩阵,wk是第k个视觉概念分类器的权重,x是该区域块的特征表示。本实施例中,对所述基数示例学习模块的每一个“负包”(即该幅图像不包含该示例)的分类误差是包中所有示例分数的最大值;每一个“正包”(即该幅图像至少含有一个对应示例)的分类误差是相应基数个示例的误差平均。因此,每幅图片X的分类分数为:fk(X)=1nkΣi=1nkgk(xi*),ifnk>0gk(xi*),ifnk>0---(2)]]>其中是满足的“主要示例”,是第ni个区域块的分数,nk是该包中所含有的该类别的示例基数。本实施例中,所述的基数示例学习模块相比于一个包只提取一个正例的方法,能够提取图像中的更多示例,获得泛化性能更强的分类器。本实施例中,所述的基数示例学习模块的误差函数利用随即梯度下降法来训练直至网络收敛。本实施例中,由于提取名词的多样性,比如“airplane”和“helicopter”均指代“plane”,因此为了获得更加鲁棒的分类器,利用多任务聚类将指代相似物体的名词聚集为一个大类作为视觉概念。注意到映射后的区域块特征x′i=Γx,因此该区域块的分数gk(x)=wTΓx=wTx′i,其中w是各视觉概念分类器的权重,Γ是将原始d维特征映射至由所有分类器共享的h维的h×d矩阵,其中w和Γ的取值由训练得到x是该区域块的特征表示。本实施例中,所述多任务聚类模块的目标函数由聚类误差和正则化误差两项组成:其中,聚类误差为平均分类误差:M是该类示例总数量,K是所有类别数量,wk是第k个视觉概念分类器的权重,且W=[w1,...,wk,...wK],x是该区域块的特征表示。正则化误差Ω(W,V)为:衡量权重量级的惩罚函数与衡量类内与类间相似度的正则函数:Ω(W,V)=Ωmag(W)+αΩinter(W,V)+βΩintra(W,V)(5)Ωmag是权重W的幅度惩罚项,Ωinter与Ωintra分别对类内和类间的权重作正则;α与β分别是是正则化系数;V=A(ATA)-1AT,A∈{0,1}K×T是视觉概念的聚类标签分配,若第k个视觉概念属于第t个聚类类别,则A(k,t)=1,其中K与T分别是视觉概念种类数目与聚类类别数量。对于上述非凸优化问题,采用凸函数松弛法,以优化一组半正定凸集矩阵获得参数W与V。实施效果依据上述步骤,采用
发明内容中的上述系统和上述步骤进行实施,实验所用数据来源于数据集MicroSoftCoCo的共计12万个样例,每个样例包含有一幅图片和五句语句描述。选取其中的四个大类用作实验,即:people,vehicle,airplane和monitor,因此,用训练集中的10873张图片来训练,验证集中的2568张图片来测试。本发明的特征为由卷积神经网计算得到的4096维向量。实施例系统分别比较了强监督、若监督和无监督三种方法,用于目标检测的应用。其中强监督分别比较了DPM和R-CNN两种方法,弱监督比较了PR方法,无监督比较了PBM方法,在四类物体上所获得的平均准确率分别为0.349,0.506.0.268和0.218,本发明所提出方法的平均准确率为0.454,平均准确率明显提高。实验表明,本发明提出的基于图像与文字的无监督联合视觉概念学习系统在目标检测的问题中具有很好的效果。以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1