大规模跨媒体数据分布式半监督内容识别分类方法及装置制造方法

文档序号:6619932阅读:175来源:国知局
大规模跨媒体数据分布式半监督内容识别分类方法及装置制造方法
【专利摘要】本发明公开了一种大规模跨媒体数据分布式半监督内容识别分类方法及装置,其根据不同模态特征之间数据的内在联系,既利用有便签的数据又考虑无标签的数据,挖掘出其间共存的信息,通过二值化约束来加速计算,并通过多分类的回归模型,调整基于共存信息的回归系数,使模型更准确的预测出分类标签。为了减少二值化变换所带来的信息损失,我们在共存信息上施加软约束条件,通过多次迭代逐步使数据趋向于二值化。相比于现有的快速学习分类技术,本发明提出的分类方法在准确率,效率和处理的数据规模上都有了很大的提高。
【专利说明】大规模跨媒体数据分布式半监督内容识别分类方法及装置

【技术领域】
[0001]本发明属于分布式计算和分类【技术领域】,特别涉及一种基于学习跨媒体数据域子空间的分布式半监督内容识别的快速分类方法及装置。

【背景技术】
[0002]在目前的网络时代,数据集的增长速度越来越快,已经进入了大规模数据处理时代。传统的数据挖掘处理方法通常有比较高的计算复杂度,导致其只能在数据量小的数据集上计算。不仅数据量急剧增大,数据的类型也越来越丰富,比如文本数据,图像数据,音频数据,视频数据等等。而且往往一个数据样本就会同时存在这种多类型数据特征的形式。比如一个特定的新闻事件,在互联网上会有一个网页来进行报道,其中会有文字上对这个新闻事件的描述,会有现场的图片以及视频,还会有一些现场声音或者评论员声音的内容。这样就是一个跨媒体数据样本,这样的数据虽然描述的同一件事情,但其特征结构却往往是十分复杂的。这样一种大规模跨媒体数据广泛存在于现实生活中,已经和当今的时代密不可分。但是这种跨媒体数据却存在着处理速度和处理难度上的双重困难,是一个十分有意义也十分有挑战性的任务。传统的处理方法或者只关注小数据样本,或者标签只有两个类另O,或者只有单一类型的数据特征的分类问题,不能解决多类型特征多类别标签的大规模跨媒体数据分类问题。
[0003]在大规模网络数据中,大部分数据都是无标签的原始数据。也就是说我们能利用的数据基本都没有标准的类别信息,有标签的数据相比于无标签的数据是非常少的。这是因为网络数据基本都是用户在网上的行为产生的,这些行为都是杂乱无章的。即使有一部分数据是有关联的,但是这种关联关系往往也无法形成一个确定的标签信息。对于这样的数据,采用聚类分析的方法是可以自动的学习出来标签结果。但是这样得到的标签结果是依赖聚类模型的,而且得到的标签也不是很准确的。简单的采用聚类结果作为标签是不明智的,也容易得到不准确的分类结果。因此,给网络上的数据加上标签基本都要专业的人手工添加。这样的代价是十分高的,也是十分慢的,因为网络数据样本基本都是数以百万计的。所以目前的网络数据面临着只有少部分有标签的数据和大量无标签的数据的分类问题。基于这样的数据形式,设计一种半监督分类方法显得更加实用。半监督的方法能够在利用有标签数据做分类的同时,考虑无标签数据中存在的样本内在的结构信息,最大限度的利用数据样本的内在属性信息,得到更好的分类结果。
[0004]在现有的文献里,很多处理跨媒体的数据处理方法都是基于有标签数据的,或者只是同时利用少量无标签的数据。这些方法只能在小量样本的数据集上使用,一旦数据量变得很大,处理方法就变得十分耗时,无法在实际应用场景下使用。因此,提出一种高效的跨媒体数据的分布式半监督内容识别的分类方法变得十分重要。


【发明内容】

[0005]本发明提供了一种大规模跨媒体数据分布式半监督内容识别分类方法,此分类技术可应用于跨媒体数据内容识别领域。在训练数据中既有一些有标签数据和大量无标签数据的多种类型多分类任务下,我们利用快速非监督分类方法得到所需的分类器,在分类性能上可以达到满意的效果。
[0006]为实现上述目的,本发明的技术方案为:
[0007]—种大规模跨媒体数据分布式半监督内容识别分类方法,包括如下步骤:
[0008]SlO:对分类样本的各种类型数据的特征进行抽取,将跨媒体数据转化成可用于分类的数值型数据;
[0009]S20:对步骤SlO中输入的数值型数据以及相应的标签信息,建立数学模型;
[0010]S30:对S20中建立的数学模型,推导各个变量的更新公式,以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示;
[0011]S40:利用S30中得到的分类器系数和一致性特征空间映射向量,对尚未分类的测试数据进行分类。
[0012]进一步的,步骤S20包括:
[0013]S201:将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入。将有标签数据和无标签数据联合建立成一个数据矩阵。
[0014]S202:将输入的联合数据矩阵映射成一致性特征表示,并将标签信息矩阵加入到模型中联合优化,最后得到一个跨媒体数据的半监督内容识别模型;
[0015]S203:对空间变换映射矩阵施加二值化的正则项约束,以降低不同空间映射的计算复杂度
[0016]S204:对分类系数变量施加L2范数约束,以提高系统的鲁棒性。
[0017]S205:将步骤S202得到的分类模型和步骤S203,S204中得到的各个正则项整合起来,得到统一的数学模型。
[0018]进一步的,步骤S30包括:
[0019]S301:在保持其他变量不变的前提下,更新各类型特征空间的映射向量;
[0020]S302:根据S301得到的各类型特征空间的映射向量,更新数据在一致性特征空间中新的特征表示;
[0021]S303:根据S301得到的各类型特征空间的映射向量和S302得到的一致性特征空间中的特征表示,更新分类器系数;
[0022]进一步的,步骤S40包括:
[0023]S401:对尚未分类的测试数据计算各类型特征空间的映射向量;
[0024]S402:综合多特征空间下的表示向量,得到一致性特征空间下的特征表示;
[0025]S403:根据分类器系数,得到尚未分类的测试数据的分类标签。
[0026]本发明的另一目的还在于提供一种大规模跨媒体数据分布式半监督内容识别分类装置,包括:
[0027]数据预处理模块:对分类样本的各种类型特征进行抽取,将跨媒体数据转化成可用于分类的数值型数据;
[0028]建模模块:根据转化后的数值型数据以及相应的标签信息,建立数学模型;结合跨媒体数据的分布式半监督内容识别模型、空间映射加速约束及提高模型鲁棒性约束,建立统一的数学模型并输出;
[0029]参数迭代更新模块:根据建模模块输出的数学模型,推导各个变量的更新公式,以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示;
[0030]跨媒体数据分类模块:利用参数迭代更新模块中得到的分类器系数和一致性特征空间映射向量,对尚未分类的测试数据进行分类。
[0031]进一步的,所述建模模块包括:
[0032]将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入。将有标签数据和无标签数据联合建立成一个数据矩阵。
[0033]将输入的联合数据矩阵映射成一致性特征表示,并将标签信息矩阵加入到模型中联合优化,最后得到一个跨媒体数据的半监督内容识别模型;
[0034]对空间变换映射矩阵施加二值化的正则项约束,以降低不同空间映射的计算复杂度
[0035]对分类系数变量施加L2范数约束,以提高系统的鲁棒性。
[0036]将得到的分类模型和各个正则项整合起来,得到统一的数学模型。
[0037]进一步的,所述跨媒体数据分类模块包括:
[0038]对尚未分类的测试数据计算各类型特征空间的映射向量;
[0039]综合多特征空间下的表示向量,得到一致性特征空间下的特征表示;
[0040]根据分类器系数,得到尚未分类的测试数据的分类标签。
[0041]本发明构思及优点:根据不同模态特征之间数据的内在联系,既利用有便签的数据又考虑无标签的数据,挖掘出其间共存的信息,通过二值化约束来加速计算,并通过多分类的回归模型,调整基于共存信息的回归系数,使模型更准确的预测出分类标签。为了减少二值化变换所带来的信息损失,我们在共存信息上施加软约束条件,通过多次迭代逐步使数据趋向于二值化。我们设计了基于MapReduce的分布式系统的并行计算方法,利用多台机器同时计算方法之间不相关的数据内容,使计算速度大幅提升。相比于现有的快速学习分类技术,本发明提出的分类方法在准确率,效率和处理的数据规模上都有了很大的提高。

【专利附图】

【附图说明】
[0042]图1为本发明实施例的方法流程图。

【具体实施方式】
[0043]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0044]相反,本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步,为了使公众对本发明有更好的了解,在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明.
[0045]参考图1所示的本发明实施例的大规模跨媒体数据的半监督内容识别的分类方法的流程图,其包括以下步骤:
[0046]SlO:对分类样本的各种类型特征进行抽取,将跨媒体数据转化成可用于分类的数值型数据;
[0047]S20:对步骤SlO中输入的数值型数据以及相应的标签信息,建立数学模型。具体包括步骤S201至S205:
[0048]S201:将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入。将有标签数据和无标签数据联合建立成一个数据矩阵。模型输入包括:
[0049]Np种类型的特征数据…Np,上标(P)表示第P种类型的特征数据,其中A(p)表示第P种类型的数据矩阵,af表示矩阵的第i列。假设所有样本的数目是m,并且第P种类型特征数据的特征空间维度是np,则第P种类型特征数据的矩阵表示f表示mXnp维的实数域空间。对于文本数据,其TF-1DF特征被用作输入的数值化数据;对于图像数据,其SIFT特征或者颜色直方图特征被用作输入的数值化数据。
[0050]标签矩阵1 = Cyf,上标T表示向量或者矩阵的转置,其中Yi表示第i个数据的标签向量。
[0051]S202:将输入的联合数据矩阵映射成一致性特征表示,并将标签信息矩阵加入到模型中联合优化,最后得到一个跨媒体数据的半监督内容识别模型;
[0052]由于原始的跨媒体数据的维度一般都很高,直接在原始数据上做回归模型是无法实现的。通常需要将原始特征映射到低维空间内,得到数据的低维表示,然后再加入到训练模型中。考虑到不同类型特征之间会共享一致的关系信息,同时也会有一些不同的隐藏信息。于是我们把不同类型的数据映射到同意空间内,这样我们不仅找到了不同类型特征之间的一致表达,同时在得到这种一致表达的过程中也综合了不同类型数据间的互相作用。
因此,我们将不同类型的特征A(p)映射到由映射矩阵/^=(/^,/^,...,/^)张成的空间里,
得到一致性特征空间下的特征表示W,然后训练模型得到回归系数β。
[0053]一方面,此模型挖掘出了不同类型数据之间共享的数据信息,得到了一个相比于原始数据更简洁更明确的特征表达。另一方面,通过得到多特征的一致表达,降低了回归模型的计算复杂度,加快了计算速度,这在当前的大数据分类应用下是十分有意义的。
[0054]再者,由于当前的网络数据大部分都是无标签的数据,真正有标签的数据往往是很少的,这样把无标签的数据加入到训练模型中是十分有必要的。在我们的分类模型中,我们将有标签数据和无标签数据同时放到一个大矩阵中。不失一般性,假设前N1个样本是有标签的,之后的Nu个样本是无标签的。基于此假设,W的前N1行对应的就是有标签数据的在一致性特征空间下的特征表示。同时,我们需要一个选择矩阵S,来使W矩阵和Y矩阵能够匹配。选择矩阵的具体形式为*Sf =(epe2,,其中ei表示只有第i个元素为1,其他元素全为O的单位列向量。
[0055]基于上述分析,跨媒体数据的半监督内容识别模型建立为:

【权利要求】
1.一种大规模跨媒体数据分布式半监督内容识别分类方法,包括如下步骤: SlO:对分类样本的各种类型数据的特征进行抽取,将跨媒体数据转化成可用于分类的数值型数据; S20:对步骤SlO中输入的转化后的数值型数据以及相应的标签信息,建立数学模型; S30:对S20中建立的数学模型,推导各个变量的更新公式,以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示; S40:利用S30中得到的分类器系数和一致性特征空间映射向量,对尚未分类的测试数据进行分类。
2.根据权利要求1所述的分类方法,步骤S20包括: 5201:将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入,将有标签数据和无标签数据联合建立成一个数据矩阵; 5202:将输入的联合数据矩阵映射成一致性特征表示,并将标签信息矩阵加入到模型中联合优化,最后得到一个跨媒体数据的半监督内容识别模型; 5203:对空间变换映射矩阵施加二值化的正则项约束,以降低不同空间映射的计算复杂度; 5204:对分类系数 变量施加L2范数约束,以提高系统的鲁棒性; 5205:将步骤S202得到的分类模型和步骤S203、S204中得到的各个正则项整合起来,得到统一的数学模型。
3.根据权利要求1中所述的分类方法,步骤S30包括: 5301:在保持其他变量不变的前提下,更新各类型特征空间的映射向量; 5302:根据S301得到的各类型特征空间的映射向量,更新数据在一致性特征空间中新的特征表示; 5303:根据S301得到的各类型特征空间的映射向量和S302得到的一致性特征空间中的特征表示,更新分类器系数。
4.根据权利要求1或2或3中所述的分类方法,步骤S40包括: 5401:对尚未分类的测试数据计算各类型特征空间的映射向量; 5402:综合多特征空间下的表示向量,得到一致性特征空间下的特征表示; 5403:根据分类器系数,得到尚未分类的测试数据的分类标签。
5.一种大规模跨媒体数据的分布式半监督内容识别的分类装置,包括: 数据预处理模块:对分类样本的各种类型特征进行抽取,将跨媒体数据转化成可用于分类的数值型数据; 建模模块:根据转化后的数值型数据以及相应的标签信息,建立数学模型;结合跨媒体数据的分布式半监督内容识别模型、空间映射加速约束及提高模型鲁棒性约束,建立统一的数学模型并输出; 参数迭代更新模块:根据建模模块输出的数学模型,推导各个变量的更新公式,以交替迭代的方式更新分类器系数、一致性特征空间的映射向量和在一致性特征空间下的特征表示; 跨媒体数据分类模块:利用参数迭代更新模块中得到的分类器系数和一致性特征空间映射向量,对尚未分类的测试数据进行分类。
6.根据权利要求5所述的分类装置,所述建模模块包括: 将样本的各类特征表示数据和其对应的标签信息矩阵均作为输入。将有标签数据和无标签数据联合建立成一个数据矩阵。 将输入的联合数据矩阵映射成一致性特征表示,并将标签信息矩阵加入到模型中联合优化,最后得到一个跨媒体数据的半监督内容识别模型; 对空间变换映射矩阵施加二值化的正则项约束,以降低不同空间映射的计算复杂度 对分类系数变量施加L2范数约束,以提高系统的鲁棒性。 将得到的分类模型和各个正则项整合起来,得到统一的数学模型。
7.根据权利要求5或6所述的分类装置,所述跨媒体数据分类模块包括: 对尚未分类的测试数据计算各类型特征空间的映射向量; 综合多特征空间下的表示向量,得到一致性特征空间下的特征表示; 根据分类器系数,得 到尚未分类的测试数据的分类标签。
【文档编号】G06F17/30GK104077408SQ201410331890
【公开日】2014年10月1日 申请日期:2014年7月11日 优先权日:2014年7月11日
【发明者】赵学义, 张晨逸, 张仲非 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1