基于多标签柔性支持向量机的分类方法

文档序号:6612689阅读:492来源:国知局
专利名称:基于多标签柔性支持向量机的分类方法
技术领域
本发明属于标签技术领域,特别地涉及一种基于多标签柔性支持向量机的分类方法。
背景技术
随着信息时代的到来,多媒体数据已经实现了爆炸性的增长。标签,作为多媒体的内容形式之一,能帮助解决数据挖掘方面很多重要的现实应用,特别是在跨媒体领域,体现出非常重要的作用。例如,利用合适的标签作为图像注释的一部分,可以开发出强大的图像标注和图像检索技术;利用合适的标签作为电影评论的一部分,可以开发出有效的电影推荐系统;利用合适的标签作为网页标记的一部分,可以开发出更有效率的搜索引擎。标签的种类是多种多样的,由于数据量日新月异爆炸性的增长,仅仅依靠数据处·理人员对所有的数据手工加标签是不现实的。在这种前提下,社会标签就应运而生了。社会标签,又称合作标签,社会分类法,是一种让普通大众用户能将在线的数字资源和自己提供的标签做关联的方法,是由用户产生的、对网络内容进行组织和共享的自下而上的组织分类体系。在这里,普通民众都可以通过在线环境在相应的系统中为自己感兴趣的数字资源添加自己觉得合适的标签。正是基于这种特点,社会标签的结果往往是不准确的,包含有很多噪声,因为每一位参与社会标签的普通用户都不能排除自己的主观性,粗心大意,甚至是缺乏耐心去提供一个完美的标签。为了更好的利用社会标签为进一步的数据处理分析服务,必须尽可能的提高标签分类的准确度,降低噪声对标签分类的影响。同时,由于标签的种类是多种多样的,因此,多标签抗噪分类器应运而生,并且有着非常广阔的应用前景和非常重要的实用价值。传统的鉴别型分类器应用到多标签分类问题中时,一般将多标签问题转化为一对多(One Vs All)的分类模式,即把多标签分类问题转化为多个二分类问题。传统的鉴别型分类器在这个转化过程中并没有用到多标签空间中所包含的信息。而实际上,数据被标上的标签越多,标签空间中包含的信息也就越多,这些信息可以被利用起来。当判断数据点是否应该标上某个标签时,该数据点已有的其他标签会对判断起到一定的帮助作用。例如,当一幅包含动物的图像已有的标签为天空,云,草地,树木的时候,它更可能被标上的标签是鸟而不是鱼;而当一幅包含动物的图像已有的标签为水,水草,大海,珊瑚的时候,它更有可能被标上的标签是鱼而不是鸟。多标签空间中包含的信息在某种程度上可以帮助我们更好的进行分类,降低噪声对分类的影响。

发明内容
为解决上述问题,本发明的目的在于提供一种基于多标签柔性支持向量机的分类方法,用于利用多标签空间中包含的信息来提高鉴别型分类器在多标签分类中的分类精度,降低噪声标签对分类的影响。为实现上述目的,本发明的技术方案为
—种基于多标签柔性支持向量机的分类方法,包括以下步骤首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,所述新型的距离度量方法为将多标签训练集表示为训练集中的每个点Ife I:都被标上了多种多样的标签,整个训练集的标签字典组成了s维的多标签空间T,多标签训练集中的每个点#,· e J在视角r中的特征向量表示为Xi,在标签字典中的标签向量表示为Φ = (dia,dij2,. . . , dijS)',其中du e {0,1} , I彡r彡S表示字典中的第r个标签I;是否在Ii中出现,同时用yi, r表示Ii的分类标签,yi,r = 2· Cli,r-lo在多标签一对多(One Vs All)的分类模式中,当一个标签T1^被作为分类目标时,标签字典中其余的标签就会组成一个S-I维的标签特征空间i;,用表示Ii在空间中的特征向里,tj, r — (CliJ, ... I φ,Η,(Iij r+1 j · · ·,(Iij s),定义
权利要求
1.一种基于多标签柔性支持向量机的分类方法,其特征在于,包括以下步骤 首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离,所述新型的距离度量方法为将多标签训练集表示为I,训练集中的每个点都被标上了多种多样的标签,整个训练集的标签字典组成了 s维的多标签空间T,多标签训练集中的每个点IieJ在视角r中的特征向量表示为Xi,在标签字典中的标签向量表示为Φ = (dia, dij2, . . . , dijS);,其中du e {0,1}, I彡r彡S表示字典中的第r个标签Tr是否在Ii中出现,同时用yi,r表示Ii的分类标签,yi,r = 2 *(1^-1,在多标签一对多OneVs All的分类模式中,当一个标签T1^被作为分类目标时,标签字典中其余的标签就会组成一个S-I维的标签特征空间·£r,用表示Ii在空间1中的特征向量,
全文摘要
本发明实施例公开了一种基于多标签柔性支持向量机的分类方法,包括以下步骤首先,在多标签空间中定义一种新型的距离度量方法,用来衡量在特定的分类目标下多标签空间中点与点之间的距离;然后,在特定的分类目标下对多标签空间中的每个点定义一个邻域,某点的邻域包含在新型的距离度量方法下离中心点最近的几个点;最后,结合每个样本点在多标签空间中的邻域信息,利用提出的一种新的多标签柔性支持向量机分类器进行多标签分类训练。本发明用于利用多标签空间中包含的信息来提高鉴别型分类器在多标签分类中的分类精度,降低噪声标签对分类的影响。
文档编号G06K9/62GK102945371SQ20121039679
公开日2013年2月27日 申请日期2012年10月18日 优先权日2012年10月18日
发明者祁仲昂, 杨名, 张仲非, 张正友 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1